4.2 汉字编码 在当今信息化时代的背景下,汉字编码是影响台湾用字习惯的一个重要因素。Big5码是过去台湾地区最通行的计算机汉字编码方式,根据《常用国字标准字体表》《次常用国字标准字体表》等汇编而成,收录汉字13000多个,但未收录被视为异体字的部分民间俗字,如“着”“堃”“煊”“喆”“銹”等,导致这些民间常用的俗字无法在计算机中正常显示[6]。 近年来,不少台湾软件改用字库规模更大的国际标准Unicode进行编码,但其中亦存在不少问题。例如,图2中的汉字在Unicode中被认为是同一编码不同字体的差异[7],而图3中的汉字却被认为是不同编码的差异。其实从字形来看,这两组字的差异都不大,区分是否应该采用同一编码或不同编码的标准不明确。 造成Unicode汉字编码混乱的直接原因是两岸及日、韩等国家向Unicode联盟提交各自的汉字编码方案,在合并时存在一些重复[8]。涉及大陆与台湾的重复编码,根本原因是两岸采用的印刷字体11在一些构字部件上存在差异。台湾的“国字标准字体”基本上沿用古籍所用“旧字形”;而大陆在整理汉字时依据“从俗从简”的原则,于1965年修订《印刷通用汉字字形表》,称为“新字形”[9]。不少新旧字形的差异被误认为是简繁关系,错误地将其作为两个汉字对待,在Unicode中赋予不同的编码。实际上,这种字形差异是同一汉字在不同字体下表现出的差异,应当赋予相同的编码12。 (责任编辑:admin) |