语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网移动版

首页 > 学术理论 > 语言学 > 语言应用 >

语料库语言学视角下的台湾汉字简化研究(6)

 
    4.2   汉字编码 
    在当今信息化时代的背景下,汉字编码是影响台湾用字习惯的一个重要因素。Big5码是过去台湾地区最通行的计算机汉字编码方式,根据《常用国字标准字体表》《次常用国字标准字体表》等汇编而成,收录汉字13000多个,但未收录被视为异体字的部分民间俗字,如“着”“堃”“煊”“喆”“銹”等,导致这些民间常用的俗字无法在计算机中正常显示[6]。 
    近年来,不少台湾软件改用字库规模更大的国际标准Unicode进行编码,但其中亦存在不少问题。例如,图2中的汉字在Unicode中被认为是同一编码不同字体的差异[7],而图3中的汉字却被认为是不同编码的差异。其实从字形来看,这两组字的差异都不大,区分是否应该采用同一编码或不同编码的标准不明确。 
    
    
    造成Unicode汉字编码混乱的直接原因是两岸及日、韩等国家向Unicode联盟提交各自的汉字编码方案,在合并时存在一些重复[8]。涉及大陆与台湾的重复编码,根本原因是两岸采用的印刷字体11在一些构字部件上存在差异。台湾的“国字标准字体”基本上沿用古籍所用“旧字形”;而大陆在整理汉字时依据“从俗从简”的原则,于1965年修订《印刷通用汉字字形表》,称为“新字形”[9]。不少新旧字形的差异被误认为是简繁关系,错误地将其作为两个汉字对待,在Unicode中赋予不同的编码。实际上,这种字形差异是同一汉字在不同字体下表现出的差异,应当赋予相同的编码12。  (责任编辑:admin)