语言文学网-学术论文、书评、读后感、读书笔记、读书名言、读书文摘!

语文网-语言文学网-读书-中国古典文学、文学评论、书评、读后感、世界名著、读书笔记、名言、文摘-新都网

林茂灿:大规模语料与AI相结合的语言学研究可以上路了

http://www.newdu.com 2019-10-08 今日语言学 林茂灿 参加讨论

    《中国语音学报》近期刊登了祖漪清等人的论文《用语言复制方法记录濒危语言——锡伯语案例》。该文提出用人工智能技术记录濒危语言的一种新方法,我们从这一研究成果看到:大规模语料与AI技术的深度结合对语言学研究、语言资源保护以及AI技术发展将产生重要推动作用。
    
    2017年,美国科学家提出了话语罗塞塔(Speaking Rosetta)计划,旨在通过未知语言的语音和已知语言的文本平行关系记录没有文字的未知语言(通常是濒危语言)。
    祖漪清等人于2015年在工信部的一个研究项目“智能化语音技术及其产业化——面向少数民族的智能语音技术及其系统”中开展锡伯语的语音合成工作,这一工作使他们产生了对濒危语言进行语言复制的构想:利用语音合成、语音识别和机器翻译等技术对濒危语言进行语言复制。多语种、多发音人的语音识别系统在语言分类和语言共性研究等方面积累的经验,可以借鉴到濒危语言处理领域,并帮助开发者较快地实现一个濒危语言的语言复制。
    该文提出的语言复制是对一个语言的基本面貌进行记录。常规录音数据能够提供的至多是这个语言的声音效果。而一旦有了这个濒危语言的语言复制系统,则可以输入主流语言或参考语言的任意文字或语音,通过转换输出这个濒危语言相应的语音内容。基于主流语言或参考语言的系统框架,完成语言复制需要建立目标语言的语音合成系统、语音识别系统以及该语言与主流语言之间的翻译系统。语言复制系统输出的语音并不是自然语音,而是通过语音合成技术合成出来的语音。当一个濒危语言真的消失了,人们仍然可以通过语言复制系统和这个语言进行交互。
    有文字语言的语言复制系统框架见图1。假设主流语言或参考语言为汉语普通话,目标语言为某个濒危语言,输入任意中文文字,系统可以输出这个濒危语言的语音。同样输入任意濒危语言的文字,系统也可以输出汉语的语音。
    
    图1 有文字的语言复制系统框架
    目标语言语音合成系统是语言复制系统的基础。语音合成系统在语言保护、语言研究方面的意义远远大于实用意义。传统的语音合成方法(框架见图2)需要通过文本分析,将文本转换成语音单元,然后将语音单元序列通过合成器转换成声音。在声学建模的环节中,需要定义基本语音单元(例如音素、声母、韵母),同时还需要明确这些语音单元在连续话语中的韵律特征,即是否重读、所处韵律结构的位置等等。除此之外,基本语音单元还承载了句法功能、语用功能、情感表现等更高层次的语言学特征。如果将这些语言学特征正确地标注出来,训练出的声学模型就携带了更丰富的语言学内容。在生成合成语音时,就可以产生更丰富的表现力。
    同时,语音合成系统的输出效果也可以检验语言学知识的输入是否正确。对于主流语言,例如汉语普通话,基本语音结构的定义已经十分明确,在音段标注方面可以达到自动化水平,而包括篇章、对话、情感等其他语言学特征还有研究的空间。对于濒危语言,基本语音结构尚未揭示清楚,利用语音合成技术可以得到完整分析。例如锡伯语的基本音素定义在连续话语中发生了大量音变,在数据标注过程中可以相对完整地发现音变规律,而孤立词无法展现这些音段上的变化。如果仅仅依赖人工分析,为了排除其他音素的影响,通常只能使用孤立词语进行分析。在语音合成的数据处理过程中,研究人员有机会对连续话语的每个片段分别进行音段分析,同时又在整体上在对连续话语进行韵律等其他语言学层次的分析,通过数据标注将语言学知识传达给语音合成系统,并通过语音合成的输出检验知识的正确性。在这样的研究模式下,一定可以推动语言学研究。
    
    图2 语音合成系统的基本框架
    前面的讨论局限于有文字的濒危语言处理。而没有文字的濒危语言记录涉及的技术问题更为复杂,难度也更大,但是语音技术能够为没有文字的语言研究开拓更多的空间。
    
    汉语和少数民族语言学者,都可以利用这种语音合成系统开展自己的研究。我们认为,除了濒危语言记录,语言学家可以和人工智能工程师协作,在以下两个方面率先行动起来:(1)语音学家及语言学家利用已有知识对数据进行精细标注,标注内容包括语音结构、句法结构,直至篇章信息结构以及超音段等内容;(2)将标注好的语料,利用智能语音合成系统作为研究平台,通过合成验证的方式来细致考察输入的语言学知识是否正确。这种把大规模自然语料与人工智能AI相结合的研究方法,其成果既可研究基本语音结构,也可更深入全面地研究语句的焦点、韵律和语篇等语言学问题,当然,也可进一步提高合成语音的自然度。
    在智能语言技术已经到来之际,语言学家和语音学家应该积极行动起来,做好语音与语言数据资源建设方面的工作,为我国AI产业的发展提供坚实的数据支撑。正所谓“得语言者,得天下”,我们期待汉语和少数民族语言的研究成果能够对中国科学技术发展发挥出更加重要的作用。
    文章转载自公众号中国学派。 (责任编辑:admin)
织梦二维码生成器
顶一下
(0)
0%
踩一下
(0)
0%
------分隔线----------------------------
栏目列表
评论
批评
访谈
名家与书
读书指南
文艺
文坛轶事
文化万象
学术理论