“汉语方言自然口语有声基础语料库建设”作为2012年度国家社科基金重大招标项目,定位为“系统有声口语语篇库”,属性为“基础性、精标注、动态监控和集成共享”。据此,该项目设定了以下目标:1.建设一个可与GIS(地理信息系统)衔接的、方言布点较均衡、语料类型较全、标注较精的系统语篇型基础方言口语库(简称“方言口语库”);2.通过建库探索方言研究的数字化。 用具体设计实现方言口语库定位 系统语篇型和基础性是方言口语库的基本定位,以下设计保证了方言口语库的基础性。 第一,语料的基础性。以口语语篇为主,辅以字、词、句等基础语料,基础语料与语篇语料互为依托,以满足汉语方言研究及应用研究的各种需求。由于大量语篇的转写标注难以全用人工完成,需要研制专用软件,而基础语料是实现语篇自动或半自动标注的支柱。话本语篇依据说话底本脱稿言说而生成,话题语篇依据说话题目(话题)和提示词当场即时言说而生成,自话语篇则未加设计、在语境现场自然言说而生成。其自然度依次递增:话本语篇<话题语篇<自话语篇,但录制与标注的难度顺序相反。话题语篇的4种下位分类依据美国的“开放语档联盟”设定的10种类型改造而得。 第二,方言布点的基础性。方言口语语篇兼具方言语言系统及其所承载的地域文化的双重基础性。为呈现这种双重基础性,方言语篇库的布点应兼顾方言与文化。方言分区与地域文化大体对应。中华文化分黄河文化与长江文化。长江以南的各大方言大体对应长江各子系文化;官话的二级区和晋语大体对应黄河各子系文化。因此,依汉语方言的一二级分区、选择地域文化中心具有典型代表的县市为方言点,覆盖了全国九个大方言区和官话的八个二级区,均为当地经济文化中心,具有地域文化代表性。 第三,语料形式与内容统一的基础性。语料形式指语言样态,语料内容指所映射的客观世界。语料形式应涵盖语篇的基本类型并自成系统,语料内容应包含语料所映射的客观世界的基本元素,二者应相互照应并平衡统一。因语篇类型较多,语料量也较大。例如方言文化语料取其多种形式,以呈现方言所承载的地域文化;话题语篇内容包含人、社会、自然以及话语等各种元素,其形式有叙述、访谈、座谈、祝福、套话、诅咒、粗口等多种。 此外,为实现方言口语库后期管理应用的动态监控和集成共享,该库将预留方言与GIS平台数据接口。这种组合数据库、计算机软硬件以及系统工程和信息科学理论的综合系统,最初用于地理科学,现广泛应用于人文社会科学领域。与GIS的结合研究已成为人文社会科学的一种新手段。方言是语言的地域性变体,与GIS有天然联系;数据库是GIS的重要构成之一,方言数据库与GIS的交融是必然之势。 两项设计保证方言口语库的“系统语篇型”。“系统语篇型”的含义:一是语料类型以语篇为主;二是语料是系统的,即预先确定收集语料的原则和比例,语料具有平衡性和系统性。两项设计是:第一,分设语篇库和基础库,前为主库,后系副库。主库有话本语篇、话题语篇和自话语篇三个子库,语料量大,时长长;副库有字、词、句三子库,各种语料类型较全、量较足。第二,语篇类型分三级,各级所含种类数成宝塔状:顶部的一级种类数目少,概括度高,便于操作;中底部的二、三级数目递增,尽量涵盖方言口语中出现的各种细类,体现语篇的系统性。设定每一小类的采录内容及时长,以控制语料平衡。 语料库设计和建设理念 第一,专库多用。方言口语库是以语篇为主体的专业语料库。但在受众设计和学科应用设计上则多元共用。 学者与大众共用。该库受众既有学者,还有方言学“票友”与其他大众。语言是人的专利与权利,人人均有,方言口语库也应人人有权享用。语料库的生命在于使用,使用的人越多越有活力。 方言与文化共用。方言承载地域文化,方言与文化的关系是一体两面。汉语方言学肇始于采集民间歌谣。用方言言说的歌谣很难用共同语记录,因此催生方言学。语篇是方言与文化的衔接点,语篇的形式属于方言系统,而文化则是语篇承载的内容之一。在设计语篇采录底本时加入地域文化,就使语料库具有了方言与文化共用的基础。要实现二者共用,还需要设计可共用的语料检索系统。 第二,方言研究的数字化。作为重大课题,项目建设应有助于学科发展。我们认为,数字时代的方言研究应有数字化利器,数字化是21世纪方言学革新研究手段的必然,由此提出方言研究数字化理念。方言研究的数字化可细化为六项:采录语料数字化;确定语料音质实验数据化;转写标注语料软件化;汇集语料数据库化;绘制方言地图平台化;刊布成果自控化。这六项基本囊括了方言研究的全过程。项目组将努力实践前四项,并为后两项做准备。 (责任编辑:admin) |