【摘要】两性话题选择的优先序列具有变异性,但相关研究往往关注日常言谈语境,没有针对网络虚拟语境下话题优先序列变化的研究。通过对国家语言资源监测中心网络媒体监测语料库中两性各约50万篇博客进行文本分类处理。在大规模统计数据的基础上考察了两性话题选择的优先序列及其组间差异。新媒体语境和日常言谈语境中的两性话题选择优先序列有明显区别。新媒体中的两性高频话题具有聚类相似性,但是话题组间序差明显,话题量的组间差异也存在显著性。女性在不同语境下均以“关系式”谈话为主,话题的优先序列稳定性较强。男性的话语方式由日常言谈的“报告式”向新媒体语境下的“关系式”转变,话题的优先序列波动幅度较大。 【作者】王宇波[1] 李向农[2] 【作者单位】[1]武汉大学文学院,武汉430072 [2]华中师范大学文学院,武汉430079 【关 键 词】性别语言 话题 语料库 文本分类 优先序列 【基金项目】国家社科基金青年项目(12CYY030);教育部人文社科青年项目(12YJC740106);国家语委重点科研项目(ZD1135-11) 性别语言研究是社会语言学的研究热点,同时也是心理学、社会学、人类学等多个学科领域共同关注的课题。近年来,性别语言研究的重点逐渐转向交际中的话语模式。话语模式的性别差异主要表现在话题选择、话语量、话轮控制和交际策略方面(Wardhaugh 2010)[1]。其中,话题选择的性别差异一直受到国内外学者的重视。Klein(1971)、Kramer(1974)、Aries(1976,1982)、Tannen(1991)、Myerhoff(2006)[1-7]等考察了工人阶级、中产阶级等不同社会阶层,以及美国犹太社区等不同社会族群的日常言谈话题,发现男性之间的话题焦点围绕政治、经济、体育、商业等,通常不涉及个人情感;女性之间的话题焦点倾向于感情、家庭、孩子、夫妻关系等。许力生(1997)、李经纬(1998)、赵蓉晖(2003)、崔艳英(2012)[8-11]等国内学者也对此进行过探讨,但以介绍和综述国外研究为主,缺少以汉语为语料的实证研究。 话题选择优先序列会因语境、地域、种族、文化等差异而产生变化,以往针对家庭和公共社交场合的调查研究,说话人在话题选择时容易受到交际对象、交际目的、交际场景等诸多因素的影响,虽然结论真实,但并不具有普遍性。而网络虚拟语境下,交际场合由现实的语言生活转变为虚拟的网络空间,交际对象由特定受话人转变为网络中的预设受话人,外界环境因素对作者话题选择的影响降低。尤其是新媒体中的博客,因其具有个性化、开放性、交互性、共享性等特征,文章更接近于单向独白式语体,不同于以往研究的双向会话式语体。文章更能体现的博主对话题喜好,能更真实地反映两性的话题选择倾向。同时,相比以往针对日常言谈语境的小样本调查,基于新媒体语料的大规模统计分析在数据处理上占有独特的优势,避免了因小样本和个案研究带来的偏差。再者,由于中外语言文化的差异,国外的研究结论并不一定符合汉语的性别语言特征,而且重视汉语语料、加强本土化研究符合当代语言性别差异研究的多元化、动态化、微观化和本土化的发展趋势。因此,本文基于大规模新媒体博客语料库,在文本分类处理的基础上对汉语博客中两性话题选择的优先序列所进行的实证研究和探索,可以开拓汉语性别研究的新前景,拓展新媒体下语言研究的新视野,展现性别语言差异在时代变动中的新发展,对于新媒体语言研究和监测具有理论和实践上的启示作用。 一、两性话题的文本分类过程 (一)实验文本的甄别与筛选 国家语言资源监测与研究中心的网络媒体监测分中心从2005年开始对网络新闻、网络论坛、网络文学,以及博客、微博、微信等新媒体进行动态监测,并建有网络媒体监测语料库。其中,博客语料来源于新浪博客(blog.sina.com.cn)、搜狐博客(blog.sohu.com)、中国博客(www.blogcn.com)、博客网(bokee.com)、和讯博客(blog.hexun.com)、博客大巴(www.blogbus.com)等境内著名博客网站。本文选取其中的博客语料,主要基于两个方面的因素:首先,文章作者元信息的提取原因。博客、微博、论坛的作者在社交平台上注册时会提供包括性别在内的作者身份信息,因此可以在语料爬取过程中对作者身份信息进行元数据标注,进而便于提取出有性别信息的作者。其次,文本分类的技术原因。微博和微信都比较短小,计算机对其进行文本自动分类处理时效度不高,难度较大。而博客文本相对较长,分类效果较好。因此,博客文本比微博、微信等其他新媒体语料更能有效地进行话题分类研究。 两性博客语料的筛选步骤如下:第一步,甄别身份信息真实的作者,以筛选出有效的两性博客文本。博客文本在抓取的过程中对作者身份等元数据信息进行了采集和标注,根据元数据信息筛选出标注了性别的作者及其博文。由于少数作者虽然在博客平台登记了性别等身份信息,但信息并不一定真实,如果这些不确定的文本被用于统计分析,将会影响统计结果的可靠性与可信度,因此必须抽取作者身份相对真实的博文用于统计分析。为筛选身份可信度高的文本,本文依据博客作者的“博客等级”和“博客积分”高低、“博客访问量”和“博客关注量”大小,以及是否为“加V博客认证”等标准进行甄别,筛选出博客等级和积分较高,访问量和关注量较大,同时为加V认证的作者。这类作者的博客活跃度较高,作者身份信息较为真实可信。第二步,将筛选出的作者所有博客建立语料库,编写小型程序随机抽取了博客文本共计1 008 755篇,其中男性500 889篇,女性507 866篇①。第三步,将筛选出来的语料建设成两性博客语料库,用于下一步的文本分类处理。 (二)文本分类步骤与统计结果 本文针对博客文本所特有的话题类别,进行了计算机文本分类处理,具体步骤如下:第一步,对所有博客文本进行繁简转化,剔除表情符号、图片等非文字符号。第二步,采用中科院自动化所的自动分词工具对文本进行自动分词和词性标注。第三步,用正则表达式和停用词表过滤已分好词的博客。第四步,参考新浪博客、中国博客网(博尚网)、网易博客、赵蓉晖(2003)[10]的主题类别,同时在文本抽样的基础上,确定了博客文本分类的27个话题类别。第五步,从语料库中人工筛选出用于机器学习的训练语料和测试语料。在这一过程中,人工筛选和机器学习两个方法交替进行,最后一共收集了26个话题(不包括杂谈)的文本训练语料各约500篇,测试语料各约500篇,将52组话题的约26 000篇文本用于机器学习,统计得到26个话题类别的词频表。第六步,对26个话题的词频表进行组间差异比较,筛选出各话题的高频独用词,以及词频、频序组间差异较大的词。由于这类词与话题内容关系较为密切,因此利用专家的领域知识,通过人工干预加强这类词汇的权重。第七步,按照朴素贝叶斯算法判断每篇博客的后验概率,取后验概率最大的类别作为分类结果。第八步,检验文本识别的效度,并调整识别方法,优化统计结果。下页表1为文本分类后各话题的文本数量及其差值。 (责任编辑:admin) |