通过各学科通力合作,将语言与歧视的研究深入到各个社会场域,发现各式偏见和歧视的内容、结构、各歧视要素之间的相关关系,预见其社会影响,不断调试算法,让人工智能产品真正服务社会。 大数据时代,人工智能越来越多地参与社会生活,个中引发的算法歧视不再似科幻般遥远,已然渗透到人类日常生活之中。各个社会群体被不同的分类标准纳入,大到种族、国家、地域、民族、宗教、性别,细微到年龄、收入、教育、身高、外貌、性取向、政治立场、消费习惯等,都有可能被算法有意无意圈中或抛弃,受到不公平待遇。 算法歧视与语言歧视关系密切 腾讯研究院曹建峰指出,算法歧视的主要来源是数据输入和算法模型本身。大数据要求的真正的全样本数据几乎无法获取,现实中存在着大量缺失、重复、失效甚至虚假的数据。即使是经过清洗相对干净的数据,也承载着人类的各种偏见。机器处理这些数据时很容易习得甚至放大这些偏见。目前,算法歧视已经引起了广泛的社会关注,对于机器处理的以语言为载体的数据,只有清楚了解语言与歧视的关系,以及歧视在语言中的主要体现与传播,才能结合语言学等多学科研究和技术手段尽可能检查并消除算法歧视。语言与歧视研究因而成为解决算法歧视的重要一环。 语言与歧视研究应包含两个层面:一个层面是语言歧视,是个人或群体因使用某种语言以及使用该语言时的某种特征,而受到不公平待遇的社会现象。典型例子如,在美法资企业简历筛选系统可能更多将面试机会发给母语为法语的申请者;国际英语机考系统由于缺乏某些民族讲英文口音的语料,导致识别这些民族口语语音材料困难,评分偏低。这种语言歧视涉及编程人员对该种语言以及使用该种语言的某种特征是否过度考虑或者忽视相关数据的采集。主要解决办法是:对个人生活可能产生重大影响的算法制定语言数据采集标准,针对性别、民族、区域等主要代表性分类,在数据收集和算法设计中对不同人群的语言使用及语言使用特征予以合理考虑,并预留出可能缺失数据的人群的比例,再对可能的语言歧视进行算法审查。或者在算法中嵌入内部审查机制,将异常数据提交人工判断,或给疑似受到歧视的对象提供申诉的渠道。如是,从数据收集、算法以及制度几个层面减少算法歧视的产生。另一个层面是语言中蕴含的社会偏见和歧视,主要分为明示的歧视和隐含的歧视两种形式。 语言中的偏见是普遍现象。虽然认知和态度上的偏见不一定导致歧视行为,但是黄家亮的社会歧视链理论提出,社会歧视是一个由偏见到制度性歧视(个人偏见→社会偏见→行为性歧视→制度性歧视)的连续发展谱系。因此研究语言中的偏见和歧视,对于我们防止算法习得语言数据中的偏见并将之放大,有着不可忽视的作用。 从语言学视角看歧视 西方对于社会歧视的研究主要集中于社会学领域,研究内容从宏观上包括社会群体的区分(如社会阶层、社会身份认同、内群体与外群体的区分等)以及群体区分与歧视的根源、发生机制、固化与变更、社会影响还有社会治理各个方面。微观层面主要体现为对不同受歧视群体比如大学毕业生、农民工、残疾人、数字文盲、女性、艾滋病患等的研究。 在语言学领域,歧视问题主要受到社会语言学和语言社会学的关注。其中,社会语言学关于歧视的研究又以批判性话语分析最为突出(近年来扩展到多模态话语分析),主要借助语言学中的语义学、语法学、语用学、语音学、语篇语言学等研究,结合传播学、社会符号学、微观社会学等,跨学科研究意识形态、权力等社会文化因素对话语的影响以及话语对社会现实的建构等。其关于歧视的研究多基于不同话语类型中性别歧视、种族歧视、文化偏见的话语策略和用语特征。例如,荷兰学者梵·迪克(Van Dijk)1984年出版的《话语中的偏见》,基于自然对话语料,系统地分析了偏见的结构和社会认知心理过程;1991年出版的《种族主义与报纸》从报纸的标题、主题、整体图式、论述与社论、引语与信息来源、修辞、文体、风格等,联系新闻话语理解和生产的认知过程进行分析,结合相关政治文化背景,阐释了报纸在种族主义再生产中所扮演的角色;1993年的《精英话语与种族歧视》揭示了精英阶层在政治、公司、学术、媒体、教育话语中,以微妙的方式,通过各种修辞手段以及话语背后的预设、言外之意和暗示,隐藏了种族歧视。 与社会语言学联系社会研究语言的研究重点不同,语言社会学从语言出发,结合多学科研究方法研究社会。其主要研究内容是语言的社会性质和社会影响,比如文字革命对社会发展的影响;对外官方话语对国家形象的建构;哈贝马斯发展了普遍语用学理论,并在此基础上建立了交往行动理论,也可以视为语言社会学研究。语言社会学关于歧视的研究集中在歧视性语言对个体、群体以及社会秩序的影响,及其与社会变迁之间的关系。比如,通过媒体对华裔报道的历时性研究发现西方社会对华人刻板印象的改变;通过分析多元文化团队参与者的问卷调查语料,揭示多元文化团队成员的语言使用策略,以及该策略对其身份认同与团队产出的影响机制;利用塞明和菲德勒的语言范畴模型(LCM)中关于语言抽象程度的4个层级分类(描述性动词、解释性动词、状态动词、形容词),从语言学视角观察个人维护内群体认知的一致性策略:使用抽象度高的表达描述内群体成员的正向行为;使用具体表达描述内群体成员的负向行为 。 相比而言,国内社会学、心理学对歧视研究较多,而语言学关于歧视的研究尚不够深入,除了语言标记性理论对歧视性语言解析较为深入外,多数研究仍停留在性别与种族歧视语言特征的表层分析,对于当今社会多样化标准区分各种社会群体语言变体研究不足,与其他学科的交融仍需深入。反观社会学,因为后工业社会的基本矛盾由人与自然关系转为人际关系,寻求社会和谐成为社会中心任务,社会学研究发生了语言学转向,据刘少杰所言,就是从人类可以观察到的社会言语行为入手,来研究现实世界以及社会生活的各个层面。然而,无论语言学还是社会学都认同:语言不仅仅表达了我们的偏见,我们说话的方式也是构建偏见的方式。如是看来,语言学在研究和消除歧视方面仍大有可为。 算法歧视的主要根源还是社会歧视 回到机器学习的黑匣子,排除算法编制人员在数据采集、样本运用、结果表征等方面对算法进行的初始价值引导,所有的算法其实都是客观的。机器没有主观情感,只会根据数据的分布概率做出选择。机器遵循客观规则产出歧视的结果,实质上就是大数据对社会现实的镜像反映。要真正消除算法歧视,我们可能需要等待更加公平的社会以及伴随的语言革命。但是,在这一理想社会到来之前,在算法大规模沿袭和放大历史累积的社会偏见之前,语言与歧视的研究至少可以帮助我们减少一些可以避免的算法歧视。又或者,大数据本身就能帮助我们更好地认识到自身的局限和偏见。Tolga Bolukbasi提到,目前词嵌入技术已经通过词向量维度消解了部分性别、种族歧视等计算歧视问题。但是显性的歧视往往与隐性的概念相联。比如,如果机器发现离职率高同个人住址与公司之间的距离关联,筛除住在郊区的申请者,就会产生地域歧视。 通过各学科通力合作,将语言与歧视的研究深入到各个社会场域,发现各式偏见和歧视的内容、结构、各歧视要素之间的相关关系,预见其社会影响,不断调试算法,让人工智能产品真正服务社会。 (本文系国家社科基金项目“现代汉语词义的基因结构及其形式化描写研究”(14BYY121)阶段性成果) (作者单位:中南财经政法大学外国语学院) (责任编辑:admin) |