学者观点 | 李宇明、王春辉:从数据到语言数据

发布者:中国外语战略研究中心发布时间:2022-07-12浏览次数:629

科学是第一生产力。科学的发展必然会促进生产力的发展,进而也将对生产关系进行相应调整。数字科学并未将自己局限于科学领域,而是以其巨大的科学成就推动人类进入“数字经济”时代。数据不仅是数字科学的核心要素,也嬗变为数字经济的重要生产要素。2017年12月8日,中央政治局第二次集体学习,习近平总书记首次提出“要构建以数据为关键要素的数字经济”。2019年10月28~31日,中国共产党十九届四中全会召开,会议提出,“健全劳动、资本、土地、知识、技术、管理、数据等生产要素由市场评价贡献、按贡献决定报酬的机制”。这是对数据具有生产要素性质的首次明确表述,把数据与“劳动”“资本”“土地”“知识”“技术”“管理”并列为七大生产要素之一,指出可以通过市场“按贡献取酬”。2020年3月30日,《中共中央  国务院关于构建更加完善的要素市场化配置体制机制的意见》发布,对土地、劳动力、资本、技术、数据等生产要素做出了市场化的具体安排。2022年4月10日,《中共中央  国务院关于加快建设全国统一大市场的意见》发布,对“加快培育统一的技术和数据市场”有专门论述,明确指出要加快培育数据要素市场,推动数据资源开发利用。

在数据作为数字科技的关键要素、数字经济的关键生产要素的时代,“语言数据”必然成为学术研究的热点,成为发展经济争相拥有的对象。“语言数据”在中文语境里还是一个较新且较少使用的概念。在网上检索“语言数据”,可见2016年有“语言大数据联盟”的消息,2020年7月有《光明日报》发表李宇明《语言数据是信息时代的生产要素》的文章,之后有上海外国语大学设立“语言数据科学与应用”专业的硕博士学位、成立“语言数据与智慧教育研究中心”的消息,2021年9月有浙江财经大学的“语言数据创新班”招生简章等。

“语言数据”较少见用的原因是:其一,人们已习惯使用“语言材料”“语料(库)”“语言资源”这类说法。如2003年,在“973计划”的特别专项“中文语料库建设”支持下,中国科学院自动化所等单位成立了“中文语言资源联盟”(Chinese Linguistic Data Consortium)。这一联盟的建立是借鉴美国“语言资源联盟”(Linguistic Data Consortium)的经验,目的是共建共享中文资源,促进语言信息处理的技术进步。上文两个联盟中文名中的“语言资源”就与英文名中的Linguistic Data(语言数据)相对应。其二,“数据”(data)研究者,习惯用“数据”“大数据”这样的上位概念,不需要或不能自觉区分语言数据和其他数据,确须指明时才加“语言”作为限定,如“语言大数据联盟”。其三,本质上是对“语言数据”的重要性认识不足,研究还比较薄弱。

语言数据是以语言符号体系为基础构成的各种数据,内部可以细分为5类。

一、语言学科数据

指语言符号系统本身的各种数据,如语音、语汇、语法、语篇等,也包括文字、标点符号、音标等。有必要时,还可以将其分别称为语音数据、语法数据、文字数据等。语言学科数据是对语言这一客体进行研究而得到的各种认识,属于语言学知识范畴,辞书、教科书、语言学论文著作等是其通常的贮存方式。

二、话语数据

也可以称为“言语数据”,指在语言交际中产生的口语和书面语等各种数据。这类数据是语言(文字)作为载体(或主要载体)所负载的各种知识与信息,存在于人类生活、工作、学习、休闲娱乐等各个领域,是语言数据中最为丰富、最为重要的一类。话语数据可以是不同领域的,可以是单语、双语和多语的,可以是平面媒体、有声媒体、网络媒体和融媒体的。

三、语言衍生数据

涉及语言的社会属性、生存状态、媒介装备等相关数据。比如各语言(文字)的地域分布、母语和第二语言使用人口,各国的国语(或官方语言)及语言能力,各语言的重要文献数量及翻译状况,语言技术水平和语言产业状况,甚至也涉及各语言所拥有的非物质文化遗产、语言社团的综合实力及对人类的贡献等。它是语言在长期社会应用中所形成的一系列附属数据,对于衡量一种语言的生存状况、判断国际语言格局具有重要意义。

四、人工语言数据

利用语言(文字)而设计的特殊符号系统,以及运用这些特殊符号而产生的各种数据。比如盲文、手语、电报代码、旗语、灯语等,主要是将文字(或拼音符号)转写为特殊符号,用于特殊人群、特殊场合的特殊交际。在符号转换的过程中,也可加入一些特殊成分,比如手语中就加入了一些自然动作或聋人群体的传统动作。

五、语言代码数据

指生活中、科技活动中使用的各种代码和科技语言,它们通常具有高度形式化、可机读(或容易转化为机读)的特点。如专业符号、公式、图表、音乐曲谱、机读语言、编程语言,还有各类号码、条码、标记、印章、红绿灯、网络文本中的表情包甚至插图、水印等。这是最广泛意义上的语言数据。在语言生活中,这些人工语言或单独使用,或与自然语言结合使用;有些可以“翻译”为自然语言,有些不易“翻译”,但都需要以自然语言作为“元语言”进行定义、描述或解释。在一个所谓的“读图时代”“超语时代”,这些人工语言的使用越来越频繁,产生的数据越来越重要。


在英文语境中,“语言数据”(linguistic data、language data)是近几十年来使用较为频繁的术语。linguistic data大致对应于上文的语言学科数据。language data大致对应于上文的话语数据,比如“无界译者”公司提出的“语言数据倡议”(Language Data Initiative);但有时也可指称语言衍生数据,如威尔士政府的“威尔士语语言数据”(Welsh Language Data)、美国等国家或地区人口普查中的语言数据等。

语言数据的研究与应用,过去主要集中在语言学、计算语言学、信息科学等领域。随着数据科学的发展,特别是数据成为人工智能发展的主要驱动因素,语言数据的研究与应用,迅速扩展到诸多学科和社会领域,弥散到人类的各个生活空间。因为语言数据占人类数据量的大多数,语言数据的技术更新,特别是利用互联网收集话语数据的便利性和处理话语数据的能力的快速提高,促进了“数字科学”“数据科学”的迅速发展。在“数字科学”“数据科学”的发展中,语言数据发挥了举足轻重的作用,因为所处理的“数字”“数据”主要是语言数据。

未来的语言数据研究,需要清醒认识语言数据所具有的数据共性和语言特性,界定清楚语言数据的内涵与外延,研讨语言数据的功能及其实现方式,建立语言数据(资源)学科及人才培养体系,推进语言数据科学的发展。语言数据在以下四大领域发挥功能最为显著。

第一,语言保护

在语言资源保护领域,语言数据发挥了重要作用,如国家语委2008年启动的“中国语言资源有声数据库建设”,2015年启动的“中国语言资源保护工程”。但是全世界有7000多种语言,多数语言处于濒危状态,为了全球语言保护,急需为哪些语言建立语言数据库,依据什么标准建立什么样的语言数据库,怎样集世界之力联合建设和开发利用语言数据库,是需要首先解决的大问题。

第二,语言教学

在语言教学领域,语言数据发挥着决定性的作用,特别是线上教学成为主导方式的今天。要满足母语教学、外语教学、海外华语教育、国际中文教育等各种语言教学的需求,教育界和教育产业界必须把相关的各种语言数据,特别是语言学科数据和话语数据进行积聚整合,精准发送到使用者手中。

第三,语言学研究和语言产品研发

语言学研究和语言产品研发,必须依赖语言数据,比如汉语语法规律的研究离不开语料库;建立语言能力的指数评价体系需要全球的语言衍生数据;辞典本来就是一种特殊的语言数据库,特别是线上辞典,辞典编纂也早过了“抄卡片”的年代。语言数据库已成为语言学研究的基本工具,成为语言产品研发的基本建设。

第四,语言信息处理

语言信息处理是语言数据最重要的功能领域。其一,计算机要获得语言智能,能够从事“语言行为”,必须依靠大量的语言数据“饲喂”,依靠“数据驱动”;其二,计算机的“社会计算”,主要处理的就是各领域的语言数据。这一领域有许多发展中的问题,比如如何利用语言学科数据,使语言智能的发展变“数据单轮驱动”为“‘数据+规则’双轮驱动”;如何建立可以测试评价计算机语言智能和语言行为的语言数据库;如何扩充英语之外的“双语平行语料”,提升非通语种的自动翻译能力;如何解决“语言小数据”问题,提升专门社会领域、专业学术领域的语言处理问题;如何利用语言数据为特殊行业、特殊人群配备人工智能助手等。


至于说关于语言数据作为关键生产要素,应当做哪些工作,学界业界还较少讨论。也许下面这些内容是必要的:全力支持语言数据的科学研究,大力发展语言数据产业与职业,建立和完善市场机制,逐步建立语言数据收集、加工、交换、贮存及产权、收益等相关的技术标准、法律法规和政策体系,充分发挥其生产要素的经济功能和社会功能。其中语言数据库的共建共享是首要问题,可以说,从研究生做硕士、博士学位论文到每一个社科基金语言项目,从每一个辞书编纂项目到每一项自然语言处理工程,几乎人人都要建语言数据库,但却不能实现学界业界共享,其学力和财力的浪费已难以计算。

总之,语言数据是一个较新但又十分重要的话题,对它的研究超出了现有语言学的范畴,也超出了其他学科的单一学科范畴,需要多学科联袂进行交叉研究;语言数据问题也超出了学术研究范畴,成为社会发展的重要问题,需要全社会的共同参与。本专题的几篇文章,涉及语言数据安全、语言数据的经济属性、语言数据的数字化技术、语言智能技术对于数据治理的意义等论题,是关于语言数据几个问题的初始性研究。初始性研究的意义不在于解决了什么问题,而是提出问题,引发关注。希望这一期语言数据研究能得到学界的呼应和社会的支持。

(该文首发于《语言战略研究》2022年第4期,信息来源于《语言战略研究》公众号)


关闭