张益欣、赵蓉晖:世界语言知识库概览

发布者:中国外语战略研究中心发布时间:2025-03-21浏览次数:121

世界语言知识库,指整理、收录世界语言和语言学相关知识的线上数据库和书面出版物。此类知识库从不同角度出发,收录特定语言内容的数据或介绍语言学的学术知识、研究成果,它们在为研究人员提供参考资料的同时,也向公众普及语言和语言学的基本知识。本报告收录符合上述标准的英文线上数据库和出版图书,逐一介绍,并进一步分析其中若干个具有代表性的知识库的内容框架。

一、线上数据库

线上数据库通常收录某一特定语言学领域的数据,并提供多重查询方法快速定位所需信息;与出版书籍相比,此类数据库内容通常即时更新,并大多免费公开,为公众提供便利的信息获取渠道。根据内容可将其大致分为语言文字数据库和语言学数据库。

(一)语言文字数据库

此类数据库的特点是收录世界语言的基本信息,方便研究者和公众查询语言资料。目前收录语言数量较多、影响力较大的数据库包括:

1. 世界语言网(Ethnologue)

由世界少数民族语文研究院创建的民族语言数据库,方便快速查找语言概况。该数据库目前记录了世界上超过7000种语言的基本信息,具体内容包括每种语言的地理分布、使用人数、濒危程度、ISO-693-3国际代码等。

2. 语言树(Glottolog)

由德国的马克斯·普朗克人类历史科学研究所建立的世界语言数据库,以语系分类的框架提供世界语言的基本信息,同时也关注濒危语言问题。收录内容涉及427个语系(或孤立语)的详细分类,包括8553种现代语言和古代语言的简介。

3. 世界濒危语言地图(UNESCO Atlas of the World's Languages in Danger)

由联合国教科文组织开发建设的数据库,为同名书籍的在线版,旨在通过对语言分布情况的展示增强人们对语言多样性的了解,增强对濒危语言的保护意识。它收录了世界范围内的2464种濒危语言信息,按照联合国教科文组织的语言濒危等级在地图上标出每种语言的地理位置,并附带对该语言的简介,也支持查询一个国家全部的濒危语言名单。

4. 文字资源(Script Source)

由美国国际暑期语言学院建立的文字数据库,囊括了对世界148种现存文字和107种已灭绝或艺术虚构文字的简要介绍,包括每种文字的编码、分类、历史演变等基本信息。网站支持双向查询,可以查找使用一种文字的所有语言,及一门语言使用过的所有文字,直观展示了文字和语言之间“一语多文”“一文多语”的关系。语言部分信息介绍来源于Ethnologue。

(二)语言学数据库

此类数据库以方便研究为主要目的,收录某一语言学领域的相关数据,如语音学、类型学、语义学、文字学等。目前影响力较大的数据库包括:

1. 世界语言结构地图(World Atlas of Language Structure, WALS)

由德国的马克斯·普朗克人类历史科学研究所建立的类型学数据库,提供了快速查找和比对世界语言类型学特征的平台。数据库收录了2662种语言的基本信息,并通过多个语言学指标判断每种语言的类型学特点。数据库网站支持多种可视化功能,例如,通过同时勾选多个类型学指标筛选出符合标准的语言,查找结果可以在地图上标注,从而直观展示不同语言学特征的分布规律。

2. 语言银行(Glottobank)

由新西兰的奥克兰大学创建的类型学数据库,旨在记录和展示世界语言的多样性。该数据库下设语言结构、词汇、语用、语音、计数系统5个子数据库,在建立全新语言记录和改良词典编纂方法的同时,也试图进一步揭示语言的历史演化规律。预计2022年开放。

3. 萨里形态学小组类型学数据库(Surrey Morphology Group Typological Database)

由英国萨里大学语言文学院“形态学小组”(Surrey Morphology Group)建立的数据库,它将该团队的研究成果直观呈现以便读者查阅。该数据库网站的“数据库”栏目下收录了20个各种主题的子数据库,其中13个记录语言现象,涉及词法、句法、类型学等;7个收录了各语言词汇词典、语法特征、语言概况等内容,所记录的语言分布于非洲、美洲、太平洋地区等。

4. 语言普遍性档案(Universals Archive)

由德国康斯坦茨大学“语法珍品柜”(Das grammatische Raritätenkabinett)小组建立的数据库。它从语言共性的角度分析类型学资料。网站收录了2177条有文献研究支持的语言普遍性的描述,包括所有或绝大部分语言都会展示的特征,以及由另一特征的存在必然导出的特征,每一条目下都附有专属编号和检索关键词。

5. 音系数据库(Phoible)

由德国的马克斯·普朗克人类历史科学研究所创建的语音学数据库,能够提供世界各种语言的音系信息。它收录了来自2186种语言的3183个音位,以及每种语言的完整音系描写和基本语言信息,支持多种筛查特定语言或音位的功能。

6. 加州大学洛杉矶分校语音数据库(UCLA Phonological Segment Inventory Database, UPSID)

由美国加州大学洛杉矶分校开发的语音学数据库。数据库收录了451种语言的音系描写和基本语言学信息,并支持通过各种音系学特征筛查语言,如音位数量、语系分类、指定音位等,另有对比两种语言完整音系特征的功能。它提供所收录语言的语音数据,也是Phoible数据库的资料来源之一。

7. 概念(Conception)

由马克斯·普朗克进化人类学研究所等机构资助建立的语义学数据库,旨在对不同词素进行比对以方便词汇和语义研究;以英语为主要关注对象的同时也兼具多语言数据,收录了100000多条语言中出现的概念,3908个概念集,392个概念清单;每项概念集都给出定义和所属的语义学领域,可在多个层面查找所需的语义学概念。

8. 世界借词数据库(The World Loanword Database, WOLD)

由马克斯·普朗克进化人类学研究所建立的词汇数据库,收录了41种语言的借词情况。网站支持查找特定语言的借词情况和借词来源,还可以通过概念集的方式查找一类词汇在数据库所有语言中的借词情况,查找结果亦可在互动地图上呈现。

9. 跨语言关联数据库(Cross-Linguistic Linked Data, CLLD)

由马克斯·普朗克协会建立的旨在提供语言学数据库的出版平台,简化和展示语言学相关数据,收录了21个语言相关数据库的简介和网站链接,其中既有聚焦某一特定语言学分支、收录尽可能多的世界语言数据的数据库,如本文中的世界语言结构地图(WALS)、语言树(Glottolog)等;又有许多关注特定语言或语系的数据库、语料库,如洋泾浜语和克里奥尔语结构地图(The Atlas of Pidgin and Creole Language Structures, APiCS)、南美本土语言结构在线数据库(The South American Indigenous Language Structures Online, SAILS)、比较苏族语词典(The Comparative Siouan Dictionary, CSD)等。

二、书籍类知识库

20世纪80年代起,以爱思唯尔、劳特利奇、剑桥大学出版社为代表的出版公司,陆续出版了一批语言和语言学百科全书,覆盖了语言学各领域知识。与通常关注特定主题的在线知识库相比,许多出版书籍内容更加全面完善,旨在描述总结语言学全部主要分支的概念、知识和相关研究,由相关领域专家编审,因而和介绍同类主题的在线数据库相比,往往具有更高的学术性和权威性。按照题材,可将其划分为广泛讨论语言学各领域主题的语言学百科全书、介绍世界语言知识的世界语言百科全书、就某一特定语言学主题进行讨论的专题图书三类。

(一)语言学百科全书

1. 《语言和语言学百科全书》(Encyclopedia of Language and Linguistics)

爱思唯尔出版社出版,主编为基思·布朗。该丛书提供所有语言学主要分支的内容介绍,在同类书籍中内容最为全面详尽,同时也是首部提供在线版的语言百科全书,方便查询文献原文和相关数据库。

2. 《国际语言学百科全书》(International Encyclopedia of Linguistics)

牛津大学出版社出版,主编为威廉·J.弗劳利。本书介绍语言学的各个主要分支,着重关注各分支之间与其他学科领域之间的关联,如民族语言学、社会语言学、心理语言学等。其他篇幅包括各语系语言的信息,也介绍语言学专有词汇和著名语言学家事迹等。

3. 《劳特利奇语言学百科全书》(The Routledge Linguistic Encyclopedia)

劳特利奇出版社出版,主编为基尔斯滕·马尔姆凯尔。全书分类介绍了79个语言学主题,各条目以字母表顺序排序并互相关联,支持通过附录词汇表定位书中的词条内容。比起上一版新加入了语言态度、话语分析、英语教学、手势、习语、广告语言、语言新技术、学校语境下的语言学、优选论、语言学研究方法、俚语,共11个新主题。

4. 《语言学和语音学词典》(A Dictionary of Linguistics and Phonetics)

布莱克威尔出版公司出版,主编为大卫·克里斯特尔。以词典的形式收录了3000多个词条下的5100多个语言学专有名词,较前一版更新了部分名词使用语境的演变,由此反映语言学研究领域的发展历程。

5. 《劳特利奇语言和语言学词典》(Routledge Dictionary of Language and Linguistics)

劳特利奇出版社出版,编译自德文版《语言学词典》(Lexikon der Sprachwissenschaft),原作者为哈杜莫德·布斯曼。收录了超过2000条语言学名词和语种介绍,在特定词条下配有语言谱系树、句法树等图例,方便直观解释语言学概念。

6. 《剑桥语言百科全书》(The Cambridge Encyclopedia of Language)

剑桥大学出版社出版,作者为大卫·克里斯特尔。该书共有11个主题:大众对语言的理解及态度、语言和身份认同、语言的结构、语言的产出与接收、文字书写、手语、一语习得、语言与脑功能、世界语言概况、语言交流的问题与解决方案、非语言交流方式和语言学研究,配有大量插图和案例阅读,以科普的口吻梳理介绍了语言有关的各类主题。

7. 《语言学:剑桥调查》(Linguistics: The Cambridge Survey)

剑桥大学出版社出版,主编为弗雷德里克·J.纽梅耶。全书共四册,主题分别为语言的内在结构、生成语法研究的证据、心理和神经语言学、社会语言学和人类语言学。内容以本领域各主题的讨论为框架,详细介绍了语言学各个主要分支的理论和研究成果。

8. 《语言百科全书》(An Encyclopaedia of Language)

劳特利奇出版社出版,主编为N.E.科林奇。全书从“语言的自然属性、语言与其他学科的联系、语言使用和研究”三个角度出发,对传统和应用语言学的各个领域进行了逐一介绍,也涵盖神经语言学、书写系统、语言学发展史、世界语言分布等旁支领域。对若干主题附有插图和多语言文本进行阐述。

(二)世界语言百科全书

1.《世界语言简明百科全书》(Concise Encyclopedia of Languages of the World)

爱思唯尔出版社出版,主编为基思·布朗和萨拉·奥格尔维。本书是由从《语言和语言学百科全书》中收录的377条语言和语系介绍编汇而成,按字母表顺序简单介绍了每种语言的分类、概况、语音和结构,除主要语系和古代语言外也涉及若干克里奥尔语和手语条目。

2. 《世界语言通识》(Facts about the World's Languages)

H.W.威尔森公司出版,主编为简·加里与卡尔·鲁比诺。本书按字母表顺序收录了以下三类语言的介绍:(1)使用人口在200万以上,且拥有语言学独特性和已充分研究的语言;(2)有重大语言学研究价值的古代语言,如拉丁语、阿卡德语、吐火罗语等;(3)诠释语言类型学多样性的语言,如尼夫赫语(Nivkh)、纳瓦霍语(Navajo)、瓦尔皮里语(Warlpiri)等。每项介绍包括该语言的概况、历史、文字和语音、句法词法、与其他语言的接触、例词例句。

3. 《剑桥语言调查》(Cambridge Language Surveys)

剑桥大学出版社出版。丛书共21册,每册讨论一个语系或地理区域内的语言,包含该系列语言的语言概况和全方位的语言学讨论,内容涵盖对应语言的语音、语法、文字、历史演变、标准与和方言、语言与社会等主题的介绍,也涉及不同地区的语言环境、濒危语言现状等内容。

4. 《世界语言》(The Languages of the World)

劳特利奇出版社出版,主编为肯尼思·卡茨纳和柯克·米勒。本书是面向语言爱好者的百科类书籍,将涉及到的600多种语言按照语言类型学和地理分布分类,重点介绍200多种语言的地理位置、历史、语音文字等信息,并附上双语选段以便直观了解。

5. 《劳特利奇语系系列》(Routledge Language Family Series)

劳特利奇出版社出版。丛书共23册,从各个语言学角度详细介绍了21个有影响力或重要语言学意义的语系,以及日语、韩语和孤立语,内容包括对应语系语言的语音、语法、分类、原始语构拟、语言接触等主题,附有大量参考书目和图表、地图,以便对丛书中不同语系进行比较研究。

6. 《剑桥世界古代语言百科全书》(The Cambridge Encyclopedia of the World's Ancient Languages)

剑桥大学出版社出版,主编为罗杰·D.伍达德。本书为世界上首部记录古代语言的百科全书,每章聚焦一种或几种相关联的古代语言,讨论其书写系统、音系、词法、句法和词汇,以及该种语言的语言学价值和历史地位。

7. 《世界濒危语言百科全书》(Encyclopedia of the World's Endangered Languages)

综述世界各地濒危语言情况的百科全书,劳特利奇出版社出版,主编为克里斯托弗·莫斯利。全书以地区划分章节,每一部分都包括对该地区濒危语言的名单和语种的简介,以及对语言濒危现象成因和语言政策的探讨。附录支持通过字母表排序的语言名单定位查找特定词条内容。

(三)语言学专题图书

1. 《世界语言语音》(The Sounds of the World's Languages)

约翰·威利父子出版公司出版,作者为彼得·拉迪福吉德和伊恩·麦迪森。本书提供了对世界语言中全部语音的介绍,以语音种类划分章节,数据来源于全世界400多种语言,其中包括许多作者一手调查的资料。

2. 《世界书写系统》(The World's Writing Systems)

牛津大学出版社出版,主编为彼得·T.丹尼尔斯和威廉·布赖特。本书以历史发展和地区分布为脉络介绍了世界上的所有文字系统,包括每种文字的使用方法、多语例文(原文、拉丁化转写、国际音标转写、英语对译)、已灭绝文字的破译过程和关键文物文本影印资料等内容,同时也探讨了文字学研究、文字的扩张、文字政策、印刷术、其他标注系统(如数字、速记、音标、音符等)等主题。

3. 《太平洋地区、亚洲和美洲的跨文化交流语言地图》(Atlas of Languages of Intercultural Communication in the Pacific, Asia and the Americas)

德古意特出版社出版,主编为斯蒂芬·A.沃尔姆、彼得·米尔豪斯勒和达雷尔·T.特赖恩。全书共三册,聚焦太平洋地区、亚洲和美洲地区的语言接触的历程与后果,包括地区通用语的情况、语言演变、皮钦语和克里奥尔语的形成等主题。第一册为地图集,就书中对应的语言分布、使用人口的迁徙、特定词汇和语法的扩张等讨论内容进行了直观呈现。

三、代表性知识库的内容框架

(一)世界语言结构地图(WALS)网站

网站分为三个子栏目 —“特征”“章节”“语言”,分别对应不同的数据组织和查询方法:“特征”栏目收录了192个语言类型学特征,覆盖音系、词形、词性、词序、句法等多个领域;“章节”栏目对数据库收录的所有类型学特征进行介绍,定义分类标准并总结地理分布特点;“语言栏目”包含所收录2662种语言的简单信息,如地理位置、语系划分、国际代码等。

网站支持“通过语言筛查特征”和“通过特征筛查语言”的双向功能。对于每一项类型学特征,网站会根据“章节”中的定义标准,以列表和地图标注的形式展示出符合标准的全部语言;对于每一种语言,网站同样列出了其对每一项类型学特征的表现形式。

网站使用跨语言数据格式(CLDF)处理数据,以确保不同来源数据的标准化,方便跨语言数据的交换,以及基于数据库的工具和方法的开发与应用。

(二)音系数据库(Phoible)网站

该网站汇集了多个调查项目和数据库的成果,包括联合国教科文组织达喀尔地区办事处的 “非洲语言字母系统”(Systèmes alphabétiques des langues africaines)、加州大学伯克利分校的 “南美语音库数据库”(South American Phonological Inventory Database, SAPHON)、加州大学洛杉矶分校语音数据库(UPSID)、德米特里·尼古拉耶夫创建的 “亚欧音系数据库”(The Database of Eurasian Phonological Inventories, EURPhon)等。本音系数据库汇集了上述数据库的调查数据,统一整合用CLDF格式录入,最终汇集成为内容涵盖世界所有主要语音音位、数据全面、查询便捷的在线数据库。

网站支持双向查询:通过输入语言查找音系数据和语言学信息;通过输入音位查找包含此音位的全部语言,以及其地理分布、每种语言中对应的同位异音、语音学特征、出现频率等进一步信息。两项结果都会在互动地图上显示。在每种语言的条目下附有Glottolog网站的对应链接作为拓展信息。

(三)《语言和语言学百科全书》系列丛书

全书共14册,750万字,收录了3000多篇文章,39000多条注释和近200幅语言地图。收录的条目按标题的字母顺序排序,可通过标题清单方便查找对应文章的册数和页码。每个条目除了对该语言主题的简要介绍之外,还提供大量的交叉引用,方便扩展对相关主题的了解。第14册包括词汇表、所收录语言对应的Ethnologue分布地图、缩写表、按语言学主题整理的词条名单等。内容覆盖以下36个领域:

动物交流、应用语言学、语言与脑、计算语言学和自然语言处理、语言与国家、教育语言学、语言学基础、历史和比较语言学、语言学史、语言习得、世界诸语言、语言与法律、词典编纂、语言人类学、语言与媒体、语言与医药、词法学、语言与哲学、语音学、音系学、语言与政治、语用学、心理语言学、语言与宗教、语义学、符号学、手语、社会语言学、语音技术、口语话语、句法学、文本分析和文体、翻译、类型学与语言共性、语言与语言变体、书写系统。

关闭