语言学基本难题之二:文字处理

发布者:发布时间:2010-09-03浏览次数:201

语言学基本难题之二:文字处理

 

2006年公布的《国家中长期科学和技术发展规划纲要(2006-2020)》中,以自然语言的理解为基础的智能信息处理是《纲要》所确定的前沿技术之一,也是惟一一项直接与语言研究有关的技术。自然语言的理解包括语音信息的处理和文字信息的处理。

人类的语言从有语音形式到有文字形式,是文明进步的产物,也是语言发展的一个飞跃。语言有了文字形式之后,信息除了可以口传之外,还可以笔录,从而大大增加了信息传递的可靠性,也更有利于突破时空对信息传递的制约。

然而,正如语音信息智能处理会遇到许多难题一样,文字信息自动处理也还有许多问题需要解决,还有许多难题需要突破。

文字处理的基本单位是词。一谈到利用文字来表达信息,我们自然会联想到汉语中的“遣词造句”这一说法。虽然这一说法中的“词”可以是一个广义的概念,并不完全对应于语言学中所说的“词”这一概念,但是要理解文字信息,却离不开“词”这一语言学中的基本概念,因为词提供了理解书面篇章最为基本的信息。

例如,我校的校名是“上海外国语大学”。如果我们要理解“上海外国语大学”这一文字表达式的含义,我们首先需要知道这一表达式中含有“上海”、“外国语”、“大学”这三个词,也就是说这一表达式是这三个词的组合。知道了“上海外国语大学”是这三个词的组合,那么也就掌握了理解“上海外国语大学”这一表达式的基本信息。要完成这样的工作,对于一个说汉语的成年人来说,似乎是轻而易举的事,但是要让机器来处理,却没有那么简单了。因为“海外”和“国语”也是汉语中的词,如果我们用微软Word提供的“查找”功能在“上海外国语大学”这一字符串中进行查找,那么可以查找出“海外”和“国语”这两个词。如果“上海外国语大学”中含有“海外”和“国语”这两个词的话,那么整个表达式便成了“上”、“海外”、“国语”、“大学”这四个词的组合了,这显然会产生误解,偏离了“上海外国语大学”这一校名通常表达的意思。

由此看来,要实现汉语文字自动信息处理,第一个、也是最重要的一个环节,是对文本中的文字进行自动分词处理。而要进行自动分词,首先需要确定什么是词。然而,即便对于“什么是词”这个看似简单的问题,也一直是困扰语言学界和中文自动信息处理界的一大难题。

在语言学中,词通常定义为“是比语素高一级的最小的能够独立运用的语言单位”。在这个定义中,“能够独立运用”用于区分字符串中的语素和词,“最小”用于区分字符串中的词和短语,即词和词的语法组合。在语素中,有一些称为自由语素,如“天”、“你”、“看”、“五”、“红”、“不”等,这些语素可以独立成词。但也有一些半自由和不自由(或称“黏着”)语素,这些语素不能独立成词,只能与别的语素组合成词,如“语”、“言”、“伟”等半自由语素,以及“第”、“们”、“者”等不自由语素。在“上海外国语大学”这一字符串中,正是由于“语”是一个半自由语素,因此必须与“外国”或“国”构成“外国语”或“国语”。

上述语言学中“词”的一般定义,或许能在人工分词时,从字符串中切分出大多数的词。但是要将其运用于机器自动分词,仍然会遇到很多问题。这主要是因为在人工分词时,看似只要确定哪些相邻语素可以组合成词就可以了,但是在实际操作过程中,我们其实还大量借助了句子和上下文表达的语义、语法和语用信息。而对于机器来说,自动分词是篇章信息处理的第一步,还无法自动识别和利用这些信息。加上机器铁面无私,只认死理,容不得模棱两可,因此只能由人通过设计算法程序来给它明确的指令。不仅要告诉它什么样的字符组合是词,什么样的组合不是词,而且还要告诉它在什么样的上下文中某个字符串是一个词,在什么样的上下文中这个字符串是两个词。例如,在“他明天起身去北京”中,“起身”是一个词,而在“他站起身来”中,“起”和“身”是两个词。同时还要告诉它,在什么样的上下文中,某个字符串中的某个字符是与前一个(或几个)字符构成一个词,还是与后一个(或几个)字符构成一个词。其中的一个例子就是我们前面提到的“上海外国语大学”。如果这个字符串是“这是上海外国语大学”这样的句子的一部分,那么这个字符串可以切分为“上海外国语大学”(暂且不论是否应该将“上海外国语大学”整个字符串作为一个专有名词来处理);而如果这个字符串是“他上海外国语大学”这样的句子的一部分,那么这个字符串或许应该切分为“上海外国语大学”(如果真有海外的国语大学的话)。

在机器自动分词研究中,首先要做的一项工作是制定一个尽可能详尽的分词规范,其次是制定一张尽可能详尽的词表,用来枚举“合格”的词。如果采用这种“规范+词表”的自动分词方案,那么在一个待切分的文本中,每个词要么是一个词表词,要么是一个未登录词。未登录词又大致可以分为两大类:一类是新词;另一类是人名、地名等专有名词。对于前一类未登录词的处理,通常是采用对出现频率的统计、字符关联性分析等方法,设计算法,先生成一张候选词表,然后经过人工筛选,将新词补充进词表。对于后一类未登录词的处理,通常是先根据从各类专名库中统计总结出的专名用字及其使用频度,以及人工归纳出的构词规律,猜测待切分篇章文本中可能成为专名的字符串,并给出其置信度。然后利用对该类专名有标识意义的上下文信息,并根据对所处理文章有效的局部统计量和对大规模语料库有效的整体统计量,作进一步甄别。

由此可见,仅就自然语言智能文字信息处理中的机器自动分词而言,仍有大量工作有待于语言学家和计算机专家携手合作、共同解决,仍有许多难题有待于破解,并需要有大型语料库的支持。(作者单位:上海外国语大学)

关闭