语言学基本难题之一:语音处理

发布者:发布时间:2010-09-03浏览次数:370

语言学基本难题之一:语音处理

 

全自动化社会同时也是一个世界大同的社会,人们之间的基本交流无障碍,因为我们有即时翻译功能的“手机”,人和机器之间的基本交流无障碍,我们可以让机器仆人“听从”我们的指挥,哪怕你的机器仆人在千里之外。毫无疑问,这是一个令人向往的,美好的未来世界。然而要实现这一切,首先需要一套计算机理解人类话语的规则和生成人类话语的规则,有了这套规则,程序员才能将这些规则转写为计算程序,机器人才能听懂我们的话,也才能说出我们听得懂的话。

然而,要想让计算机能够听懂我们所说的话,让计算机能够说出我们能都听得懂的话,谈何容易!人类语言的复杂性远远超出了一般人的想象。

先说基本难题。

语音方面。人类的有声语言不同于动物的叫声。动物主要通过音强、音频变化和长短变化表达意义。有人说,动物的“语言”和人类语言的差别主要是动物的“语言”没有语法,而人类的语言有语法。这或许说对了一半。动物的语言不仅没有语法,它们的声音变化也没有人类语音那么复杂。而人类语音有许多非常细微的差别,例如元音前后高低等一些很小的变化,辅音中发音部位的细微变化,或者发音方法的细微变化,而这些很小的差别却可能表达了极为不同的意思。这些是所有动物所不具有的。我们可以用声音合成器模仿各种动物的叫声,并且能做到惟妙惟肖,但如果用声音合成器模仿任何人类语言,目前几乎还不可能做到“真实”。有些辅音频率极高,其间的差别很难通过机器再现来辨别。例如英语中常见的字母组合th通常发为[θ],但是这个音用一般机器播放出来与[f]几乎没有差别,但是在自然语言中这两个音相差很大。类似的辅音有很多。如果要机器来“听辨”这种差别,是不是很难?目前的方法是根据词或短语的语音整体特征进行模型匹配。但要是让计算机来模拟人的自然语言,难度又要提高很多(目前大部分商品化的语音服务都是“录音”再现或录音片段的组合再现,而非真正意义上的计算机语音生成)。

声音的物理属性主要有音强、音长、音高和音色。这些都可能带来语义的变化,但并非所有这些属性的变化都会带来语义的变化,例如男人和女人的发声主要为音高的区别,但这些区别并不带来语义的变化,不少辅音之间的差别也表现为音色的差别,而不同人之间的语音差别也主要是音色的差别,然而人与人之间的音色差别并不区分意义。那么,哪些音高或音色的差别表现意义的差别,而哪些音高或音色的差别没有意义的差别?这对我们来说都不是问题,但是对计算机来说或许就是严重的问题。这些我们都需要给出规则来,否则计算机将无所适从。

人类语音的最小单位可以划分到音素,若干音素构成一个区别意义的集合,这就是音位。一个音位有若干音素。看起来,只要我们能把一种语言中所有的音素特征研究清楚了,我们就能根据组合规则再现一段表达某种意义的语音。如果我们真这么做了,结果一定会让你大吃一惊,因为你发现你所再现的那段语音根本不是“人话”,而是你从来没有听到过的古怪的“机器话”。为什么?因为人类语言中还存在一种“音变”现象,当一个音素与其他音素相连的时候,它们之间就会发生一种互相适应的变化,这种变化大都由生理上的经济原则所驱动。例如当我们说“面包”这个词的时候,“面”音节的最后辅音原本是n,但却因为受到后面“包”b双唇音的影响,“面”最后的n变成了m。类似的这种音变是大量的,而且无时无刻不在发生。因此,如果我们真把理论中的音素简单组合起来的话,你所听到的当然不是我们的“自然语言”了,而是一种“机器语言”。

除了以上这些,人类在语音上的表现力也是个极其复杂的问题。有些人的语音具有非常强的感染力,同样一段话,用不同的语音语调来说,有些就非常动人,甚至能让你为此而流泪,而有些就很乏味,甚至令人生厌。为什么同样一段话,仅仅是语音上的差别,就会具有如此强大的感染力?这也是语言学家所面临的难题之一。

语音还具有社会角色的定位。社会语言学家的调查表明,男人和女人不仅在声带的生理属性上有差别,而且在音色甚至音素上也有差别。例如著名的“北京女国音”就是一例。成年北京女人爱用普通话中的zcs来代替jqx,例如把“小xiao”说成“siao”,“鸡ji”说成zi14岁以下的小女孩和老年妇女都没有。不仅在性别和年龄上,在社会地位权势关系中,语音也会有某种功能性差别表现这种权势关系。当然,这也是语言学家所要研究的难题了。

关闭