第17章 人工智能(第4/9页)
人类对无生命物体能说话的幻想可以追溯到荷马的年代,那是中世纪最有名的谣言之一——会说话的铜人头像。铜人头像的所有者是早期的一些科学家,包括10世纪法国教皇西尔维思特二世,13世纪巴伐利亚的大阿尔伯特,和英国的罗杰·培根,他们在当时常被视为有法力的魔术师。事实上,罗杰·培根对故弄玄虚的魔术师深恶痛绝,更倾向于从科学的角度观察世界。在他死后,他的事迹一度被神化。在16世纪,他的奇闻逸事被写成故事公布于世,即《著名修士培根的历史》(The Famous Historie of Fryer Bacon)。这本书中提到了培根建造铜人头像的想法:
修士培根了解了英国被侵略数次的历史后,开始思考如何能保卫英国在未来不受侵略,并让自己因此永垂青史。在搜集和阅读了大量资料后,他认为保家卫国的最好办法就是制造会说话的铜人头像,保护英格兰的城墙。
在真实世界中实现类似的想法需要一些时间。想起来容易,但是做起来就难多了。有历史记载的最早的会说话的机器出现于1779年。一个名叫克拉施泰因的人制造了一台复杂的机器,向这台机器中吹入空气,经过类似于人类喉咙的机械结构,它就会发出类似元音的声音。12年后,设计制造土耳其行棋傀儡的沃尔夫冈·冯·肯佩伦设计出会说话的乐器。这个乐器也是利用了共振结构,可以通过手动操作让其发出元音或者辅音。这和网络视频中主人用手扒着“会说话”的狗的下巴,让狗发出“sausages”(香肠)的声音没有太大差异,肯佩伦的机器也能清晰地“说”出单词。
在整个19世纪和20世纪初期,改进版本的声音生成器不断推陈出新。最成功的例子是贝尔实验室于20世纪20年代推出的声码器。声码器可以用来给信息加密,或者把普通的语音压缩为特定频宽的格式。但是声码器的设计过于复杂,并没有得到实际的应用。
计算机除了发出声音以外还有其他潜力。在信息技术的历史上,让计算机发出声音是非常原始的想法。计算机科学家艾伦·图灵在曼彻斯特大学的计算机上首次用程序生成音乐。那台计算机连接着一个扩音器,当计算机出错的时候,一声警报会随之响起。图灵意识到,他可以对这个功能进行编程,让它产生微弱的嘀嘀声。如果一秒钟内的播放频率可以达到1 000次,嘀嘀声的不同频率就会产生不同的音调。虽然这项技术常被误认为是贝尔实验室于1957年发明的,但是第一段由计算机生成的音乐的确是出现于1950年曼彻斯特大学的“自动计算机”(ACE)上,由图灵手动编程实现的(图灵只是想用不同的音调表达不同的反馈信息)。
虽然在拍摄《2001太空漫游》电影的时候,已经有很多关于语音系统的理论,但却没有太多关于如何生成合成语音的研究。20世纪70年代以后,计算机越来越便宜,计算机语音系统的商业潜力也随之越来越大。从20世纪70年代英国物理学家斯蒂芬·霍金使用的声音生成系统到当代更加先进的语音系统,电子发声技术与时俱进。但要想让计算机像Hal一样与人交谈(电影中的Hal毕竟是由真人配音),我们还有很长的路要走。
语音合成技术固然重要,但让计算机按照声音指令做出反应在技术上更困难。我们已经实现了一些技术突破。毕竟,手机上安装的导航系统清晰易懂,语音助手Siri也能按照我们的语音命令做事。但是,手机并没有Hal那么复杂的结构,也没有Hal储存和处理大数据的能力。
仔细想想,Siri的交流能力其实非常有限,虽然Siri的设计者设计了一些有趣的问答。当我对着手机说“把舱门打开,Hal”(电影中,说这句话的宇航员戴夫·鲍曼直面Hal,穿着太空服但是没戴头盔)时,Siri的回答呼应了电影的场景:“没戴头盔的话,我开门你会……喘不上气的。”当我让Siri像影片结尾的Hal那样唱“黛西,黛西”时,Siri说:“你不会喜欢的。”
制定时间表、在网上查信息、导航、放音乐,诸如此类的功能让Siri更像一个电子秘书。Siri并不能真正和人对话,它不理解词语背后的真正含义,也不理解音调不同会产生不同的意思。虽然Siri的语音识别能力很强,但有时候它也会遇到困难。Siri不能很好地识别不标准的口音,现在的语音识别系统都不太能有效地识别英国格拉斯哥或者美国缅因等地区的口音。语音识别系统还必须有能力处理我们在平常说话时下意识使用的俚语和连音。