第17章 人工智能(第5/9页)
这并不是说,机器不可能理解人类的语言。下面这句话是我利用苹果电脑的内置语音系统录入的:“the factors as you can see it can slip up(就像你看到的这些因素,语音识别系统并不总是有效)。”但我实际上说的是:“But the fact is, as you can see, it can slip up(事实上,就像你看到的,语音识别系统并不总是有效)。”类似于“但是”一类的转折词会把一句话一分为二,然而,“fact is”(事实上)和“factors”(因素)在英式英语中的发音非常相似。现今的计算机语音识别系统可以达到99%的准确率,尽管如此,相较于人类,计算机在语音识别方面还是很容易出错。优化语音识别的方式之一是,让软件识别某个人的发音技巧。
计算机面对的一个问题是,无法理解上下文。我们在听某个人说话的时候,会习惯性地把某个词语放在整个对话的背景中去思考它的意思。有些同音字必须得借助上下文才能准确理解意思。这一点在跨语言互译方面尤其重要。如果我对着计算机阅读文字,那么我一眼看过去就能发现同音字错误;但如果我只是在听自动翻译机器的翻译,那么我不可能知道哪儿出错了。科幻作品中常常出现这样的翻译机器,比如《神秘博士》中由塔迪斯发明的宇宙通用的心电转换器。翻译必将成为计算机语言能力的重要方面。
Hal绝不是一个译者,但我完全相信它有翻译的能力。手机上的谷歌翻译可以或多或少地完成信息分析的工作。我对着手机说:“最近的超市在哪儿?”手机屏幕上准确地出现了这句话,或者手机会大声复述我的问题。这一切都让我清楚地知道,我会得到我想要的答案。也许这句话并不算日常用语,可是手机知道我想问什么。对话肯定更加复杂,在对话的背景下,谷歌翻译就不那么可信了。在联合国大会上,现在还不能只靠机器翻译推进多方会谈。
包括加拿大发明家亚历山大·格雷厄姆·贝尔在内的很多人都尝试过用机械的方法分解语音(当然,罗杰·培根的铜人头像之类的东西应该不仅能分解语音,还能理解语义),计算机的出现让这一切成为现实。1952年,贝尔实验室制造出第一台语音识别器。好消息是,这台识别器的准确率可以达到97%;坏消息是,这台机器只能识别数字。这个问题在日常生活中的电话自动答复系统中也颇为常见,并广受诟病。
20世纪90年代末期,语音识别专家雷·库兹韦尔论述了Hal的能力,并称有望在2001年前在个人电脑上实现语音操作功能。但是,这样的语音操作系统并没有得到普及。库兹韦尔的计划比他预想的慢得多,甚至可能永远不会实现。虽然苹果台式机上自带的语音操作系统很好用,但我却不经常使用。很多用苹果电脑的人甚至不知道自己的电脑里有语音操作系统。
这是因为语音识别的先驱者过于关注分解语音,而忽略了这项技术也要有些实际的用途。我们当然可以问电脑,“我明天的时间安排是什么”,但如果你的身体没有不便,打字肯定比对着电脑说话更简单。对于我们中的大多数人来说,电脑的语音操作功能不是一个自然的过程,因为电脑不像人类的秘书那样灵活机动、随机应变,我们也不会自然地说出完整、缜密的可行性命令。
如果软件不仅可以把声音转换成文字,还可以有效理解文意,情况就不一样了。理解文意从技术上来说非常难。Hal听到声音后,可以解析其中的含义,并做出相应的回复或者执行指令。现在常见的车载语音系统则常常会错意,因此成为喜剧里常见的笑料。在没有干扰的情况下对着电话的麦克风清楚地提出问题是一回事,边开车边在嘈杂的环境中对着车载语音系统说出指令又是另外一回事。在通常的对话环境中,中途打断最简单的语句也可能会造成误解。
一个能真正理解语句的计算机必定有很多用处。在20世纪80年代,由百事公司前总裁约翰·斯卡利领导的苹果公司常被批评,直到史蒂夫·乔布斯回归掌舵,苹果公司才重拾创造力。但是,在斯卡利仍在位的1987年,苹果公司在某段视频短片中提出了“知识领航员”的模糊概念。“知识领航员”是一个个人电子助理,但是和Siri不同,“知识领航员”可以理解复杂的命令,比如“让我看看上学期的笔记”,或者搜索某篇论文,甚至是某个朋友刚发表的一篇相关文章。短片中展现的一些其他功能,比如复述行程安排,确实有些过时了,但是“知识领航员”展示出了解析语义并据此行动的能力。