丹尼尔·威尔逊
苹果电脑的研究人员曾经穿过一件写有下列句子的著名T恤:“我帮助苹果糟蹋了一片美丽的海滩(IhelpedApplewreckanicebeach)。”如果大声读出来,它的意思就会变成“我帮助苹果识别话语(IhelpedApplerecognizespeech)。”句子书写与朗读的意思差别解释了为什么当今的机器人如此稀里糊涂,无法理解人类简单的对话。
任何希望能够识别话语、满腹理想的年轻机器人们面临着一个技术难题:将声波转化为真实的人类语言。这个问题看似简单,但经过二十年的研究和几十亿美元的投资,科学家们对此仍然一筹莫展。
出于众多的原因,“糟蹋美丽的海滩”对机器人来说非常困难。麦克风本身成本低廉,专业性不强,不像人类的耳朵,能够在元音范围调和声音。但是即便信号清晰,一句话什么时候结束,下一句什么时候开始,这之间的界线还是不很明显。另外,同一个词在不同人的口中可能发出完全不同的语调,或者同一个人在不同时间不同速度或不同情绪中所讲的语调也会不同。这给话语识别带来了最大的难题:语言的意义几乎总是依赖于外部语境。不同的情境———比如警告、散播闲话和流泪哭诉———会导致同一句话产生不同的意思。为了能够真正理解人类的话语,机器人可能需要人类知识和经验。
一般人3岁时已经能够识别话语,成年人的识别率是99.2%,词汇量达到7.5万个。相比之下,最新商业话语识别机的表现则很不尽如人意,它只有在安静、主题交谈限制和语速缓慢的情况下,识别率才能升高。另外机器人对某人的声音非常熟悉的情况下表现也会相对好转(这叫做“语者依赖”)。
终会有一天,机器人能够听懂我们的话。它们不会再在话语识别的边界徘徊,而是出色工作,超过人类的表现。随着机器人开始理解自然语言,话语识别也开始背离单纯将声音转化成文字的“传统”方法。如我们所知,下巴和舌头的活动叫做“默读”,因此,机器人可能不需要话语的声音,只要仔细聆听咽喉便可。
如何糊弄话语识别机
机器人可以对小型对话加以训练,然后在你开口之前揣测你要表达的意思。所以,让机器人歇菜的对策是语出惊人和高深莫测。
1.捂住你的嘴巴。你的唇部活动会向懂唇读的机器人传达你的意思。因此让自己表现得像一个黑手党头头,在说话时记住用手遮住嘴巴。
2.混合语言。话语识别机通常一次只被训练识别一种语言。你也许应该开始试着练习你的中学西班牙语。
3.伪装口音。你可以伪装口音,最好是不存在的那种,因为话语识别机能够听懂当地口音。
4.捏造生词。街头俚语会迷惑死记字典的话语识别机。另外,你还可以用一些专有名词或私人词汇比如绰号和首字母缩略语等。但是你要当心这种把戏糊弄不了学过基本话语构造和音素的机器人。
5.利用背景噪音。将背景噪音(天上的直升飞机)与信号(你闪烁的对话)分离开来叫做盲信号分离,对机器人来说,稳定的信号最容易区分,而人类声音会相对困难一些。所以对付话语识别机的另一个法子是在吵闹和拥挤的场所说话或者调大你的收音机音量。
6.中断你的句子。对着转动的风扇讲话会消除一部分信息,但不会妨碍其他人类完整地理解你。这一点,机器人可能做不到。
7.隐藏你的肢体语言。机器人会利用任何信息来揣测你的句子意思。如果你抬头看天,它们会认为你在谈论天气;如果你看上去很生气,它们会认为你是在咒骂;如果你流泪跪在地上,它们会认为你在乞讨。所以你应该藏起你的肢体语言,摆上扑克牌脸孔,让机器窃听者无法猜透。
你面前是机器人吗?
可以采取下面的办法辨别你的客人是不是机器人。
1.聆听他的声音。确保你客人讲话的音调与情绪和当时的情境一致。你可以设置一个有主题的情绪反应,比如恭维、玩笑或侮辱。如果你听到的是木知木觉的奥地利口音,那么你应该闪电般逃离。
2.相信你的鼻子。闻闻你客人的味道是否像一个全新的足球。
3.检查他的反应。吓唬你的机器客人,不管你使什么法子———你可以突然转身大声问好,或者凑上前去亲吻。看看他有没有退缩,他的眼珠是否分毫无差地紧跟着你移动?
4.检测干扰。任何电流都能产生磁场。你可以在你的客人旁边放一个指南针:如果指针大幅度转动则表明你可能站在一个玩具面前。还可以用热能成像仪检测你的客人,受热后的人脸特征看上去像头骨,而不是一张金属片。不宁惟是译
[东方早报]