Google Duplex 的应变能力让人惊艳,甚至有人说,以后,我们将分不清电话对面是人还是狗。

但换个场景试试?

可以看到,谷歌此次展示的是在特定场景下,其语音助手“真人式”的表演。作为“宣传者”,Google Duplex 是成功的。然而,“表演”都是让人惊艳的,实际落地、应用的过程中问题也是很多的,包括谷歌。

本文基于 Google Duplex 展现的功能,从历年来人工智能技术发展进程及落地的脱节或者进步情况出发,探讨 AI 技术未来的普及之路。

人工智能距离“成精”又近一步

北京时间 5 月 9 日凌晨,2018 谷歌 I/O 大会上,谷歌助手 Google Assistant 为社交恐惧症患者带来福音:

有了这个人工智能助理,你再也不用自己打电话去点外卖、预约理发店、餐厅、美容院、家政服务……

只要告诉 Google Assistant 你的需求,它就会像真人助理一样,帮你在后台打电话搞定这些事,并且及时反馈给你预约结果。

这个名为 Google Duplex 的技术惊艳了整个旧金山山景城。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

谷歌首席执行官皮查伊(Sundar Pichai)在谷歌园区的圆顶露天剧场里展示谷歌助手打电话的两个场景时,Google Assistant 对话的流畅及仿真程度引起台下诸多科技媒体一阵阵惊呼:你根本无法辨别电话对面的是真人还是机器。

搞混时间和人数都没能干扰它

“我能帮你做点什么?”理发店客服在电话里问。

“我想帮一位客户预约女士理发,嗯…我想预约 5 月 3 日的时间。”电话这头,谷歌语音助手流畅地说明自己打电话的意图,甚至还在对话中模仿人类口语,加上了“emmmm” 这种表示思考的停顿。其语调的抑扬顿挫,完全不同于常见语音助手的机械音。

当理发店客服表示“稍等,我查询一下”后,Google Assistant 停顿了一秒——它可能在理解这句话的意图——随后说出了“嗯哼”,俏皮的语气引得台下哄堂大笑。

值得注意的是,在理发店客服表示 Google Assistant 预约的 12 点已经约满,建议预约下午 1 点 15 分的时间时,Google Assistant 并未直接接受,而是询问上午 10 点到 12 点是否有可预约的时间,随后挑选合适时间并顺利完成预约。

皮查伊表示,这是 Google Assistant 打电话给理发店完成预约的真实场景。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

在整个预约过程中,Google Assistant 发音自然,语调、语速并不让人感到怪异,就连停顿、“嗯…”等表示思考的小细节都考虑到了。

在皮查伊展示的第二个场景中,Google Assistant 的应变能力更是让人惊艳。

第二个场景是预定餐位,从口音判断,餐厅接线员不是 native speaker,对英文的理解并不准确。接线员数次搞混 Google Assistant 表达的时间、人数等信息,比如把“预定本月 7 号”听成“有 7 个人用餐”。Google Assistant 一次次纠正信息,并且在干扰下牢记核心任务。

让皮查伊更感到骄傲的是,当餐厅接线员表示,四人在工作日就餐不需预约时,Google Assistant 并没有选择结束对话,而是自发追问了一句:“通常等位要多久?”

“我们遇到过很多这种发展方向跟预想不同的对话,但神奇的是,Google Assistant 可以理解上下文情景和对话的细微差别。在这段对话中,它知道要问等位时间,非常得体地完成了对话。”皮查伊说。

“在美国,60% 小商户都没有在线预约系统。”Google Assistant 瞄准这一痛点,在后台帮用户完成预约等服务,节省用户时间。

两年前的谷歌 I/O 开发者大会上,Google Assistant 第一次亮相。两年后的今天,据负责谷歌助理和搜索产品设计的副总裁尼克·福克斯(Nick Fox)表示,Google Assistant 已经是谷歌一项非常重要的业务。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技
图 | 负责谷歌助理和搜索产品设计的副总裁尼克·福克斯(Nick Fox)

皮查伊同样表示,这项名为 Google Duplex 的技术,谷歌内部已研究多年。Duplex 翻译过来,可以叫“语音双攻技术”。使用这一技术,用户只要提出需求,Google Assistant 就可以直接在后台完成,然后把结果通知给用户。它将谷歌这些年来各种投资研发项目融会贯通,比如自然语言理解、深度学习、文字和语音转换等。

而 Google Duplex 只是 Google Assistant 升级的一个方面。Google Assistant 还对交互声音进行了全新升级优化,增加了六个新的声音;支持持续多轮对话,让对话更加自然;支持多重任务处理,把一句话中的多个任务拆解并完成,比如“把卧室和客厅的空调打开。

目前,谷歌语音助手已经支持全球 80 个国家和地区,约 30 种语言,但遗憾的是,全球使用人口数量最多的汉语却不在其中。

真的等于拥有真人助理?

Google Assistant 新功能一经展示,有网友在社交媒体留言称:“这下真分不清电话对面是人是狗了。”

今年的开发者大会上,Google Assistant 力压 Android P,成为皮查伊展示的重头戏。但皮查伊在开发者大会上展示的 demo 距离落地还有多远?Google Assistant 是否真的如此惊艳?

有观点认为,Google Assistant 能做到打电话订餐,其中最难突破的是要“理解一个真人的对话”,即理解自然场景中的对话。因为在现实中,餐厅的接线员并不知道电话那一头是一个机器人,而是把对方当作真人,两个真人之间即便是简单的交流,对机器来说也会是复杂的,语速、口音、省略词甚至是嘈杂的背景音,可能都会影响机器的识别。

不过,从更多场景的角度上来讲,Google Assistant 可能还很局限。至少现在,人们不用担心一个机器人打来的诈骗电话。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

人工智能用户体验公司 Rokid 创始人祝铭明坦言:“小场景有限话题模拟对话不是什么新鲜事,针对 demo 优化到流畅也不难,和吹捧的什么真人对话能力是两码事。”

有资深科技评论员认为,谷歌展示的如此智能的语音助手距离落地遥遥无期,但来自语音交互独角兽思必驰的资深产品架构专家戴中原认为,在特定应用场景,经过大量训练,实现 Google Assistant 在 demo 中展示出的效果并不遥远,“今年年底国内一些厂家的产品上就可能实现。”

“Google 今天所展示的功能,涉及语音识别、自然语言理解和会话管理的三大技术领域,我们内部也已经在研究。Google 厉害之处可能在于,别人也能做到的事,它可以比别人做得更快。”

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

以 TTS(Text To Speech,从文本到语音)技术为例,过去采用的是声音素材拼接的方法,导致拼接出来的句子语调平平,没有抑扬顿挫和语音语调,自然也感受不到像真人对话一样的情感情绪。而谷歌旗下的 DeepMind 训练出了一个深度神经网络模型 WaveNet,采用自然生成的方法,以少量的语料辅以强大的计算,生成原始语音,不仅更贴近真人,而且制作时长也从几个月降低到几百小时。

“这一方面的技术我们也早已开始研究,今年下半年预计会推出新场景下的应用。” 戴中原表示。

那么,这一技术一旦搭载到智能手机等硬件中,是不是等同于每人都拥有了个人真人助理?事情恐怕没那么简单。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

戴中原表示,从自然语言训练的方法角度看,通过充分的数据梳理,借助机器学习在某个单一领域穷举各种情况,继而达到 Google 在今天所展示的效果尚有可能。但目前没有公司可以做到全方位理解各种场景。也就是说,Google Assistant 所擅长的也是针对特定场景的,例如预订餐位和理发。

“谷歌今天所展示的技术并未惊艳到我,但它作为宣传者,在教育用户方面的努力是很厉害的。”谷歌推出阿尔法狗,第一次将人工智能普及到普罗大众。在戴中原看来,此次谷歌开发者大会,最大的意义依然在于教育用户。

识别机器打 call 教你一招

多年前,技术公司们就意识到智能语音互动会成为下一代技术产品最核心的用户入口。

作为人类与机器交互的方式之一,语音助手在物联网领域的入口性地位使得其成为兵家必争之地,亚马逊、苹果、谷歌、微软以及国内 BAT 相继推出智能音箱等搭载语音助手的硬件产品。

2014 年 11 月,亚马逊 Echo 面市,成了第一个智能音箱的爆款。一组对比大概可以直观表现出 Echo 的成功:Echo 面市后,两周内销量即达 100 万。而 iPhone 用了 70 天才达到同样的订单数。据调查机构此前预计,2017 年 Echo 销量将突破 1100 万台。

谷歌 AI 可以替你打电话了,“这下真分不清电话对面是人是狗了”-黑科技

图 | 亚马逊 Echo

察觉到市场变化,谷歌、苹果和微软也于两年后在智能音箱领域逐步有所行动。但相较于早早布局的亚马逊,谷歌在语音助手方面失了先机。根据市场咨询公司 eMarketer 发布的报告,美国智能音箱用户约 70.6% 是亚马逊用户,谷歌只占了 23.8%。

Google Duplex 是否会帮助 Google Assistant 翻盘,一举成为中国市场外应用最广的语音交互产品?

可见的是,谷歌和亚马逊都在加强自己的音箱产品线。

2017 年,谷歌又推出价位分别为 40 美元和 400 美元的智能音箱产品 Home Mini 和 Home Max,而亚马逊也已经推出了价格从 40 美元到 230 美元不等的 10 款音箱产品。

物联网时代,智能音箱作为较为成熟的交互手段,在现阶段承载起人工智能家居、车载场景入口的厚望。从汽车中控、IoT 再到企业智能客服,语音助手市场上弥漫着抢占山头的硝烟味儿。

Google Assistant 的演示已经在 C 端吊足了消费者的胃口,人们在期待 Google Assistant 带来更多可能性的同时,也担忧着由此带来的电话诈骗等风险的提高。

戴中原表示,这是技术发展造成的矛与盾的问题,但这一困扰也不是没有办法解决。“比如你接到推销保险的人工智能电话,你可以跳出保险圈子,跟他聊其他方面的事儿。因为目前的人工智能只能比较好地解决一个场景的对话。”