Siri的囧境就是不知道用它来干什么。问声“你多大了”接得住,但多聊两句就露馅了,这个产品没法给你稳定的预期。“语音助手”本身就是一个糟糕的名字,它不能产生可依赖的体验,用户的刚需在产品上也很难得到满足。
王砚峰说,语音交互一定要下沉到产品的垂直场景,而不能空洞地谈技术或仅限于通用概念、入口思维。他还介绍了不少前沿的交互形态,十分新奇。
本文经混沌研习社(微信公众号:dfscx2014)授权转载,研习社是一所线上商学院,致力为创业公司培养具有互联网思维和全球化视野的创新人才。
演讲者|王砚峰(搜狗语音交互技术中心负责人)
先戴一个大帽子,大家觉得21世纪最伟大的科技产品是什么?应该是iPhone吧。因为它的用户体验特别好,界面流畅度和安卓完全不一样。
至于说什么iCloud、各种后端问题,不是用户关注的,用户也理解不了。用户能理解的就是交互体验,用起来特别爽。
怎样让用户直观感知到这个产品特别好用,交互其实是最重要、最基础的环节。
交互技术要通过产品落地
让技术从早期就融入产品
迭代式推动技术发展
下面就说说什么是交互技术。用户在信息消费的时候,有三个环节:用户、机器、信息。用户和机器之间是交互,而机器和信息之间是计算。
交互的历史发展,从以前的穿孔卡片,到命令行,到图形界面,再到鼠标键盘,再到触摸、多点触控,直至现在的语音和手势等,其趋势是从机械到自然。当你的交互方式越来越自然的时候,用户体验就会越来越好。
今天我们集中在“人机信息传递”这个话题内谈交互。在人机信息传递的过程中,有三种方式:
文字:这是过去十年的技术。
语音:这是当下十年的技术。语音识别,现在已经感觉到它开始火热了。
视觉:这是未来十年的技术。
我为什么把视觉列为未来十年?虽然视觉技术是火热的,但基于视觉做出来的好产品很少。
整个视觉圈都有这种困扰:怎样利用已经刷了分的好技术做出好产品?它在产品上还没有迎来一个真正的爆发点。
无论文字、语音、图像,最终还是根据产品来呈现的。用户对于技术本身没什么概念,只知道我在用一个产品。所以,交互体验和产品紧密结合。交互技术一定要通过好的产品,尤其是好的用户产品来落地,这是我的第一个观点。
脱离用户产品来看技术的话,是空洞的也是不负责任的。
技术和产品之间,是这样的关系:
先有一个技术发展现状,根据这个现状去进行产品创新。
(当然,如何将技术和产品联结在一起,这件事其实最难。)
▼
通过产品创新,带来了更好的产品体验。
▼
于是就有了进一步的用户使用,产生了很多数据。
▼
利用这些用户数据,去推动产品技术的进一步发展。
所以,应该以这种迭代的方式来看问题,并不是说等技术达到90或100分以后才能去用,我们一定要想办法让技术在早期就融入到产品中,去收集数据和推动技术发展。
谈完了这个观点,我们来看一下搜狗在语音交互方面的思考和实践。
语音交互:不稳定,就失败
立足垂直场景的搜索需求
而非入口思维
语音交互是搜狗近四五年相对重点投入、希望未来能产生价值的一个领域。
语音交互的重要性,已毋庸置疑了。今年的互联网趋势报告中也谈到,2015年美国使用语音助手的比例已达到65%。我相信这是指用过的比例,平时使用应该不会那么高,在中国也会更低一些。但总体而言,大家已越来越适应语音的输入或者说交互了。
而且我们在语音交互上,是有刚需的。三个领域:车内,客厅,户外。
车内是说当你双手和双眼被占用的时候。客厅是指VR、音箱、电视,还有很多不太方便进行键盘输入的设备。户外是说,你走路的过程中,打字很慢,不方便,语音是非常好的输入方式。
语音交互产品的演进,可以分成三个阶段:
1、最初只有语音识别(ASR),产品只有输入法和搜索。百度做的是语音搜索,讯飞做的是语音输入法。
2、接着有了语言的理解(NLU),2011年诞生了手机语音助手Siri。
3、后来加了场景和环境,以及不同的需求。在车里有车载语音导航,在客厅里有Echo和智能电视,在户外有Apple Watch和出门问问的手表。
大家在加入这些场景的时候,就已经在考虑语音在不同的场景中的特性了。应偏重什么样的特性做优化,已有初步思路。
但是当前语音的交互产品是不是足够好呢?大家心里有答案的,其实不是很成熟。虽然语音的识别准确率逐渐推进,但大家对语音交互是不能形成依赖关系的。
▼
如何才能形成依赖?
好产品除了刚需外,一个大关键就是稳定。什么叫稳定?你的功能很明确,你能够帮助用户很清楚地实现他要的东西。
目前的语音交互,稳定上做的是不够的。
Siri的囧境就是不够稳定。我们不知道用Siri来干什么,有的时候好使,有的时候不好使。我找一个这样的餐馆好使,但找那样的餐馆就不好使;我跟他聊天,你多大了,好使,但是多说两句就不好使,这个产品没法给你一个稳定的预期。
不稳定的关键在于,用户预期和技术能力之间,有比较大的差距。
搜狗的语音助手,也是一个“失败的尝试”。它是业内第一家使用知识图谱等新技术的语音助手产品,当时的市场口碑也确实不错,但是。我们发现用户的留存率特别低。
究其原因还是你不能给用户产生可依赖的体验,用户的刚需在你产品上得不到满足。于是2013年底,我们就不再推广这个产品了。
目前我们甚至激进一点的看法,“语音助手”本身就是一个很糟糕的名字,大家不知道这个东西能够帮助你干什么。
由此可见,产品的不稳定,不光是一个技术的问题。首先你要解决“做什么”的问题,才能解决“怎么做”的问题。
▼
那么“做什么”?
对于语音来讲,机会在哪?作为语音从业者,同行们普遍习惯站在语音技术的角度看产品,语音是一把锤子,我拿着到处砸,能砸中什么算什么。
而我们觉得应该站在产品的视角来看语音,好的用户产品一定要有高频的用户消费。什么意思?即它有一个相对复杂的交互需求,而不是一个简单的控制。
控制一台设备,如果可以选择用摇控器也可以用手势识别时,我一定会用摇控器,因为手势识别不够稳定,很多时候识别不出来,摇控器每次按都好使。
当产品允许的情况下,用硬件方式或者更直接的方式解决,我觉得比语音方式要好。语音只是显得更酷一些。
所以,只有当你的产品上有像搜索一样的内容查询,或者有像输入法一样的大段文字输入的需求,这个时候语音在产品上才是真正有价值的。
在必须用语音解决用户痛点的场景中,对交互过程进行深度优化产生更稳定的体验,是搜狗的语音产品观。
▼
场景又有哪些?
我们的观点是“助手”要做垂直的助手,而不是通用的助手。技术只有放在垂直场景下,才知道用户要什么。这样既能提升技术的能力,问题的难度也会降低。
下沉到垂直场景以后,就可以利用知识图谱,建立多轮对话的能力,去实现一些更复杂的查询。同时,如果你有好的用户产品和背后的数据能力以及搜索能力,和知识图谱有一个好的结合,就能在对话这件事上做到更实用。
举个例子,搜狗地图。
我们有搜狗地图产品,所以我们的语音团队能拿到地图的核心结构化数据,这对建立地图方面的知识图谱并增加POI(Point of Information)查询的理解能力,以及提升交互能力至关重要。
我们还可以反过来,利用一些产品的思维去提升技术体验。
语音识别的准确率,不管95%、96%、97%,总有百分几是识别不对的。
我们就在想,生活中人与人之间也无法完全避免听错的问题,有的时候需要重新说一遍,或者是进一步表述。比如“我叫章砚,立早章,砚台的砚”,或者“文章的章,笔墨纸砚的砚”。比如“邱勇,是清华大学校长,不是其他的”。
那么语音交互的时候,能否也用这种实用化的思路,把这些问题解决掉,使稳定性得到进一步的提升?机器是可以做到的,输入法有拆字库,也可以利用知识图谱。
如果在这件事上做到了80%的修改成功率,就意味着语音的识别错误率又降低了80%,系统的不稳定性又降低了80%。
大家都在想技术的问题
但是关于产品的思考
在整个人工智能的圈子里都是不足的
对于语音识别的准确率而言,优质的训练数据是燃料,深度学习能力是发动机,只要解决好燃料和发动机的问题,技术方面是不需要太担心的。
搜狗在2011年想做自己的语音识别,但是实际上我们没有数据,怎么办?我们先用谷歌的。当时谷歌语音识别的API在2012年1月上线到我们的输入法里边。同时,我们开始自己的语音技术研发。
2012年11月,我们自己的语音技术上线到输入法产品里,当时数据量是2000个小时。而到了今天,我们每天语音输入的规模已超1.4亿次,每天产生数据将近12万个小时。
当你有初始的技术,只要和用户的需求结合起来,总能产生数据,总可以想办法创造条件硬上,而不是要等到自己技术等方面足够成熟才可以。这其实是一个健康闭环。
这两年,深度学习技术也是学术界带领着产业界往前走的。即使我们暂时没有技术开拓的能力,那起码我们可以一直跟进最先进的学术成果,我们从2012年下半年开始跟进深度学习技术,过去几年错误率下降了60%。
同时现在又有了有更强大的计算能力,不管是FPGA还是GPU,都让我们有了更好的硬件加速。更好的硬件和更复杂的模型结合起来,我们过去一年识别错误率进一步下降了30%,识别速度反而提升了3倍。
所以,技术这一块并不是我们目前最需要担心的问题。我们主要担心的问题是如何把好的技术转化成产品。
如果要体现出技术价值,好的产品思考和创意是最关键的。现在大家都在想技术应该怎么怎么样,但是关于产品的思考,在整个人工智能圈子里都是不足的。
品牌、内容合作请点这里:寻求合作 ››


让您成为更懂趋势的人
想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:
下载APP
关注微信号
扫一扫下载APP
与资深行业研究员/经济学家互动交流让您成为更懂趋势的人
违法和不良信息举报电话:400-068-7188 举报邮箱:service@qianzhan.com 在线反馈/投诉 中国互联网联合辟谣平台
Copyright © 1998-2026 深圳前瞻资讯股份有限公司 All rights reserved. 粤ICP备11021828号-2 增值电信业务经营许可证:粤B2-20130734