A前瞻官网
前瞻网
a 当前位置: 前瞻网 » 资讯 » 大咖

搜狗语音王砚峰:失败的语音助手你不知道用它来干什么

分享到:
 王砚峰 • 2016-09-02 10:33:44 来源:混沌研习社 E1439G1
100大行业全景图谱

Siri的囧境就是不知道用它来干什么。问声“你多大了”接得住,但多聊两句就露馅了,这个产品没法给你稳定的预期。“语音助手”本身就是一个糟糕的名字,它不能产生可依赖的体验,用户的刚需在产品上也很难得到满足。

王砚峰说,语音交互一定要下沉到产品的垂直场景,而不能空洞地谈技术或仅限于通用概念、入口思维。他还介绍了不少前沿的交互形态,十分新奇。

本文经混沌研习社(微信公众号:dfscx2014)授权转载,研习社是一所线上商学院,致力为创业公司培养具有互联网思维和全球化视野的创新人才。

演讲者|王砚峰(搜狗语音交互技术中心负责人)

先戴一个大帽子,大家觉得21世纪最伟大的科技产品是什么?应该是iPhone吧。因为它的用户体验特别好,界面流畅度和安卓完全不一样。

至于说什么iCloud、各种后端问题,不是用户关注的,用户也理解不了。用户能理解的就是交互体验,用起来特别爽。

怎样让用户直观感知到这个产品特别好用,交互其实是最重要、最基础的环节。

交互技术要通过产品落地

让技术从早期就融入产品

迭代式推动技术发展

下面就说说什么是交互技术。用户在信息消费的时候,有三个环节:用户、机器、信息。用户和机器之间是交互,而机器和信息之间是计算。

交互的历史发展,从以前的穿孔卡片,到命令行,到图形界面,再到鼠标键盘,再到触摸、多点触控,直至现在的语音和手势等,其趋势是从机械到自然。当你的交互方式越来越自然的时候,用户体验就会越来越好。

今天我们集中在“人机信息传递”这个话题内谈交互。在人机信息传递的过程中,有三种方式:

文字:这是过去十年的技术。

语音:这是当下十年的技术。语音识别,现在已经感觉到它开始火热了。

视觉:这是未来十年的技术。

我为什么把视觉列为未来十年?虽然视觉技术是火热的,但基于视觉做出来的好产品很少。

整个视觉圈都有这种困扰:怎样利用已经刷了分的好技术做出好产品?它在产品上还没有迎来一个真正的爆发点。

无论文字、语音、图像,最终还是根据产品来呈现的。用户对于技术本身没什么概念,只知道我在用一个产品。所以,交互体验和产品紧密结合。交互技术一定要通过好的产品,尤其是好的用户产品来落地,这是我的第一个观点。

脱离用户产品来看技术的话,是空洞的也是不负责任的。

技术和产品之间,是这样的关系:

先有一个技术发展现状,根据这个现状去进行产品创新。

(当然,如何将技术和产品联结在一起,这件事其实最难。)

通过产品创新,带来了更好的产品体验。

于是就有了进一步的用户使用,产生了很多数据。

利用这些用户数据,去推动产品技术的进一步发展。

所以,应该以这种迭代的方式来看问题,并不是说等技术达到90或100分以后才能去用,我们一定要想办法让技术在早期就融入到产品中,去收集数据和推动技术发展。

谈完了这个观点,我们来看一下搜狗在语音交互方面的思考和实践。

语音交互:不稳定,就失败

立足垂直场景的搜索需求

而非入口思维

语音交互是搜狗近四五年相对重点投入、希望未来能产生价值的一个领域。

语音交互的重要性,已毋庸置疑了。今年的互联网趋势报告中也谈到,2015年美国使用语音助手的比例已达到65%。我相信这是指用过的比例,平时使用应该不会那么高,在中国也会更低一些。但总体而言,大家已越来越适应语音的输入或者说交互了。

而且我们在语音交互上,是有刚需的。三个领域:车内,客厅,户外。

车内是说当你双手和双眼被占用的时候。客厅是指VR、音箱、电视,还有很多不太方便进行键盘输入的设备。户外是说,你走路的过程中,打字很慢,不方便,语音是非常好的输入方式。

语音交互产品的演进,可以分成三个阶段:

1、最初只有语音识别(ASR),产品只有输入法和搜索。百度做的是语音搜索,讯飞做的是语音输入法。

2、接着有了语言的理解(NLU),2011年诞生了手机语音助手Siri。

3、后来加了场景和环境,以及不同的需求。在车里有车载语音导航,在客厅里有Echo和智能电视,在户外有Apple Watch和出门问问的手表。

大家在加入这些场景的时候,就已经在考虑语音在不同的场景中的特性了。应偏重什么样的特性做优化,已有初步思路。

但是当前语音的交互产品是不是足够好呢?大家心里有答案的,其实不是很成熟。虽然语音的识别准确率逐渐推进,但大家对语音交互是不能形成依赖关系的。

如何才能形成依赖?

好产品除了刚需外,一个大关键就是稳定。什么叫稳定?你的功能很明确,你能够帮助用户很清楚地实现他要的东西。

目前的语音交互,稳定上做的是不够的。

Siri的囧境就是不够稳定。我们不知道用Siri来干什么,有的时候好使,有的时候不好使。我找一个这样的餐馆好使,但找那样的餐馆就不好使;我跟他聊天,你多大了,好使,但是多说两句就不好使,这个产品没法给你一个稳定的预期。

不稳定的关键在于,用户预期和技术能力之间,有比较大的差距。

搜狗的语音助手,也是一个“失败的尝试”。它是业内第一家使用知识图谱等新技术的语音助手产品,当时的市场口碑也确实不错,但是。我们发现用户的留存率特别低。

究其原因还是你不能给用户产生可依赖的体验,用户的刚需在你产品上得不到满足。于是2013年底,我们就不再推广这个产品了。

目前我们甚至激进一点的看法,“语音助手”本身就是一个很糟糕的名字,大家不知道这个东西能够帮助你干什么。

由此可见,产品的不稳定,不光是一个技术的问题。首先你要解决“做什么”的问题,才能解决“怎么做”的问题。

那么“做什么”?

对于语音来讲,机会在哪?作为语音从业者,同行们普遍习惯站在语音技术的角度看产品,语音是一把锤子,我拿着到处砸,能砸中什么算什么。

而我们觉得应该站在产品的视角来看语音,好的用户产品一定要有高频的用户消费。什么意思?即它有一个相对复杂的交互需求,而不是一个简单的控制。

控制一台设备,如果可以选择用摇控器也可以用手势识别时,我一定会用摇控器,因为手势识别不够稳定,很多时候识别不出来,摇控器每次按都好使。

当产品允许的情况下,用硬件方式或者更直接的方式解决,我觉得比语音方式要好。语音只是显得更酷一些。

所以,只有当你的产品上有像搜索一样的内容查询,或者有像输入法一样的大段文字输入的需求,这个时候语音在产品上才是真正有价值的。

在必须用语音解决用户痛点的场景中,对交互过程进行深度优化产生更稳定的体验,是搜狗的语音产品观。

场景又有哪些?

我们的观点是“助手”要做垂直的助手,而不是通用的助手。技术只有放在垂直场景下,才知道用户要什么。这样既能提升技术的能力,问题的难度也会降低。

下沉到垂直场景以后,就可以利用知识图谱,建立多轮对话的能力,去实现一些更复杂的查询。同时,如果你有好的用户产品和背后的数据能力以及搜索能力,和知识图谱有一个好的结合,就能在对话这件事上做到更实用。

举个例子,搜狗地图。

我们有搜狗地图产品,所以我们的语音团队能拿到地图的核心结构化数据,这对建立地图方面的知识图谱并增加POI(Point of Information)查询的理解能力,以及提升交互能力至关重要。

我们还可以反过来,利用一些产品的思维去提升技术体验。

语音识别的准确率,不管95%、96%、97%,总有百分几是识别不对的。

我们就在想,生活中人与人之间也无法完全避免听错的问题,有的时候需要重新说一遍,或者是进一步表述。比如“我叫章砚,立早章,砚台的砚”,或者“文章的章,笔墨纸砚的砚”。比如“邱勇,是清华大学校长,不是其他的”。

那么语音交互的时候,能否也用这种实用化的思路,把这些问题解决掉,使稳定性得到进一步的提升?机器是可以做到的,输入法有拆字库,也可以利用知识图谱。

如果在这件事上做到了80%的修改成功率,就意味着语音的识别错误率又降低了80%,系统的不稳定性又降低了80%。

大家都在想技术的问题

但是关于产品的思考

在整个人工智能的圈子里都是不足的

对于语音识别的准确率而言,优质的训练数据是燃料,深度学习能力是发动机,只要解决好燃料和发动机的问题,技术方面是不需要太担心的。

搜狗在2011年想做自己的语音识别,但是实际上我们没有数据,怎么办?我们先用谷歌的。当时谷歌语音识别的API在2012年1月上线到我们的输入法里边。同时,我们开始自己的语音技术研发。

2012年11月,我们自己的语音技术上线到输入法产品里,当时数据量是2000个小时。而到了今天,我们每天语音输入的规模已超1.4亿次,每天产生数据将近12万个小时。

当你有初始的技术,只要和用户的需求结合起来,总能产生数据,总可以想办法创造条件硬上,而不是要等到自己技术等方面足够成熟才可以。这其实是一个健康闭环。

这两年,深度学习技术也是学术界带领着产业界往前走的。即使我们暂时没有技术开拓的能力,那起码我们可以一直跟进最先进的学术成果,我们从2012年下半年开始跟进深度学习技术,过去几年错误率下降了60%。

同时现在又有了有更强大的计算能力,不管是FPGA还是GPU,都让我们有了更好的硬件加速。更好的硬件和更复杂的模型结合起来,我们过去一年识别错误率进一步下降了30%,识别速度反而提升了3倍。

所以,技术这一块并不是我们目前最需要担心的问题。我们主要担心的问题是如何把好的技术转化成产品。

如果要体现出技术价值,好的产品思考和创意是最关键的。现在大家都在想技术应该怎么怎么样,但是关于产品的思考,在整个人工智能圈子里都是不足的。

本文来源混沌研习社,内容仅代表作者本人观点,不代表前瞻网的立场。本站只提供参考并不构成任何投资及应用建议。(若存在内容、版权或其它问题,请联系:service@qianzhan.com) 品牌合作与广告投放请联系:0755-33069875 或 hezuo@qianzhan.com

p15 q1 我要投稿

分享:
标签: 失败 语音助手

品牌、内容合作请点这里:寻求合作 ››

前瞻经济学人微信二维码

前瞻经济学人

专注于中国各行业市场分析、未来发展趋势等。扫一扫立即关注。

前瞻产业研究院微信二维码

前瞻产业研究院

如何抓准行业的下一个风口?未来5年10年行业趋势如何把握?扫一扫立即关注。

前瞻经济学人 让您成为更懂趋势的人

想看更多前瞻的文章?扫描右侧二维码,还可以获得以下福利:

  • 10000+ 行业干货 免费领取
  • 500+ 行业研究员 解答你的问题
  • 1000000+ 行业数据 任君使用
  • 365+ 每日全球财经大事 一手掌握
  • 下载APP

  • 关注微信号

前瞻数据库
企查猫
前瞻经济学人App二维码

扫一扫下载APP

与资深行业研究员/经济学家互动交流让您成为更懂趋势的人

下载APP
前瞻经济学人APP

下载前瞻经济学人APP

关注我们
前瞻经济秀人微信号

扫一扫关注我们

我要投稿

×
J