܄

语音助手未来会怎样发展?

【数据猿导读】 语音助手会在越来越多没有屏幕的设备上出现,或者说语音助手会朝着纯语音(VUI)的交互方式发展

语音助手未来会怎样发展?

无屏化

语音助手会在越来越多没有屏幕的设备上出现,或者说语音助手会朝着纯语音(VUI)的交互方式发展。

首先解释一下纯语音交互。纯语音交互指的是我们给语音助手表达命令、确认、打断、纠错等等信息交换的过程完全通过语音来进行,没有点击、滑动等交互。

我们先确认一点,屏幕作为我们现在和智能设备交互的主要渠道,它十分重要。我们也非常习惯这种交互方式。为了更好地和屏幕进行交互,我们发明了GUI(图形用户界面),我们创造了各种各样的交互,如:点击、滑动、触摸、长按等等。我们太习惯,太喜欢这种交互方式了。甚至看到App图标上的小红点就手痒痒,忍不住去点。

未来语音技术或者语音智能助手的发展方向是什么?

所以,当我们面对一个带有语音助手的手机时候,我们会去使用使用语音助手么?太难了!!

Siri从07年开始开发,10年被苹果收购,满打满算,十年了。十年后的今天,我们做用户调研的时候发现,没有一个受访者每天使用Siri,或者更具体是,没有一位受访者是每星期都使用Siri的。

原因很简单,屏幕上几乎所有的设计都是在诱惑你去点击、滑动或者完成更复杂的『手指交互』。

而使用语音助手要求在一个满是GUI的页面上去使用语音和屏幕进行交互,这样的错位让用户充满了割裂感。这样的割裂感是现在屏幕语音助手无法克服的障碍。

好比说,一个使用屏幕VUI的用户在VUI上完成一个『任务』后,可能会去GUI上完成1000个『任务』。这样的使用情景下,用户无法形成『与设备对话』的习惯。

那么无屏化设备/弱屏化设备是最适合语音助手发展的平台,比如屏幕很小的手表、手环。或者连屏幕都没有的音响、家居助手、智能戒指等等...

这些平台的可交互性或许比屏幕低,但是这些平台的语音助手给用户更多的沉浸感。自然地更容易养成『与设备对话』这样的用户习惯。

最近几年来,符合这样趋势产品也越来越多了,比如Alexa、Nest、以及已经被放弃的Googleglass都属于这类产品。

所以语音助手的无屏化将是趋势之一。

信息去中心化

这写到半途,我的一个好友评论说:“其实主要还是因为语音助手不智能,或者说nlp做的不好...”

这句话其实对了一半,『不智能』的确是现状,但却不仅仅是NLP这一个方面。而更多的是『语音助手拥有信息的丰富程度』。

Hound­SayIt.Getit.是一家语音助手的公司,他们的产品demo视频非常精彩,如『告诉我在西雅图四星到五星的酒店,我想住三个晚上,费用是$150­$250』这样的长句。这样的句子已经能被机器所能『理解』,那剩下的问题是如何向用户提供这些信息?

还是上面的例子,如果需要『知道』符合这些条件的酒店信息,首先语音助手得有这些信息。有了信息之后你才能找到『在西雅图的』、『四星到五星的』等等符合这些条件的。现在的做法是用YelpApi或者其他的Api来获取这些信息。那么一个语音助手拥有多少信息很大程度上依赖于它集成了多少Api,以及这些Api能提供信息的丰富程度。

酒店只是其中一个例子,机票、电影票、日程安排、打车等等所有的这些服务信息几乎都源于『非语音助手内』。

这样的信息,我们称为『非中心信息』。

回到我们关于『智能』的讨论,如果今天你问一个语音助手『帮我找一家酒店』,回答『不会』,有时候并不是语音助手不能理解酒店这个词,而是他们没有接入相关的信息,没有相关的信息可以提供,最后只能去X度搜一下。

『非中心信息』或者『非中心功能』现在已经是语音助手的大趋势了。Siri开放Api允许部分开发者接入也是不得已的事情,因为它根本没有你微信内、滴滴内的信息,只有开放自己的Api,才能为Siri获得更多的『非中心信息』。更有甚者,像是Api.ai这样提供NLP的平台直接以SAAS让开发者来接入。

所以『信息去中心化』是语音助手的另外一个趋势。

情感化的语音

大家的讨论我都看了,很多人因为下面的情况而不使用语音助手:“当我在公共场合使用语音助手的时候,我感觉很尴尬。”

这是真的,我们的用户调研也充分表明这一点。这的确是很多人不使用语音助手的原因。

BUT WHY?

我们都见过这样的场景,一节车厢里面,总有人对着微信讲话,发语音。想想,同样是在公共场合暴露私密内容,为什么他们不尴尬呢?或者说为什么他们的尴尬更少一些?

对于这个问题,需要回想一开始我们为什么要做语音助手?为什么要用语音来交互?

首先语音相比于点击屏幕,它更加地自然。小孩儿吃不饱会哭,痛了会哭。当我们开始生活的那一刻,我们已经在用声音来和外界进行信息交互了,天然地『知道』用声音来表达自己的需求。

另外语音代表着更快地速度。成年人口语表达230字/分钟非常正常,在辩论队的时候,千字三分三十秒是标准。这样的速度比绝大多数人打字的速度都快。因为语音输入能带来效率上巨大的提高,所以现在语音输入慢慢占据消费者市场。如果你仔细观察的话,会发现现在几乎每一家的输入法上面都带有语音输入。带来的效率提高是显而易见的。

除此之外,最重要的是,语音是富信息。

在人与人之间的对话中,我们能从别人的语音信息中知道,他是否在生气、开心或者气馁等等。因为语音中带有音色、音量、速度、节奏等等信息。所以我们能够从这些信息中了解到你的『状态』。换句话说,语音天然带有同理心。

具有『同理心』的交互与点击屏幕的区别在于,点击屏幕是你给手机下一个指令,手机冰冷地完成你的需求。而语音交互则是让你的手机更好了解你,让你能和你的设备『交流』。

回到尴尬的问题,现在语音助手的尴尬在于『它不懂你』。

微信语音的时候另一方不会因为你没有说中一个『关键词』而不明白你的意思。屏幕对面的TA能分辨出你是生气还是在伤心。所以你可以自由向TA表达自己的情绪,因为『TA懂你』所以你不会觉得尴尬。

但事情到了语音助手就不一样了。我们用户访谈的时候发现,很多用户在和语音助手对话的时候,语气和正常说话是很不一样的。他们会压低自己的声音,会尝试让自己的声音变得没有感情,像机器人一样说话。后来发现,这样是为了最大程度地降低『尴尬感』。因为你无论用多丰富的情感和语音助手讲话,这些情感都会被『浪费』,语音助手没有处理这些『情感』的机制,只能处理语音中『带字的部分』。当你不断『热脸贴冷屁股』的时候,不仅仅是你,所有的人都会替你尴尬。

尴尬来源于『它不懂你』。

而『懂你』只是开始,更重要部分是情感化的TTS(语音播报)。

情感化的TTS,意味着语音助手能够根据你的状态来对应地给你真正的『反馈』,这样的『反馈』我们称之为『沟通』。因为它能够开心你所开心的、能够对你的悲伤给予安慰。让你真正感受到『同理心』。

这时候『尴尬感』将不再存在。

评论中对Her、对语爱的需求,都是来源于我们对情感交流需求,而情感化的语音正是这些需求的起点。

所以情感化的语音助手是趋势之一。


来源:知乎

声明:数据猿尊重媒体行业规范,相关内容都会注明来源与作者;转载我们原创内容时,也请务必注明“来源:数据猿”与作者名称,否则将会受到数据猿追责。

刷新相关文章

MIT训练出了一只变态、罪恶、极度阴暗的人工智能——诺曼
MIT训练出了一只变态、罪恶、极度阴暗的人工智能——诺曼
数据智能 无限未来—2020世界人工智能大会云端峰会数据智能主题论坛顺利举办
数据智能 无限未来—2020世界人工智能大会云端峰会数据智能主题...
数据管理简史:从人工到人工智能
数据管理简史:从人工到人工智能

我要评论

精品栏目

[2017/12/19]

大数据24小时

More>

[2017/12/18-22]

大数据周周看

More>

[2017/12/18-22]

大数据投融资

More>

[2017/12/18-22]

大咖周语录

More>

[2017/12/13-20]

大数据周聘汇

More>

[2017/12/12-19]

每周一本书

More>

返回顶部