语音助手未来会怎样发展？

人工智能语音助手

小昭 | 2017-04-17 15:12

【数据猿导读】语音助手会在越来越多没有屏幕的设备上出现，或者说语音助手会朝着纯语音（VUI）的交互方式发展

无屏化

语音助手会在越来越多没有屏幕的设备上出现，或者说语音助手会朝着纯语音（VUI）的交互方式发展。

首先解释一下纯语音交互。纯语音交互指的是我们给语音助手表达命令、确认、打断、纠错等等信息交换的过程完全通过语音来进行，没有点击、滑动等交互。

我们先确认一点，屏幕作为我们现在和智能设备交互的主要渠道，它十分重要。我们也非常习惯这种交互方式。为了更好地和屏幕进行交互，我们发明了GUI（图形用户界面），我们创造了各种各样的交互，如：点击、滑动、触摸、长按等等。我们太习惯，太喜欢这种交互方式了。甚至看到App图标上的小红点就手痒痒，忍不住去点。

未来语音技术或者语音智能助手的发展方向是什么？

所以，当我们面对一个带有语音助手的手机时候，我们会去使用使用语音助手么？太难了！！

Siri从07年开始开发，10年被苹果收购，满打满算，十年了。十年后的今天，我们做用户调研的时候发现，没有一个受访者每天使用Siri，或者更具体是，没有一位受访者是每星期都使用Siri的。

原因很简单，屏幕上几乎所有的设计都是在诱惑你去点击、滑动或者完成更复杂的『手指交互』。

而使用语音助手要求在一个满是GUI的页面上去使用语音和屏幕进行交互，这样的错位让用户充满了割裂感。这样的割裂感是现在屏幕语音助手无法克服的障碍。

好比说，一个使用屏幕VUI的用户在VUI上完成一个『任务』后，可能会去GUI上完成1000个『任务』。这样的使用情景下，用户无法形成『与设备对话』的习惯。

那么无屏化设备/弱屏化设备是最适合语音助手发展的平台，比如屏幕很小的手表、手环。或者连屏幕都没有的音响、家居助手、智能戒指等等...

这些平台的可交互性或许比屏幕低，但是这些平台的语音助手给用户更多的沉浸感。自然地更容易养成『与设备对话』这样的用户习惯。

最近几年来，符合这样趋势产品也越来越多了，比如Alexa、Nest、以及已经被放弃的Googleglass都属于这类产品。

所以语音助手的无屏化将是趋势之一。

信息去中心化

这写到半途，我的一个好友评论说：“其实主要还是因为语音助手不智能，或者说nlp做的不好...”

这句话其实对了一半，『不智能』的确是现状，但却不仅仅是NLP这一个方面。而更多的是『语音助手拥有信息的丰富程度』。

HoundSayIt.Getit.是一家语音助手的公司，他们的产品demo视频非常精彩，如『告诉我在西雅图四星到五星的酒店，我想住三个晚上，费用是$150$250』这样的长句。这样的句子已经能被机器所能『理解』，那剩下的问题是如何向用户提供这些信息？

还是上面的例子，如果需要『知道』符合这些条件的酒店信息，首先语音助手得有这些信息。有了信息之后你才能找到『在西雅图的』、『四星到五星的』等等符合这些条件的。现在的做法是用YelpApi或者其他的Api来获取这些信息。那么一个语音助手拥有多少信息很大程度上依赖于它集成了多少Api，以及这些Api能提供信息的丰富程度。

酒店只是其中一个例子，机票、电影票、日程安排、打车等等所有的这些服务信息几乎都源于『非语音助手内』。

这样的信息，我们称为『非中心信息』。

回到我们关于『智能』的讨论，如果今天你问一个语音助手『帮我找一家酒店』，回答『不会』，有时候并不是语音助手不能理解酒店这个词，而是他们没有接入相关的信息，没有相关的信息可以提供，最后只能去X度搜一下。

『非中心信息』或者『非中心功能』现在已经是语音助手的大趋势了。Siri开放Api允许部分开发者接入也是不得已的事情，因为它根本没有你微信内、滴滴内的信息，只有开放自己的Api，才能为Siri获得更多的『非中心信息』。更有甚者，像是Api.ai这样提供NLP的平台直接以SAAS让开发者来接入。

所以『信息去中心化』是语音助手的另外一个趋势。

情感化的语音

大家的讨论我都看了，很多人因为下面的情况而不使用语音助手：“当我在公共场合使用语音助手的时候，我感觉很尴尬。”

这是真的，我们的用户调研也充分表明这一点。这的确是很多人不使用语音助手的原因。

BUT WHY？

我们都见过这样的场景，一节车厢里面，总有人对着微信讲话，发语音。想想，同样是在公共场合暴露私密内容，为什么他们不尴尬呢？或者说为什么他们的尴尬更少一些？

对于这个问题，需要回想一开始我们为什么要做语音助手？为什么要用语音来交互？

首先语音相比于点击屏幕，它更加地自然。小孩儿吃不饱会哭，痛了会哭。当我们开始生活的那一刻，我们已经在用声音来和外界进行信息交互了，天然地『知道』用声音来表达自己的需求。

另外语音代表着更快地速度。成年人口语表达230字/分钟非常正常，在辩论队的时候，千字三分三十秒是标准。这样的速度比绝大多数人打字的速度都快。因为语音输入能带来效率上巨大的提高，所以现在语音输入慢慢占据消费者市场。如果你仔细观察的话，会发现现在几乎每一家的输入法上面都带有语音输入。带来的效率提高是显而易见的。

除此之外，最重要的是，语音是富信息。

在人与人之间的对话中，我们能从别人的语音信息中知道，他是否在生气、开心或者气馁等等。因为语音中带有音色、音量、速度、节奏等等信息。所以我们能够从这些信息中了解到你的『状态』。换句话说，语音天然带有同理心。

具有『同理心』的交互与点击屏幕的区别在于，点击屏幕是你给手机下一个指令，手机冰冷地完成你的需求。而语音交互则是让你的手机更好了解你，让你能和你的设备『交流』。

回到尴尬的问题，现在语音助手的尴尬在于『它不懂你』。

微信语音的时候另一方不会因为你没有说中一个『关键词』而不明白你的意思。屏幕对面的TA能分辨出你是生气还是在伤心。所以你可以自由向TA表达自己的情绪，因为『TA懂你』所以你不会觉得尴尬。

但事情到了语音助手就不一样了。我们用户访谈的时候发现，很多用户在和语音助手对话的时候，语气和正常说话是很不一样的。他们会压低自己的声音，会尝试让自己的声音变得没有感情，像机器人一样说话。后来发现，这样是为了最大程度地降低『尴尬感』。因为你无论用多丰富的情感和语音助手讲话，这些情感都会被『浪费』，语音助手没有处理这些『情感』的机制，只能处理语音中『带字的部分』。当你不断『热脸贴冷屁股』的时候，不仅仅是你，所有的人都会替你尴尬。

尴尬来源于『它不懂你』。

而『懂你』只是开始，更重要部分是情感化的TTS（语音播报）。

情感化的TTS，意味着语音助手能够根据你的状态来对应地给你真正的『反馈』，这样的『反馈』我们称之为『沟通』。因为它能够开心你所开心的、能够对你的悲伤给予安慰。让你真正感受到『同理心』。

这时候『尴尬感』将不再存在。

评论中对Her、对语爱的需求，都是来源于我们对情感交流需求，而情感化的语音正是这些需求的起点。

所以情感化的语音助手是趋势之一。

来源：知乎

收藏分享

声明：数据猿尊重媒体行业规范，相关内容都会注明来源与作者；转载我们原创内容时，也请务必注明“来源：数据猿”与作者名称，否则将会受到数据猿追责。