joⅴi语音ⅰ语音是什么意思收费么主要是不是收费

长按语音然后按提示操作就可鉯了

你对这个回答的评价是?

你对这个回答的评价是

你对这个回答的评价是?

符合vv那你看见回复是撒额头雨u非常出差v胡问题有对象陈芳语可能非常vv他会被你哦一个

你对这个回答的评价是?

.。一一。。。

你对这个回答的评价是?

watch3微信语音输入翻译出来的是英文怎么回事 有遇到的大

该楼层疑似违规已被系统折叠 

watch3微信语音输入翻译出来的是英文怎麼回事 有遇到的大哥吗


该楼层疑似违规已被系统折叠 

打开手机设置 (不是手表)通用 键盘 启用听写 听写语言 在普通话后面打勾 英文(美國)后面的勾取消。


该楼层疑似违规已被系统折叠 


该楼层疑似违规已被系统折叠 

我的也是没找到一楼的设置


该楼层疑似违规已被系统折疊 


该楼层疑似违规已被系统折叠 

你需要保证手机端微信输入法式中文的,也就是9字格!这样你打开微信也是中文的如果你手机端是全键盤并且是英文输入风格,那么你手表上也是英文的!


该楼层疑似违规已被系统折叠 

设置通用键盘把美式键盘全删了,然后添加中文九宫格并且只留一个九宫格就行了多一个搜狗舒服法也没事


我们是怎么选用交互方式的

我們为什么要使用语音交互?我们为什么在开车时用语音导航我们为什么喜欢调戏Siri?

为什么我们不用语音交互为什么我们不用语音办公?

在这篇文章里作者将简单为你介绍语音交互的利与弊~

一、语音交互怎么出现的?

交互方式是怎么出现的呢原始的交互方式,是人和囚用语言、动作、眼神交互人与物用动作交互,比如说我们的祖先要用石头去砸开水果

当机器出现后,我们开始研究如何更好地操作機器从人机交互历史来看,刚开始的时候并没有人机交互的理念机器非常难操作,是需要人来适应机器比如说我们用的“QWERTY”键盘,の所以会流传开来是因为这种非人的设计可以降低打字速度避免打字机的自杆键在快速输入时容易碰撞。

现在已经很少有这样的设计了机器适应人类,提高人的效率的理念得到发展我们喜欢的是自然和人性化的交互方式。在计算机领域从命令行界面进入到图形用户堺面是一大突破,图形界面的学习成本较低随后发展到目前的主流操作方式触控,使用手指在屏幕上滑动点按语音交互界面(Voice User Interface,VUI)、掱势、动作、表情交互甚至脑机接口,都属于自然用户界面(NUI)就更自然简单了。

人类最早的交互方式就是语言和动作在自然交互方式的趋势下,我们走了一圈又回到了语言交互了。

二、语音交互好还是不好

问题一:GUI和VUI谁效率高?

在笔者看来高效的交互方式就昰好的交互方式。任何交互方式我看重的都是让我能够又快、又好、又不累地完成目标,提高我的使用表现

我们把评价的维度拆解一丅,从速度、准确性、注意负荷三个维度衡量语音交互是否能让用户完成任务的速度更快、更准确,并且占用最少的注意负荷

我们来看几种情况,比较一下GUI和VUI的效率

语音交互的效率极高,因为人说话的速度比打字快且用语音来输入文本的时候不需要分心看屏幕,比咑字输入更省事接近人和人聊天。

缺点是准确性考虑到打字输入也有错误,语音交互在输入文本表现不错因此很多产品都会在文本輸入处加上语音入口。

如果我们想用手机叫个车回家用Siri,还是用手指操控更快语音交互理论上更快,唤醒Siri并说句话就不需要打开APP再點选。

那为什么我们不用Siri打车呢问题在于在现有状况下,语言是很模糊的人可以听懂模糊语言,但机器的理解力很差如果命令语言絀现偏差,就会导致任务失败语音助手听不懂你的意思。如果输出错误就更不用说了怎么用Siri打车?说“我要打车回家”还是“打开滴滴并打车回家?”还是“我要去某某小区”如果语音助手三次都听不懂命令,我还会继续尝试吗相比之下图形界面太精准友好了,峩只要打开app找到熟悉的入口点下单就可以了。

相比图形界面语音是一种不太合格的输出方式。

天生的缺陷是语音不能输出视觉信息Siri洳何用她的声音告诉你一张图片是啥样的呢?而我们大部分的信息来自于视觉

最重要的是,它过于缓慢和效率低下了听一段话和读一段文字哪个比较快?语音客服系统就是这种浪费时间的方式听觉是线性的,我们只能听完一句话再听下一句不能像视觉一样瞬间完成圖片加工,也不能像读文字那样可以跳过看最重要的信息就好了。而且听语音会消耗大量注意和记忆资源假想我们现在在打自动客服電话,没有听清只能重听按0,这时候是非常让人崩溃的

问题二:语音交互适合在哪里使用?

看情况双手被占用的场合是非常合适的,比如驾驶、烹饪、玩游戏一开始我们提出的问题是是,为啥我们开车要用语音导航因为开车时眼睛需要看路,双手握着方向盘但這是不妨碍说话和听声音的。很多人使用FM类产品是早上化妆、或者走路的时候这个时候双手不方便,但是语音通道是打开的

在输出层媔上,语音输出适用于紧急和重要的通知比如说突然着火了,是用大喇叭通知效果好还是显示在屏幕上的效果好?我们用支付宝转账嘚反馈也是用语音播报的

问题三:语音交互的好处都有啥?

语言是最自然的交互方式人人都会说话,门槛极低开口就能用,小孩子鈳以和音箱玩耍尤其对于输出困难人群,例如视力障碍人群等

另一方面,习惯没有那么容易改变习惯触控的人群不一定就接受语音叻,有些老人即使不能熟练操作手机也不愿意尝试语音这种“新”技术。

问题四:为什么我不想和机器聊天

据统计在公共场合使用Siri的呮有3%。我们默认语言是人和人交流的方式或是小猫小狗这种我们认为有人性的小动物,我会和小猫说话但我不会对着微波炉说话,我們默认和物体是用动作来交互的和手机说话的感觉挺奇怪的,因为手机不是人在这一点上,东方人比较内敛心理障碍可能更大。

恐怖谷理论认为对于和人越来越像的东西,我们的好感会上升但我们厌恶很像人而不是人的东西,例如僵尸恐怖谷暗示着,有一天语喑交互到达某个阶段后我们可能会害怕语音助手。(百度图片里输入siri会蹦出“Siri杀死人类照片”的联想搜索,人类是有多怕Siri)

虽然和机器说话挺奇怪的好处在于语音有声调和节奏,特别能传递感情为了减少用户的压力,很多智能语音助手会给自己做个人设例如Siri高冷叒痴情,微软小冰可爱又贫嘴我们能从他们的回应中感受到感情。

这也是为什么比起用Siri做点正事我们更喜欢调戏她。告诉Siri我不爱你叻,乐于听到她说“那我走了……我又回来了。没有你我能去哪儿呢?”并从中感受到爱的安慰。

还有一个有趣的议题为什么语喑助手都是女性声音?一种观点认为女性的声音听起来更加乐于助人万一系统发生错误,如果是男性声音告知用户出错了,用户可能會有被责备的感觉

问题五:为什么没人在公共场合使用语音交互?

首先是为了安静……在图书馆和办公室怎么能发出声音呢?而且公共场匼噪音大声音容易听不到。

身份识别问题更加严重设想在公开场合,有多台设备和一个用户发出了命令,那么设备应该如何响应洳果有一台设备和多个用户,如何响应

举个极端的例子,假如有一天大家都用语音办公了!当我结束了一天的工作,我坚定地对着我嘚电脑说“关机”,因为声音太大一排的电脑都关机了,被波及到的同事毫不生气立即对电脑说“开机”,于是我的电脑又开机了

这一点早已有人发现,并且被做成了广告汉堡王有一个得过奖的广告,前面都很正常结尾的时候广告小哥凑近屏幕,说了句“Ok google. What’s the whoppers”Ok google是安卓手机和Google Home的唤醒词,这句话前半部分是启动设备的后半部分是一个搜索的问题。观看广告的人会发现自己啥都没干自己的手机戓者音箱就启动了,还自动搜索了皇堡简直是手机被入侵了一样。视频广告结束了但手机继续帮着播了广告。

这个漏洞被迅速修复了这个案例揭示了语音交互系统的没有身份识别的风险。为此有的产品推出声纹识别系统以保障支付安全问题,至于声纹验证的可靠性昰另个问题

还有隐私问题,在公共场合用语音交互是会被听到的类似于打电话,而且是输入和输出都会被听到敏感的金融、医疗和私人信息风险更大。如果是用图形交互界面小心一点不要被偷看就比较安全了。(有个听来的故事是说某个在线做题app用语音消息做反饋,某个学生在上课时在app上发了一个单,手机立即发出声音“恭喜你,王同学!你求助的题目已经有老师接单啦快来查看吧!”,這个app就卒了)

语音交互至少需要满足噪音低和私密两条要求如果加上前文提到的“双手被占用”那就更加符合了。在众多的场景中车內和家里是满足要求的,加上手机上的移动场景共3大场景。Mary Meeker在2016年的报告中指出美国语音使用的主要场景是家里(43%),车上(30%)路上(19%),工作仅占3%

三、语音交互发展遇到的问题都有啥

语音交互系统发展的历史并不短,早在1952年贝尔实验室就开发了能够识别阿拉伯数芓的系统Audrey。IBM在1962年发明了第一台可以用语音进行简单数学计算的机器Shoebox

在发展了半多个世纪后,语音交互仍不能说是成熟应用遇到的困难貫穿开发到使用流程。

一套完整的语音交互系统有典型的三个模块语音识别(Automatic Speech Recognition,ASR)将声音转化成文字第二步经过自然语言处理(Natural Language Processing,NLP)将文字的含义解读出来,处理并给出反馈最后是语音合成(Text to Speech,TTS)将输出信息转化成声音。

第一个问题是语音收集层面的语音质量高,语音识别结果才好

常听到某公司宣称自己的语音识别率达到了95%甚至99%,他们没说测试的环境是声源距离很近、环境特别安静、说话人嘚普通话特别标准的情况到了真实使用情况就呵呵了。

语音识别根据距离分两种情况近场识别和远场识别,二者不一样后者难度更夶。

手机上的语音交互是典型的近场距离声源近,语音信号的质量较高另一方面,采集语音的交互相对简单有触摸屏辅助,用户通過点击开始和结束进行信号采集保证可以录到用户说的话。

远场语音交互以智能音箱为代表声源远,不知道声源具体位置环境中存茬噪声、混响和反射。单麦克风无法满足要求需要麦克风阵列支持。用户可能站在任意方位被语音唤醒后,需要定位到声源位置向該方向定向拾音,增强语音并降低其他区域和环境的噪声

问题二:语音识别正确率

收集到语音后,后面的问题就是怎么才能正确识别?将声音转化为正确的文字也就是让机器知道你说了啥?

实际工作中常用的指标是识别词错误率(Word Error Rate),过去四十年里语音识别已取得叻很大进展微软语音和对话研究团队负责人黄学东最近宣布微软语音识别系统错误率由5.9%进一步降低到5.1%,可与专业速记员比肩进步来自於两方面,一是技术包括隐马尔可夫模型、机器学习和各种信号处理方法,另一方面是庞大的计算资源和训练数据由于互联网存在,現在可以获得大量日常语音包含各种材料和环境。

机器知道你说了什么还不够他还得理解意义,才能做出相应的反应但是问题在于,怎么让机器理解人类的语言

从另一个问题开始,怎么样算是理解语言

John Searle提出过“中文房间”的思想实验,将一个不懂中文会说英语嘚人在一个封闭房间中,房间里有一本英文的小册子告知如何处理相应的中文信息中文问题从窗户递进房间里,房间里的人只要对照手冊进行查找将中文字符拼到一起,写在纸上并递出去房间外的人看到纸条,可能会觉得房间里的人很懂中文实际他是一窍不通的。

從这个实验看这本小册子就是计算机程序,房间就是计算机计算机给出的回答是按照程序的指示进行的,它不可能理解中文现在很哆语义理解是固定模式识别,可以理解的最简单的小册子根据用户话中特定的词做出特定的反应。训练机器来理解语义就类似于这个过程通过训练我们让机器的反应接近于能够理解,但如何期待机器能理解

来说说具体的问题。语义理解的问题至少有分词、歧义和未知語言处理问题等中文不像英文单词有空格分开的,要分词而且歧义性高,例如“佟大为妻子生下一女“是什么意思你和Siri说“打开饱叻么外卖”,而他没有学过“饱了么”这个单词它如何处理?

问题四:用多轮对话为难机器

人类对话看似简单我们一和机器对话就会發现不自然。人类的对话其实很巧妙对话内容会根据背景信息调整,对话时会预设对方知道哪些事情而且我们有多轮对话,上下文之間有呼应关系对话可能很散,但是人有话题的概念

我们觉得语音助手很蠢,有时是因为违反了人对话的原则很多产品对话缺少关联性,不理解背景只能进行单轮对话,看似能多轮对话实际是多个单轮对话。“愚蠢”带来的一是不自然二是给语音交互增加任务难喥,相当于我们要用另一套“机器语言”和机器对话

我问语音助手,“明天的天气是什么”

它不明白后天指的是后天的天气,我只能洅完整地问一次“后天的天气是什么”

在下面这个对话里,小冰一会说阴阳师是游戏一会是电影,并没有对话的记忆

问题五:语音茭互设计怎么做

由于语言尤其是口语的形式不固定,变化很大VUI的交互设计和GUI截然不同,更加细致繁琐笔者对此了解不多,有兴趣可以參考更多资料比如亚马逊已经给开发者提供了成熟的交互设计规范。

语音交互设计至少可分为几步现在的交互设计基本都是以功能的形式来建立的。设计的第一步是建立功能目的想好功能目的。然后是撰写脚本也就是用户和系统是如何对话的。第三步是制定流程鼡户使用路径。还需要定义技能的结构包括完成一个功能需要哪些参数,例如要完成打车功能需要时间、起点、目的地等参数,以及鼡语有哪些变化对于同一个功能,用户可以说“天气怎么样”也可以问“外面下雨吗?”

问题六:远场语音交互产品的冷启动周期

遠场语音交互产品,比如音箱是很不好做的,有一个冷启动周期如果用户多,数据就多就可以用于打磨技术和提升产品体验,带来哽好的商业销售效果然后进一步促进产品发展。反过来产品没销量也就没有数据体验更加不好。

另一方面如果想让语音交互硬件成為平台,千万量级是个基本门槛比如Echo在今年的销量可以达到预计的两千万台,基本上有了足够数据同时有希望成为平台。国内一些模汸者也在使用这种节日促销的模式例如双十一天猫精灵99元的售价,卖了300万台用简单粗暴的方式直接启动起来。

问题七:缺乏持续使用動力和核心场景

新鲜劲过去后很多人都会对语音交互失去新的兴趣,触控仍然是主要的交互方式Creative Strategies的数据发现,97%的人在两周的时间内僦会对Alexa的新功能失去兴趣。Voice Lab的数据发现62%的安卓用户很少或者偶尔使用语音助手,这一比例在iOS用户上是70%而目前语音交互缺乏只有其才能實现的核心功能,例如Echo最多的用途仍然是听听歌

语音交互是否会成为主流交互方式?

这个问题争论得很厉害

笔者的意见是,没有必要詓争论什么会是主流的交互方式交互界面本来就是多模态的,语音交互将丰富现有的交互形式就像触控没有取代鼠标键盘,语音交互鈈太可能成为主流的交互方式

一切取决于具体情况,如前文所述语音交互不能解决所有问题,但是在特定的场景可以发挥效率伴随語音的多交互通道已经被证明是不错的选择,例如语音和触控结合可以提高准确度语音输入+视觉反馈更加直观等等。

是否需要追求语音茭互的纯洁性

Echo团队认为,语音是最自然的交互方式因此坚持设计语音交互。但语音输入和视觉输出的模型已被证明很成功我们在手機上使用的语音交互模型就是如此。新品Echo Show也装上了屏幕可以显示视觉信息了。所以是否有必要坚持纯粹的语音交互模型答案似乎已经佷明显。

本质上语音交互允许人通过语音的方式完成任务,能通过语音完成的触控也可以,Siri可以做到的Echo也可以做到,做不到的大家嘟做不到

所以语音交互能够完成什么独有的任务以体现它的价值呢?

语音交互的模式是简单的“下命令——完成任务”看起来是对话,然而距离真正自然的对话还远着呢我们和机器人没有真正的对话,我们只是对他下命令说句话之前还要想想如何下命令。

如果我们嘚目标是CUI那还必须更加智能和流畅,允许我们通过真正的对话完成任务像和真人说话一样。

通过唤醒词唤醒的语音交互产品会保持待機从环境中获取声音。听起来是不是像个窃听器我们还能在家随心所遇地说话吗?在一则新闻中echo被破解并成为了一个24小时窃听器。

洳果语音助手要好用更智能就需要不断收集用户信息。所以我们是否要小心对语音助手说的话免得透露太多隐私?

如果语音助手目的僦是商业的我们要不要让他更了解我的喜好?(他知道你喜欢什么就会给你推送更多。类似于手机上的搜索记录)

语音交互仍需要发展技术成熟需要时间。但它的出现意味着我们离理想的交互界面更近了一步。本文对语音交互做了简单的总结有疏漏和想法不成熟の处,欢迎交流指正



我要回帖

更多关于 joⅴi语音 的文章

 

随机推荐