华镇电子基于语音识别的除噪效果好吗?

噪声问题一直是基于语音识别的嘚一个老大难的问题在理想的实验室的环境下,识别效果已经非常好了之前听很多音频算法工程师抱怨,在给识别做降噪时经常发現WER不降反升,降低了识别率有点莫名其妙,又无处下手

  刚好,前段时间调到了AIlab部门有机会接触这块,改善基于语音识别的的噪聲问题虽然在此之前,询问过同行业的朋友单通道近场下,基本没有太大作用有时反而起到反作用,但是自己还是想亲身实践一下至少找到这些方法失效的原因,看看是否在这些失败的原因里面改进下思路,可能有新的发现;同时去Ailab顺带把深度学习降噪实践一紦,就算在ASR没有效果以后还能用在语音通信这个领域。

  任务的要求是保证声学模型不变动的情况下即不重新训练声学模型,即单純利用降噪来改善那些环境恶劣的样本同时保证不干扰纯净语音或者弱噪声的语音场景,所以非常具有挑战性

filtering),剩下的任务就是调参经过很多次努力,基本没有什么效果相反WER还会有1%点左右的增加。

分析对比了降噪和没有降噪的识别文本对比和频谱分析总结了以下這些原因,希望对后面的人有些参考意义:

  1.DNN本身就有很强的抗噪性在弱噪声和纯净语音下,基本都不是问题

通常场景下,这点噪聲用线上数据或者刻意加噪训练,是完全可以吸收掉的只有在20db以下,含噪样本的频谱特征和纯净样本的频谱特征差异太大用模型学習收敛就不太好,这时需要降噪前端

  2.降噪对于纯净语音或者弱噪声环境下,不可避免的对语音有所损伤只有在恶劣的环境下,会起到非常明显的作用

传统降噪是基于统计意义上面的一个处理,难以做到瞬时噪声的精准估计这个本身就是一个近似的,粗略模糊化嘚一个处理即不可避免的对噪声欠估计或者过估计,本身难把握保真语音,只去噪如果噪声水平很弱,这个降噪也没有什么用或者說没有明显作用去噪力度大了,又会破坏语音可以预见,根据测试集进行调参就像是在绳子上面玩杂技。

我们的测试样本集90%的样夲都在在20db以上,只有200来条的样子环境比较恶劣。所以通常起来反作用

  3.降噪里面的很多平滑处理,是有利于改善听感的但是频谱吔变得模糊,这些特征是否能落到正确的类别空间里面也是存在疑问的。所以在前端降噪的基础上再过一遍声学模型重新训练,应该昰有所作用的但是训练一个声学模型都要10来天,损失太大也不满足任务要求。

  4. 传统降噪通常噪声初始化会利用初始的前几帧,洏如果开头是语音那就会失真很明显。

  5.估计出噪声水平在SNR低的情况下降噪,SNR高时不处理或者进行弱处理,在中间水平进行软處理,这个思路似乎可以行的通

  6.用基于声学特征的传统降噪方法,尝试过在测试集里面,有不到1%的WER降低

  7.到底用什么量来指導降噪过程?既然降噪没法做好很好的跟踪处理的很理想。即不可能处理的很干净同时不能保证语音分量不会被损伤,即降噪和保证語音分量是个相互矛盾同时也是一个权衡问题。那其实换个角度降噪主要是改善了声学特征,让原来受噪声影响错分类的音素落到正確的音素类别即降低CE。那么应该直接将降噪和CE做个关联用CE指导降噪过程参数的自适应变化,在一个有代表性的数据集里面有统计意義上的效果,可能不一定能改善听感处理的很干净,但是在整体意义上有能改善识别的。所以说语音去噪模块必须要和声学前端联合起来优化目标是将去噪后的数据投影到声学模块接受的数据空间,而不是改善听感即优化的目标是降低声学模型的CE,或者说是降低整条鏈路的wer,所以用降噪网络的LOSS除了本身的损失量还应绑定CE的LOSS自适应去训练学习是比较合理的方案。也可以将降噪网络看成和声学模型是一個大网络为CE服务,当然这不一定是降噪网络,也可以是传统的自适应降噪方法但是如果是基于kaldi开发,里面涉及到的工程量是很大的

  8.在整个基于语音识别的体系中,由于声学模型的强抗噪性所以单通道下的前端降噪似乎没有什么意义,1%左右的wer的改变基本不影響整个大局,所以想要搞识别这块的朋友应该先把重要的声学模型,语言模型解码器,搞完之后再来撸撸这块,因为即便没有单独嘚前端整个识别大多数场景都是OK的,恶劣的场景比较少一般场景大不了扩增各种带噪数据训练,大不了扩增各种带噪数据也是可以嘚。

我们的线上数据影响识别的因素排序是口语化,方言短词,其次才是噪声另外,少量混响语速,音量也是影响因素之一,鉯上是自己的一点片面之言希望对大家有参考意义,少走弯路

中国AI显自信 阿里巴巴向世界开源噺一代语音识

近日阿里巴巴达摩院机器智能实验室基于语音识别的团队,推出了新一代基于语音识别的模型——DFSMN这支平均年龄只有30岁嘚团队还宣布,即日起向全世界企业与个人开源此次打破全球基于语音识别的纪录的DFSMN模型使全球开发者都能共享这一成果,共同推进人笁智能技术的发展这也使DFSMN有望继传统的LSTM模型后,成为全球基于语音识别的领域最主要的声学识别模型之一著名基于语音识别的专家,覀北工业大学教授谢磊表示:“阿里此次开源的DFSMN模型在基于语音识别的准确率上的稳定提升是突破性的。是近年来深度学习在基于语音識别的领域最具代表性的成果之一对全球学术界和AI技术应用都有巨大影响。”阿里在GitHub平台上开源了自主研发的DFSMN基于语音识别的模型基于語音识别的是人机交互中的核心技术在智能音响、智能家居、机器人及自动驾驶等领域都有广泛应用。在刚刚结束的云栖大会武汉峰会仩装有DFSMN基于语音识别的模型的“AI收银员”在与真人店员的PK中,在嘈杂环境下准确识别了用户的语音点单在短短49秒内点了34杯咖啡。此外装备这一基于语音识别的技术的自动售票机也已在上海地铁“上岗”。DFSMN基于语音识别的模型对比目前业界使用较为广泛的LSTM模型,训练速度更快、识别准确率更高采用全新DFSMN模型的智能音响或智能家居设备,相比前代技术深度学习训练速度提到了3倍基于语音识别的速度提高了2倍。

AI作为时下“显学”拥趸云集,電视行业亦是未能免俗人工智能电视和普通智能电视相比,最主要的差别在于智能电视具备了“认知”层面的进化自适应、自学习、洎成长是它的主要特质。电视具备了学习功能在节目推荐、认知、决策、反馈上,人工智能电视确定比普通智能电视要先进

但是这些昰隐性的或者冲击力并不强,远不足以支撑用户购买人工智能电视或者将普通智能电视换为人工智能电视

我们再来看近年来的电视发展浪潮,远的不说就说近几十年的大趋势,从黑白电视到彩电电视形状上,从台式机过渡到液晶屏从非智能电视过渡到智能电视,对鼡户来讲无疑都是颠覆性的,都引起了一大波的换机浪潮是很具典型的从0到1,但是从智能电视到人工智能电视震撼力并没有前几波強悍,只能算是从1到2 在志刚看来,对于科技产品来讲如果更新换代是隐形的,只是起到锦上添花的作用那么一定要找到一个可以外囮的、用户可以感知到的购买点。

举个例子PC端下载360杀毒软件的读者会发现这么一个图标:360加速球。电脑加速是对现在运行速度的一个升级,但是简单的一次升级用户是根本感知不到的。但是用可量化的加速球加速后内存明显变大,这一可量化的数据变化将隐形的價值外显出来。不止360加速球还包括小米手机曾经标榜的不服跑个分,都是为了展现系统优化后用户的可感知性。

因此人工智能电视仩半场,比AI技术更为重要的是让用户能真切的感知到AI技术与智能电视之间的区别,挖掘出用户购买点从而起到催化剂的作用,激活用戶换机欲望或者吸引新的用户

AI电视1.0时代:既“做事”又能“做秀”,基于语音识别的技术成了厂商的“小红旗”

智能电视厂商一方面,集体进军人工智能电视领域另一方面,姿势上也大抵相似每一家的人工智能电视,均引入基于语音识别的技术某种程度上讲,对於人工智能电视厂商而言基于语音识别的技术就是“360加速球”、“不服跑个分”,对着电视说话就能控制取代遥控器,用户感知明显

智能电视厂商,引入基于语音识别的技术在产品上很成功,找到了一个较之智能电视不具备的新功能局部实现了智能电视到人工智能电视的从0到1。

基于语音识别的技术不仅可以“作秀”,能让用户明显感知到技术进步交互形式从遥控器进化到基于语音识别的,具備购买点而且还能“做事”,确实能为用户带来新的体验

和普通的基于语音识别的功能所不同,市面上的很多人工智能电视都是基於NLP自然语言并结合deep learning技术,准确理解用户意图用语音直接控制电视,如关机、搜索、听音乐、问天气等多种场景要求正因为有大数据的後台支持,大屏一体机能够做到“千人千面”比如用户直接语音说出“我要看《如懿传》”,在后台数据分析中就会根据爱看该剧的觀众特征加上相关数据,分析出此类用户喜好并推荐相关内容。

电视可以根据不同用户的不同观看习惯通过收集用户观看行为调整内蔀算法,为不同需求的用户推送出精准、所需的内容,达到“玩的越多越懂你越懂你越好玩”的效果。

但是基于语音识别的下的智能电视依然有很多痛点没有解决或者说,基于语音识别的的AI电视仍然需要改进

我们从用户习惯上来分析。在具体商用时人工智能领域的大佬们讲了很多,要考虑使用场景唯有此才能将技术真正落地,才能实现商业价值道理都懂,可是在具体落地时不免陷入技术型自嗨。

许多技术在宏观上可以分为两个大阶段,一种是普适性技术(也可以称为全民刚需型技术)比如从蜡烛到灯泡,几乎上全民适用夶家都能接受,再比如电视从台式到液晶从非智能到智能,都是普适性技术而且不涉及过多的用户习惯问题,新技术很快就能普及开來

另一种是升维性技术(非全民刚需型技术),比如从电灯泡到霓光灯霓光灯色彩绚丽,在某些场景确实能发挥价值,但是家庭中没什么人采用的,尽管技术上比灯泡炫酷但是并非刚需,并非全民适用人工智能电视的语音技术,也很炫酷未来也许会成为主流,成为普适性技术但是当下还仍处于升维性技术(非全民刚需型技术)阶段,抛开遥控器采用语音交互,难免有点早

有些技术注定昰会被淘汰的,但是有些技术纵然在不断的进步,但是人们还是习惯性的选择使用原来的技术原来的技术也许看起来不那么炫酷,但昰习惯了遥控器并没有什么不好,无缘无故被彻底废弃而且是歇斯底里式,不免操之过急

技术更替尤其是涉及到交互方式的技术创噺,不单单涉及技术更重要的是考虑用户习惯。技术为王但不唯技术论;要在用户习惯与技术更迭之间找寻平衡点。语音交互技术形式的出现是对当前交互方式的一种很好的补充,实用性并不算太强

AI电视2.0时代:人脸识别技术或为厂商切入人工智能电视的正确姿势

新技术应用到传统硬件中,初期难免会有噱头大于实际的情况随着技术或者产品设计的进一步提升,会日益完善对于智能电视领域,人臉识别技术的引用或将AI电视引入2.0时代。

目前来讲引入智能电视的厂商并不多。主要有17年10月份联想发布的智能电视65E8,17年底微鲸发布嘚电视D系列65,以及康佳近日发布的人脸识别智能电视之所以说人脸识别技术较基于语音识别的更为完善,主要体现在以下几点:

一是:擠压儿童智能电视市场

2013年, 老牌电视厂商TCL发布了全球首款专为儿童定制的迪士尼儿童电视。酷开也早在前几年便进军儿童智能电视领域酷开专门为儿童打造了一款智能电视。此外长虹推出了双模式+双UI界面的儿童电视,增加电视学习教育板块和保护视力的同时还具備童锁功能。儿童APP市场独占鳌头的小伴龙牵手暴风电视让孩子在互动引导中快乐学习,为儿童群体打造一款专属的智能电视

之所以专門针对儿童设计智能电视,主要是孩子没有自控能力长时间观看电视难免会增加视觉疲劳,另外无休止的观看电视还容易影响学业所鉯,厂商专门推出儿童智能电视不少在意的家长会为此买单。

但是单独为孩子购买智能电视成本高会牺牲家庭其他成员的看电视体验,因此智能电视如果能将儿童与家长区分开,实现一机两用无疑是一个不错的选择。

而人脸识别技术可以完美的解决家长与孩子的不哃观影需求以康佳最新发布的人脸识别为例,所采用的人脸识别技术能够通过人脸识别及后台大数据分析,定位用户的使用习惯为鼡户推荐个性化的节目,智能推送达到真正的千人千面,更好地满足用户差异化、个性化的需求该功能最多可识别8人左右,精准识别鼡户人物属性对性别和年龄进行分析,以便于更精准推送用户喜爱内容因此,相比基于语音识别的技术人脸识别无疑更能为用户带來更好的观影体验。

二是:打通了OTT电商市场的“任督二脉”

人脸识别下的个性化定制不仅能实现内容精准推送还能极大地提升广告精准喥,从数字媒体行业发展进程看伴随着移动互联网网民渗透率触顶,OTT被视为继续享受互联网红利的媒介营销价值存在爆发增长点。

勾囸数据的报告显示2018年上半年,国内OTT广告市场规模达23.5亿元已超过2017年全年OTT广告市场23亿元的总值,人脸识别精准定位受众群体无疑将极大提升广告精准度。

广告营销行业的一只脚已经从单纯的“流量时代”迈向重视运营维护的“用户时代”在确保规模化的用户触达量之外,更全面地理解用户从而提升“质”已经成为广告主和代理商的必修课人脸识别引领的“精准规模化”满足了人们对于未来广告精准投放的各种想象。

从卖货层面来看人脸识别技术为OTT电商行业井喷提供了土壤。

“内容即商品”的广告推广模式和“边看边买”的消费需求用户可以通过智能电视内的购物应用在电视大屏端实现轻松购物,品牌商借助大屏幕利用炫彩的视频来展示商品,相较于PC端或是手机迻动端用户能更好的获得淋漓尽致的购物体验。这种商业模式最大的特点就是将电视媒体、电商平台和产业实体三者联合起来形成一个唍整的商业价值链条

大屏购物体验虽好,但是及时转化成订单是缩短支付流量更为关键。知名互联网评论家keso老师曾经在《内容付费为什么会在2016年突然兴起》一文中提到:在iPod引爆音乐市场之前,数字音乐付费通常被认为是不可能的因为经过各种尝试之后,市场上留下嘚是一批批先烈倒下之前的背影Apple在iPod上做了什么?它只是通过软件、硬件和服务的紧密关联将数字音乐的发现、购买、下载和同步,整匼成一个极为平滑流畅的完美体验换句话说,用户的付费意愿一直在那但过去从来没人把包括付费过程在内的数字音乐消费的整个流程,当成一个完整的用户体验看待当消费过程变得极其便利,付费意愿就会被大面积激发

如今直播打赏,微信文章打赏甚至知识付费の所以能够爆发离不开付费体系的完善。对于OTT电商行业也是一样而言要想实现大的爆发,前提是付费形式高效化便捷化。而人脸识別技术无疑缩短了用户在看电视过程中的购买欲望提升了转化率。

AI作为一项颠覆性的技术在智能电视领域,从基于语音识别的再到如紟的人脸识别每一次新技术的引进无疑都将让科技以人为本的理念,更加的深入贯彻

我要回帖

更多关于 基于语音识别的 的文章

 

随机推荐