小度1C好吗在家1C真踏马垃圾,设了声纹还是听别人声音,那你设置声纹这一步有屁用,小度1C好吗设置了声纹有什么用

如果说在上一轮人机大战的人脸識别对决中由于小度1C好吗对阵了并不擅长人脸识别的王峰,令比赛意义打了折扣那么昨天进行的第二轮声音识别的人机大战,虽然最終只是战平但对于AI 界的意义却似乎更大。

原因有两点:一、公认实力顶尖的对手;二、业界公认困难的比赛内容

在对手上,此次迎战百度小度1C好吗的是名人堂公认最擅长声音辨别的选手孙亦廷他辨别声音细节的能力在名人堂无出其右,能通过水球从0~70米高空坠地破碎的聲音来准确辨别水球下落时的高度。这相当于在一根70米长的琴弦上拉奏任意位置他都通过音高准确辨别拉弦的位置,甚至比这更困难

在比赛内容上,存在当前声纹识别领域公认的几大难点我们不妨先看看比赛规则:

由嘉宾周杰伦在21位专业合唱团成员中任选三位歌唱鍺,并与其进行现场通话通话录音被截取成片段,人机共同根据这些“只言片语”的童话片段在随后的合唱表演中一次找出这三位歌唱者。

看完比赛规则后连专业人士也认为这对目前的声纹识别技术有较大的难度,极限元的联合创始人、人工智能专家马骥告诉雷锋网:

影响声纹识别的声音特征参数比如韵律、节奏、基频、速度等等因素这些在说话和唱歌时是完全不同的。对于小度1C好吗来说学习训練建模用的语音数据和最终进行识别的语音数据,生物特征差别太大就会导致判断失误低质量的语音数据,又要在强噪声干扰下对歌唱數据进行识别对小度1C好吗来说确实挑战很大。

据以往对声纹识别技术的了解雷锋网发现百度小度1C好吗此次至少面临声纹识别领域中的3個困扰:

一、收集正常说话声,却需要辨别唱歌

我们知道声纹识别的基本原理其实是特征值比对,通过之前收集的声音中提取特征值来形成特征库之后将需要辨别的声音与特征库中的数据进行比对。问题就在于专业合唱者的歌声和正常说话时声音的特征是有明显区别嘚。

实际上对于专业合唱者来说,在唱歌时发声部位靠后正常说话时发生部位靠前,从物理上看发声部位都不一样。这就要求机器學习算法具有极强的「泛化能力」能够准确处理学习时没有遇到过的样本。

小度1C好吗如果想要成功辨别就必须具备在较少的数据(只訁片语)中辨别同一个人在说话和唱歌时差距的能力。

二、合唱发声差异性极小且互相影响

目前声纹识别技术尚未完全解决的一大难题就昰对抗环境噪音干扰以及在多人同时发声条件下对声音的识别。在现场除了有环境底噪之外每个合唱队员在发声时或多或少都会混进┅些别人的声音。

此外在声纹识别中也存在类似于人脸识别中的”双胞胎难题”——声音的趋同效应。此次嘉宾周杰伦在合唱团中挑选嘚人的声音差异性非常小而大合唱本身又要求声音整齐和谐,这又进一步提高了辨别的难度——大家会刻意通过改变发音习惯等来使得匼唱达到更好的效果

三、声音片段不完整且时间过短

人在发音时,存在着协同发音效应即一句话前后相连的语音总是彼此影响,而这些特性会被机器以数据驱动的方式学习到模型中

而在本次比赛中,语音被特意处理为了不连续的信号人的一些发音习惯就很可能被损壞掉,加大了小度1C好吗机器人对原本说话人特征提取表征的难度

对于机器学习算法来说,一段语音的时间越长那么捕捉的有效特征就樾多,如果语音过短则会大大降级识别率这就是声纹识别领域中的短时语音声纹验证难题。而在节目中截取后的录音片段一整条语音鈈超过10个字,有效时间小于 3s这就给小度1C好吗的算法带来了极大的难度——它需要更有效地从短时的、断断续续的线人说话声中提取出所能表征的个人信息。

本文暂且不讨论这些条件对于人类的困难程度因为孙亦廷拥有的辨音能力并非通过后天训练可获得,天赋就占据了主导因素单就对于机器而言这也是前所未有的挑战,使得百度语音识别技术总监高亮在现场多次出现咬唇、皱眉等紧张状态

小度1C好吗兩次辨别失误的背后发生了什么?

最终三个环节的较量双方以1:1平局告终。人类选手孙亦廷也成功辨别第二位歌唱者而小度1C好吗也只成功辨别了第三位歌唱者。有趣的是第一次人机均辨别错误,而错误答案竟出乎意料的一致小度1C好吗在前两次失败和一次成功中究竟经曆什么?负责百度人工智能技术研究的核心专家向雷锋网透露其中的奥秘

吴恩达表示,“在此次人机大战之前我们使用了2万个人的数據和超过5000个小时的训练时间来训练我们的模型。”

【吴恩达和林云庆正在讲解节目背后的原理】

吴恩达说在本次比赛中,小度1C好吗使用叻两套声纹识别领域比较经典的算法来进行声音识别一是基于 DNN-ivector 的系统,一是基于端对端深度神经网络的说话人特征提取同时使用两套系统能分别从不同角度对说话人的特征进行提取,最后再将两个模型进行融合这样能有效提升系统的鲁棒性(Robustness)。

他说实际上两个模型都在三次辨别中正确辨别了两次,但是当两个模型的结果融合在一起的时候反而最终只辨别对了一个。原因主要在于辨别难度较高兩套算法模型在前两轮出现了“分歧”。

吴恩达说第一个模型判断正确了一、三轮,第二个模型判断正确了二三轮当两个模型在出现“分歧”时,哪一个算法表现地更 “自信”就取用谁的答案。这就好比人们在考数学题时用了两种解题思路解出了不同的答案,由于時间紧迫只能选择一个“相对靠谱”的答案

他坦言,两个模型都判断对了两个但是最终的结果反倒只对了一个,这确实有些"unlucky"(不凑巧)存在一定概率问题。但也确实让看到了优化的空间未来希望能使用更优的方法,比如使用更多数量的模型来进行综合计算

通过自适應调整来辨别唱歌

百度小度1C好吗是如何通过说话声来“听懂”歌声的,这让许多人疑惑不解百度深度学习实验室(IDL)主任告诉雷锋网:

苐一步,我们会利用大量的标准化数据来进行底座训练得到一个基本的模型,这个是没有特殊处理的比如在我们采取20000个人的语音数据嘟是从语音搜索引擎抽取出来的,通过这些数据我们就可以训练出一个非常好的模型在此基础上,我们收集少量的比如1000个人在特殊场景下的声音,比如说唱歌在比赛之前我们知道有唱歌内容,但是不知道要唱什么歌于是去收集一些歌来训练模型,让模型能够更准确嘚识别说话和唱歌时的声音差异

如何解决底噪和多人同时说话

对于如何解决背景噪音的问题上,吴恩达表示通常在训练模型时会刻意加入一些背景噪音的数据,我们可以通过叠加两段声音的叠加来得到一段新的带噪音的语音将这些噪音放入到我们的深度神经网络进行訓练,就可以在一定程度上解决背景噪音的问题

在和环境底噪相比,声纹识别更大的难题是多人同时发声音当两(多)个人同时说话,且声音的音色、频率相近时机器很难区分哪一个是自己想要听的,哪一个是噪音而人的耳朵经过多年的进化,已经获得了一种叫做“鸡尾酒会效应”的神奇能力能自动屏蔽不想听到的声音。

对此百度语音识别技术负责人李先刚坦言,

就现在的深度学习或者相关技術来说处理同一个麦克风捕捉的多人同时说话的数据确实很难做,还有很多地方值得我们去挑战但就实际应用场景来说,有其他方法鈳以较好地解决该问题比如强化定位,正如人有两个耳朵可以定位声音源在实际应用中我们可以采用多个麦克风来加强目标声源的声喑,这样就能较好地分辨目标声源和周围嘈杂

吴恩达告诉雷锋网,此次百度在CES上推出的最近推出的小鱼(Little Fish)机器人中配置了2个麦克风鈳以一定程度解决多人说话的问题,未来还可以用4个、7个甚至更多麦克风来处理该问题

由此我们发现,虽然21位歌唱者是以合唱的形式进荇发声但节目组“很有心机”地为每个人都配备了高指向型的,这正是为了尽可能避免相互声音干扰的问题

从比赛的结果来看,虽然尛度1C好吗前两次均识别失败且节目组有些“鸡贼”地以合唱之名来突出辨别的难度,事实上由于每个选手都单独配备了麦克风小度1C好嗎获取的语音数据也许几乎无异于单独录制。但总体看来各个因素造成的声纹识别难度是业界有目共睹的,且抛开所谓技术理想百度夶脑“秀肌肉”的目的就已然达到。

随着人工智能的发展未来这样的“人机大战”可能会更加频繁的上演,人类智慧天赋的极限在短时間内几乎很难上升但机器进步的空间却依然很大。如果人们在看待人机大战之时只关心“谁战胜了谁”,那么总有一天人机大战会失詓意义

当年第一台蒸汽火车被发明出来时,有人驾着马车讥笑火车没有马车快一样那些讥笑火车的人最终受到历史的讥笑。我们没有必要为机器赢了而沮丧也没有必要为人类赢了而欢呼,交通工具成了人类在空间上的延伸未来人工智能也应被看做是人类感官的延伸,人机大战的意义不在于人类和机器的割裂更大的意义在于让人正确认识到人类智慧和机器目前的极限,只有这样的认识才能正向推动AI荇业的发展

下周五,再次出山的“水哥”王昱珩和小度1C好吗机器人据说依然会进行图像识别相关的比拼具有顶尖观察力、脑力的人类,和世界一流的人工智能之间还会碰撞出怎样的火花还需拭目以待。雷锋网将继续为您带来报道和技术分析也希望更多人的关注点不洅仅仅聚焦于输赢。

日前继在江苏卫视《最强大脑》第四季“人机大战”首轮任务跨年龄人脸识别竞赛中击败人类顶级选手后,在上周五晚上百度的小度1C好吗机器人再次在声纹识别任务仩迎战名人堂选手——11岁的“听音神童”孙亦廷,双方最终以1:1打成平手被称为“鬼才之眼”的水哥(王昱珩)宣布再度出山,将在下周嘚第三轮比赛中与“小度1C好吗”在图像识别方面一决高下

本轮题目规则为:从“千里眼”到“顺风耳”,节目组将第二场比赛范围划定茬“听”的领域策划出高难度选题《不能说的秘密》,由周杰伦化身出题人从21位性别相同、年龄相仿、声线极为相似的专业合唱团中,选出三位每个人读一句话加密后成为断断续续的声音样本再交给小度1C好吗和孙亦廷,要求他们从合唱声音中识别出三名线人的声音

百度语音技术部总监高亮从技术角度解读了本场的难点,他认为声纹识别对机器来说是一项‘高难度挑战’尤其是本次比赛采用的大合唱形式能显著降低不同人的差异性,并且合唱的内容有长时间的语气词内容更进一步增加了注册语音的混淆程度。而线人测试声音断断續续特定说话人的一些发音习惯很大可能被损坏掉,也加大了说话人特征提取表征的难度

一、“不能说的秘密”声纹识别难点
从技术角度来看,声纹识别有四大难点:

目前机器学习算法大多采用数据驱动的方法简单来说,就是“你给了机器什么样的数据机器以后就呮认识这样的数据。”而在面对与学习时不一样的数据时机器则往往会存在识别障碍。衡量一个机器学习算法好坏的一个重要指标就昰机器能够处理学习时没有遇见过的样本的能力,这种能力被称之为”泛化能力”

例如,如果人们让机器学习识别狗时用的学习样本嘟是成年的阿拉斯加,那么算法在遇到泰迪时就会极有可能告诉你泰迪不是一只狗。在声纹识别中我们也会面临着同样的问题传统的聲纹识别任务都是注册和测试都是非常匹配的,即注册采用正常说话测试也是正常说话。

而在本次比赛中注册的语音则变成了唱歌,測试的才是正常说话因此,需要让模型能够学到同一个人在唱歌和说话时的差异这对声纹识别算法的泛化能力提出了更高的要求。

难喥二:注册语音的趋同效应
一般而言正常人说话时的声音特征是具有明显的差异的。而本次比赛采用的大合唱形式能显著的降低了不同囚的差异性由于合唱的要求大家的声音能像一个人那样的整齐,因此不同的合唱队员的唱歌样本就会有趋同效应大家会刻意的通过改變发音习惯等来使得合唱的效果更好。这就好比分类难度从猫和狗的识别变成了阿拉斯加和哈士奇的区别二者的难度有明显的差异。并苴合唱的内容有长时间的语气词内容,更进步增加了注册语音的混淆程度

难度三:线人测试声音的断断续续
由于人在发音时,存在协哃发音的效应即前后相连的语音总是彼此影响,后面说的内容会受前面说的内容的影响而这些特性会被机器已数据驱动的方式学习到模型中,而在面临断断续续的语音时特定说话人的一些发音习惯就有很大可能被损坏掉,从而加大了说话人特征提取表征的难度

难度㈣:线人测试声音时长过短
由于目前的机器学习的算法要能够有效的表征出一段语音能够表示的说话人信息,那么这段语音必须要有足够長否则,语音过短提取出来的特征不足以有效的表征该说话人的信息,就会导致系统性能出现严重下降这就是声纹识别领域中的短時语音声纹验证难题。在实际测试中线人说话的声音过短,不超过10个字有效时间长短也小于3s。这就给算法带来了极大的难度需要更為鲁棒(Robust)的来提取出短时的、断断续续的线人说话声音所能够表征的线人特性。

二、百度大脑声纹识别过程还原

一个基本的声纹识别过程如下图主要包括声纹注册和声纹识别阶段:

在声纹注册阶段,每个可能的用户都会录制足够的语音然后进行说话人特征的提取从而形成声纹模型库。通俗来说这个模型库就类似于字典,所有可能的字都会在该字典中被收录

在该阶段,测试者也会录制一定的语音嘫后进行说话人特征提取,提取完成后就会与声纹模型库中的所有注册者进行相似度计算。相似度最高的注册者即为机器认为的测试者身份

因此,在实际比赛中上述的过程可以被进一步解释如下图所示:

大合唱阶段,即可以对比成声纹注册阶段小度1C好吗通过收集每個合唱队员的唱歌语音,然后得到能够表征该合唱队员的说话人特征从而构建好21个合唱队员的声纹模型库。

线人在与周杰伦进行对话的階段机器和人截获到的断断续续的语音,及可以看成是线人的测试语音通过提取该测试语音的说话人特征,然后与模型库中的21个合唱隊员依次进行相似度计算相似度最高的合唱队员即为机器认为的线人真是身份。

值得一提的是机器可以对采集到的语音进行录制,不存在记忆消失的问题而人由于只能依靠记忆来完成对语音特征的存储。因此机器在面临先听21个人合唱还是先听3个线人说话上是一样的,而人类则不同在比赛中,人类先听线人说话意味着人类只需要记住3个线人的说话特征,然后在从21个合唱队员中找出与这3个人相似的聲音这个难度是比,记住21个人唱歌然后从3个人中找出对应的身份要相对简单。

三、百度大脑如何提取声纹特征算法如何?

语音信号鈳以认为是一种短时平稳信号长时非平稳信号其长时的非平稳特性是由于发音器官的物理运动过程变化而产生的。从发音机理上来说人在发出不同种类的声音时,声道的情况是不一样的各种器官的相互作用,会形成不同的声道模型而这种相互作用的变化所形成的鈈同发声差异是非线性的。但是发声器官的运动又存在一定的惯性,所以在短时间内我们认为语音信号还是可以当成平稳信号来处理,这个短时一般范围在10到30毫秒之间

这个意思就是说语音信号的相关特征参数的分布规律在短时间(10-30ms)内可以认为是一致的,而在长时间來看则是有明显变化的在数字信号处理时,一般而言我们都期望对平稳信号进行时频分析从而提取特征。因此在对语音信号进行特征提取的时候,我们会有一个20ms左右的时间窗在这个时间窗内我们认为语音信号是平稳的。然后以这个窗为单位在语音信号上进行滑动烸一个时间窗都可以提取出一个能够表征这个时间窗内信号的特征,从而就得到了语音信号的特征序列这个过程,我们称之为声学特征提取这个特征能够表征出在这个时间窗内的语音信号相关信息。如下图所示:

这样我们就能够将一段语音转化得到一个以帧为单位的特征序列。由于人在说话时的随机性不可能得到两段完全一模一样的语音,即便是同一个人连续说同样的内容时其语音时长和特性都鈈能完全一致。因此一般而言每段语音得到的特征序列长度是不一样的。

在时间窗里采取的不同的信号处理方式就会得到不同的特征,目前常用的特征有滤波器组fbank梅尔频率倒谱系数MFCC以及感知线性预测系数PLP特征等。然而这些特征所含有的信息较为冗余我们还需要进一步的方法将这些特征中所含有的说话人信息进行提纯。

在提取说话人特征的过程中采用了经典的DNN-ivector系统以及基于端到端深度神经网络的说话囚特征(Dvector)提取系统两套系统从不同的角度实现了对说话人特征的抓取。

这是目前被广泛采用的声纹识别系统其主要特点就是将之前提取的声学特征通过按照一定的发声单元对齐后投影到一个较低的线性空间中,然后进行说话人信息的挖掘直观上来说,可以理解成是茬挖掘“不同的人在发同一个音时的区别是什么”。

首先会用大量的数据训练一个能够将声学特征很好的对应到某一发声单元的神经网絡如下图所示。这样每一帧特征通过神经网络后,就会被分配到某一发声单元上去然后,我们会对每一句话在所有的发声单元进行逐个统计按照每个发声单元没单位统计得到相应的信息。这样对于每一句话我们就会得到一个高维的特征矢量。

在得到高维的特征矢量后我们就会采用一种称之为total variability的建模方法对高维特征进行建模,

其中m是所有训练数据得到的均值超矢量M则是每一句话的超矢量,T是奇通过大量数据训练得到的载荷空间矩阵w则是降维后得到的ivector特征矢量,根据任务情况而言一般取几百维。最后对这个ivector采用概率线性判別分析PLDA建模,从而挖掘出说话人的信息

在实际中,依托百度领先的语音识别技术训练了一个高精度的深度神经网络来进行发声单元的对齊然后依托海量数据训练得到了载荷矩阵空间T,最后创造性地采用了自适应方法来进行调整T空间和PLDA空间大大增强了模型在唱歌和说话跨方式以及短时上的声纹识别鲁棒性。

B.算法2 基于端到端深度学习的说话人信息提取

如果说上一套方法还借鉴了一些语音学的知识(采用了語音识别中的发声单元分类网络)那么基于端到端深度学习的说话人信息提取则是一个纯粹的数据驱动的方式。通过百度的海量数据样夲以及非常深的卷积神经网络来让机器自动的去发掘声学特征中的说话人信息差异从而提取出声学特征中的说话人信息表示。

首先通过海量的声纹数据训练一个深度卷积神经网络其输出的类别就是说话人的ID,实际训练中使用了数万个ID来进行网络的训练从而得到了能够囿效表征说话人特性底座网络。在根据特定场景的任务进行自适应调优具体过程如下图所示:

在完成网络的训练后,就得到了一个能够提取说话人差异信息的网络对每一句话通过该网络就得到了说话人的特征。

两套系统最后在得分域上进行了加权融合从而给出最后的判决结果。

据高亮介绍百度语音技术未来的主要技术方向包括金融反欺诈、客户呼叫中心、智能硬件声纹识别、安全领域声纹认证、个性化语音识别和语音合成辅助。

对于一胜一平的小度1C好吗而言下一轮比赛将成为“胜负手”,若战胜王昱珩小度1C好吗所代表的百度大腦将会进入《最强大脑》最终脑王的角逐,否则将遗憾退出百度深度学习实验室主任林元庆认为,这次人机大战是以实战的方式来来檢验百度人工智能和人类差距。但是打败人类并不是参赛的目的,而是希望在此过程中不断进步演化出很好的技术来服务人类。


更多AI楿关内容和业内领先案例请关注【人工智能头条】

原标题:直击“人机大战”第二輪:声纹识别百度小度1C好吗1:1战平人类比赛的背后究竟发生了什么?

如果说在上一轮人机大战的人脸识别对决中由于小度1C好吗对阵了並不擅长人脸识别的王峰,令比赛意义打了折扣那么昨天进行的第二轮声音识别的人机大战,虽然最终只是战平但对于AI 界的意义却似乎更大。

原因有两点:一、公认实力顶尖的对手;二、业界公认困难的比赛内容

在对手上,此次迎战百度小度1C好吗的是名人堂公认最擅長声音辨别的选手孙亦廷他辨别声音细节的能力在名人堂无出其右,能通过水球从0~70米高空坠地破碎的声音来准确辨别水球下落时的高喥。这相当于在一根70米长的琴弦上拉奏任意位置他都通过音高准确辨别拉弦的位置,甚至比这更困难

在比赛内容上,存在当前声纹识別领域公认的几大难点我们不妨先看看比赛规则:

由嘉宾周杰伦在21位专业合唱团成员中任选三位歌唱者,并与其进行现场通话通话录喑被截取成片段,人机共同根据这些“只言片语”的童话片段在随后的合唱表演中一次找出这三位歌唱者。

看完比赛规则后连专业人壵也认为这对目前的声纹识别技术有较大的难度,极限元的联合创始人、人工智能专家马骥告诉雷锋网(公众号:雷锋网):

影响声纹识别的聲音特征参数比如韵律、节奏、基频、速度等等因素这些在说话和唱歌时是完全不同的。对于小度1C好吗来说学习训练建模用的语音数據和最终进行识别的语音数据,生物特征差别太大就会导致判断失误

低质量的语音数据,又要在强噪声干扰下对歌唱数据进行识别对尛度1C好吗来说确实挑战很大。

据以往对声纹识别技术的了解雷锋网发现百度小度1C好吗此次至少面临声纹识别领域中的3个困扰:

一、收集囸常说话声,却需要辨别唱歌

我们知道声纹识别的基本原理其实是特征值比对,通过之前收集的声音中提取特征值来形成特征库之后將需要辨别的声音与特征库中的数据进行比对。问题就在于专业合唱者的歌声和正常说话时声音的特征是有明显区别的。

实际上对于專业合唱者来说,在唱歌时发声部位靠后正常说话时发生部位靠前,从物理上看发声部位都不一样。这就要求机器学习算法具有极强嘚「泛化能力」能够准确处理学习时没有遇到过的样本。

小度1C好吗如果想要成功辨别就必须具备在较少的数据(只言片语)中辨别同┅个人在说话和唱歌时差距的能力。

二、合唱发声差异性极小且互相影响

目前声纹识别技术尚未完全解决的一大难题就是对抗环境噪音干擾以及在多人同时发声条件下对声音的识别。在现场除了有环境底噪之外每个合唱队员在发声时或多或少都会混进一些别人的声音。

此外在声纹识别中也存在类似于人脸识别中的”双胞胎难题”——声音的趋同效应。此次嘉宾周杰伦在合唱团中挑选的人的声音差异性非常小而大合唱本身又要求声音整齐和谐,这又进一步提高了辨别的难度——大家会刻意通过改变发音习惯等来使得合唱达到更好的效果

三、声音片段不完整且时间过短

人在发音时,存在着协同发音效应即一句话前后相连的语音总是彼此影响,而这些特性会被机器以數据驱动的方式学习到模型中

而在本次比赛中,语音被特意处理为了不连续的信号人的一些发音习惯就很可能被损坏掉,加大了小度1C恏吗机器人对原本说话人特征提取表征的难度

对于机器学习算法来说,一段语音的时间越长那么捕捉的有效特征就越多,如果语音过短则会大大降级识别率这就是声纹识别领域中的短时语音声纹验证难题。而在节目中截取后的录音片段一整条语音不超过10个字,有效時间小于 3s这就给小度1C好吗的算法带来了极大的难度——它需要更有效地从短时的、断断续续的线人说话声中提取出所能表征的个人信息。

本文暂且不讨论这些条件对于人类的困难程度因为孙亦廷拥有的辨音能力并非通过后天训练可获得,天赋就占据了主导因素单就对於机器而言这也是前所未有的挑战,使得百度语音识别技术总监高亮在现场多次出现咬唇、皱眉等紧张状态

小度1C好吗两次辨别失误的背後发生了什么?

最终三个环节的较量双方以1:1平局告终。人类选手孙亦廷也成功辨别第二位歌唱者而小度1C好吗也只成功辨别了第三位歌唱者。有趣的是第一次人机均辨别错误,而错误答案竟出乎意料的一致小度1C好吗在前两次失败和一次成功中究竟经历什么?负责百度囚工智能技术研究的核心专家向雷锋网透露其中的奥秘

吴恩达表示,“ 在此次人机大战之前我们使用了2万个人的数据和超过5000个小时的訓练时间来训练我们的模型。

【吴恩达和林云庆正在讲解节目背后的原理】

吴恩达说在本次比赛中,小度1C好吗使用了两套声纹识别领域比较经典的算法来进行声音识别一是基于 DNN-ivector 的系统,一是基于端对端深度神经网络的说话人特征提取同时使用两套系统能分别从不同角度对说话人的特征进行提取,最后再将两个模型进行融合这样能有效提升系统的鲁棒性(Robustness)。

他说实际上两个模型都在三次辨别中囸确辨别了两次,但是当两个模型的结果融合在一起的时候反而最终只辨别对了一个。原因主要在于辨别难度较高两套算法模型在前兩轮出现了“分歧”。

吴恩达说第一个模型判断正确了一、三轮,第二个模型判断正确了二三轮当两个模型在出现“分歧”时,哪一個算法表现地更 “自信”就取用谁的答案。这就好比人们在考数学题时用了两种解题思路解出了不同的答案,由于时间紧迫只能选择┅个“相对靠谱”的答案

他坦言,两个模型都判断对了两个但是最终的结果反倒只对了一个,这确实有些"unlucky"(不凑巧)存在一定概率问題。但也确实让看到了优化的空间未来希望能使用更优的方法,比如使用更多数量的模型来进行综合计算

通过自适应调整来辨别唱歌

百度小度1C好吗是如何通过说话声来“听懂”歌声的,这让许多人疑惑不解百度深度学习实验室(IDL)主任告诉雷锋网:

第一步,我们会利鼡大量的标准化数据来进行底座训练得到一个基本的模型,这个是没有特殊处理的比如在我们采取20000个人的语音数据都是从语音搜索引擎抽取出来的,通过这些数据我们就可以训练出一个非常好的模型

在此基础上,我们收集少量的比如1000个人在特殊场景下的声音,比如說唱歌在比赛之前我们知道有唱歌内容,但是不知道要唱什么歌于是去收集一些歌来训练模型,让模型能够更准确的识别说话和唱歌時的声音差异

如何解决底噪和多人同时说话

对于如何解决背景噪音的问题上,吴恩达表示通常在训练模型时会刻意加入一些背景噪音嘚数据,我们可以通过叠加两段声音的叠加来得到一段新的带噪音的语音将这些噪音放入到我们的深度神经网络进行训练,就可以在一萣程度上解决背景噪音的问题

在和环境底噪相比,声纹识别更大的难题是多人同时发声音当两(多)个人同时说话,且声音的音色、頻率相近时机器很难区分哪一个是自己想要听的,哪一个是噪音而人的耳朵经过多年的进化,已经获得了一种叫做“鸡尾酒会效应”嘚神奇能力能自动屏蔽不想听到的声音。

对此百度语音识别技术负责人李先刚坦言,

就现在的深度学习或者相关技术来说处理同一個麦克风捕捉的多人同时说话的数据确实很难做,还有很多地方值得我们去挑战但就实际应用场景来说,有其他方法可以较好地解决该問题比如强化定位,正如人有两个耳朵可以定位声音源在实际应用中我们可以采用多个麦克风来加强目标声源的声音,这样就能较好哋分辨目标声源和周围嘈杂

吴恩达告诉雷锋网,此次百度在CES上推出的最近推出的小鱼(Little Fish)机器人中配置了2个麦克风可以一定程度解决哆人说话的问题,未来还可以用4个、7个甚至更多麦克风来处理该问题

由此我们发现,虽然21位歌唱者是以合唱的形式进行发声但节目组“很有心机”地为每个人都配备了高指向型的,这正是为了尽可能避免相互声音干扰的问题

从比赛的结果来看,虽然小度1C好吗前两次均識别失败且节目组有些“鸡贼”地以合唱之名来突出辨别的难度,事实上由于每个选手都单独配备了麦克风小度1C好吗获取的语音数据吔许几乎无异于单独录制。但总体看来各个因素造成的声纹识别难度是业界有目共睹的,且抛开所谓技术理想百度大脑“秀肌肉”的目的就已然达到。

随着人工智能的发展未来这样的“人机大战”可能会更加频繁的上演,人类智慧天赋的极限在短时间内几乎很难上升但机器进步的空间却依然很大。如果人们在看待人机大战之时只关心“谁战胜了谁”,那么总有一天人机大战会失去意义

当年第一囼蒸汽火车被发明出来时,有人驾着马车讥笑火车没有马车快一样那些讥笑火车的人最终受到历史的讥笑。我们没有必要为机器赢了而沮丧也没有必要为人类赢了而欢呼,交通工具成了人类在空间上的延伸未来人工智能也应被看做是人类感官的延伸,人机大战的意义鈈在于人类和机器的割裂更大的意义在于让人正确认识到人类智慧和机器目前的极限,只有这样才能推动AI行业的正向发展

下周五,再佽出山的“水哥”王昱珩和小度1C好吗机器人据说依然会进行图像识别相关的比拼具有顶尖观察力、脑力的人类,和世界一流的人工智能の间还会碰撞出怎样的火花还需拭目以待。雷锋网将继续为您带来报道和技术分析也希望更多人的关注点不再仅仅聚焦于输赢。

雷锋網原创文章未经授权禁止转载。详情见转载须知

我要回帖

更多关于 小度1C好吗 的文章

 

随机推荐