脸颊式麦克风增加了声音的振幅对不对

  首先我来介绍一下A/B制式A/B制式是最早采用的录制立体声的方法,有人形象的称它为拉开距离式拾音方法两支传声器在舞台上或者录音室里拉开2.0-3.5米的距离,传声器可鉯是无方向性的也可以是心形的它们平行地对准乐队,也可以稍微向左右两侧张开一些

  对A/B制式拾音来说,每一件乐器(声源)到达两支传声器处的声音信号之间既存在强度差也存在时间差。强度差是由传声器的指向性图形以及声源到达两支传声器的距离不同所形成的在这种录音制式中,强度差和时间差对定向的作用迭加在一起了很明显,对于不再中轴线上的声源前导的声道始终是声级较高的声噵。心理声学的研究时间差比强度差更加的重要。这种制式的特点是简单对所使用的一对传声器,在性能和技术指标配对上要求并不呔严格

  这种拾音制式有两个明显的缺陷:一是存在中间空洞,中间稀疏或者称为中间后退现象就是说当重放用A/B制式所录的音乐的時候,听众往往回感到中间部位乐器的声象变弱或者这些乐器的声象在中间部位变得稀疏起来,而更多的乐器声象向左右扬声器方向靠攏使得两端乐器声象密集起来。有时也使听众感到中间部位的声象向舞台后部退去。

  对于这种缺陷可以借助两种方法来改善。┅种方法是在录音的时候增加一个中间传声器把它的信号放大,再分别分配到左右声道中去另外一种方法是再重放时增加一个中置扬聲器,而将左右声道信号各分一部分给此扬声器放声

  上述缺陷在两支当传声器拉开2.5-3.5米以上时,将变得相当明显

  当然,放声时洳果将两支扬声器朝向稍微向听音室中间偏转一点中间空洞现象也有些改善。~~~~~~一句老话~~~~办法是人想出来的嘛!

  A/B淛式还有一个很明显的缺陷就是它的录音在作单声道兼容重放时,将存在相位干涉现象因而兼容度很低~~~~~对于中国现在的电視基于单声道来说,就应该注意咯!

  这是很容易加以说明的当作单声道兼容重放时,必须把左右声道信号迭加在一起才能形成单声道信号由于左右内同一声音信号中存在时间差,也就是存在相应的相位差因而在迭加时,必然会使某些频率的信号抵消或者部分抵消從而使重放音质变恶劣。一些专门的试验结果表明A/B制式两支传声器拉开仅30厘米的时候,就已经出现明显的相位抵消现象因为这个距离巳经相当于中,高频声音信号的λ/2或n.λ/2了此时,作单声道兼容收听的大多数听众都能听出这种这种音质的变劣。

  试验还说明:当某一频率的声音信号在左右声道间有6db以上的强度差时则兼容放声的相位差不会引起明显的相位干涉现象,因而不会明显损害收听音质

  许多录音室反映如果不考虑单声道兼容放声,他们更愿意使用A/B制式来录制古典音乐因为这种制式录制的音乐,更加温暖这是因为強度差和时间差同时对立体感起作用

  使用A/B制式,对录音室混响时间特性的要求不是那么严格录音时,乐队很容易布置灵活性很大。

  对于独唱独奏乐器或者重点乐器(譬如首席小提琴、竖琴、钢琴、某些木管、定音鼓等),可再加上单声道加强传声器而加强传声器拾取的信号在后期混音时用混音软件分别加入到左右声道中去。但要注意不可把加强传声器信号加入太多,这是因为这种传声器离被加重的声源很近,所以它拾取的声音信号较A/B制式传声器拾取的信号领先了20-30ms如果强度太高,会使听众感到这些乐器被从乐队中分离出来在后期混音时,也可以使用混响效果器对加强传声器拾取的信号进行一些延时譬如5-10ms,这样则无上述分离毛病使用软件把单声道信号加入立体声声场时,由于这种加入的立体声信息只包括强度差缺乏所谓相位细节,它的动听度将较差

  由于上述单声道兼容重放效果的把握不大,所以在一般实况转播中都不使用A/B制式来拾音因为转播要求一次成功。但在一般立体声录音中可以广泛采用A/B制式,录音時便作单声道兼容试听如果出现明显的干涉现象,可以重新调整传声器对子和乐队的间距以及传声器间的距离。实况转播则不允许花時间来进行这种细致的调整

  X/Y制式采用两支完全相同的传声器,以上一下紧靠在一起同轴放置与A/B制式不同,由于两支传声器基本上昰放置在一个点上所以任何声源传输来的声音信息,将同时到达两支传声器因而不存在时间差和相位差。但对于两支传声器来说由於入射角的不同,而传声器又具有一定的指向性所以拾取的两声道声音信息存在着强度差。因此X/Y制式是一种强度差立体声拾音制式,叒被称作无相位差立体声制式

  X/Y制式所使用的两支传声器的主轴之间通常要求保持90度到100度的夹角,传声器可采用心形和锐心形指向图形也可以使用8字形指向图形。但对于不同指向性图形传声器主轴的夹角不尽相同,下面是一些可供参考的经验数据:

  心形指向性一般采用100度,也有采用200度到270度的;

  锐心形指向性一般采用100度,也有采用130度到140度的;

  8字形指向性夹角必须是准确的90度。这是因为8芓形指向性传声器前(0度)、后(180度)拾取的信号是反向的如果一对8字形传声器主轴不是准确的90度,则在某些方向上将产生相位抵消现象

  佷明显,由于两声道信号间不存在相位差在作单声道兼容听音时,没有相位干涉现象所以,X/Y制式的兼容性极好用于实况转播是很成功的。

  有人认为强度差立体声信号比相位差立体声好。他们的根据是:听音房间的声学条件是各式各样的是一个很大的不定因素,因而由房间各个部分反射声引起的相位关系也是很复杂的它们往往干扰了立体声系统原有双声道节目中相位差的运用。

  但是对于X/Y淛式要求两支传声器的性能、技术指标音质要十分接近。由于电容式传声器的频率响应和指向图形比较圆滑同型号产品之间的一致性恏,所以电容式传声器较容易满足上述严格配对的要求,当然如果经济能力富足,可以选用高档的动圈传声器

  X/Y制式两支传声器茬垂直方向上应该紧紧靠拢,应该尽量缩短两者的垂直距离否则,如果声源不在两支传声器的水平面上则上下传声器接收的信号间存茬着少量的相位差和强度差,就会把这少量的相位差和强度差自动转换为左右声道间的相位差和强度差从而造成了干扰,这种现象当然昰我们不愿意看到发生的

  必须按照节目的性质来选择X/Y传声器对子的指向性。两支90度交叉8字形传声器拾取的声音深度感非常好真实感也好。但是8字形传声器背面同样具有等同于正面的灵敏度这种情况不是在所有的拾音环境中都能够使用的,如果把他们放置在容积很夶、混响时间很长的音乐厅里后墙的反射声将会充分被拾取并给拾音者造成干扰。如果把他们放置在室内的一角听音时便会形成逼迫感和压抑感。总之录音师必须随时记住8字形传声器的前瓣和后瓣是正好相反的。所以在录音时,当声源绕此传声组移动时(广播剧时时瑺发生此类状况)则会造成混淆,声道之间将会出现突变听者会感觉道好像演员从这边象限突然道后面去了。如果是侧后翼的入射声其信号的相位与正前方相反,所以不得已被拾取的声源,必须局限在90度的象限内

  X/Y制式如果选用一对心形传声器,则声音拾取角度寬广传声器前面很大一段圆弧内都能有效工作,试验结果很好

  对X/Y制式的一点补充:

  /Y制式还有几种演变制式,成为左-右X/Y制式

  一种是把一个无方向的传声器M与一个横放的8字形传声器S结合起来,实际上可以组成两个新的主轴朝左、右的L、R心形指向图形这种布局最适合于两个面对面坐着的播音员的声音。另一种方式是把一只对准前方的8字形传声器和一只横放的8字形传声器组合起来实际上可以嘚到两个朝着±45度方向的8字形指向图形,这种布局可以得到最为均衡的混响声拾取

  事实表明,X/Y重合传声器对子效果极好重放真实性好。

  对于大的舞台或音乐录音室可以采用多对重合X/Y传声器对子,但它的间距和相对位置需要妥善确定当它们相距10-15米时,主轴方姠基本平行则可采用2、3、4对心形或8字X/Y传声器,最终可得到十分真实的立体声场

  M/S制式也是一种使用重合传声对子的制式但它所用的兩支传声器一只是心形的,主向朝正前方称为M传声器,另一只是8字形的横过来放置,主向对准左右两侧称为S传声器。

  M传声器种嘚字母M有双重含义一是中间(Middle)传声器的意思,表达它所对准的方向;另一个是单声道(Mono)的意思因为M/S制式所拾取的信号在作单声道兼容重放时,实际上只重放M信号而抛弃掉S信号。因此M/S式兼容性极好人们称这种制式为“真实的立体声,同时也是真实的单声道”这种说法是很囿道理的。

  S传声器的字母S也有双重含义一是旁边(Side)传声器的意思,表达其对准的方向;另一个是立体声(Stereo)的意思表明只要把此信号加入箌M信号中去,即可形成完整的立体声信号

  从上述可知,M可以说是基本信号S是立体声编码信号。抛去立体声编码信号S即可获得M的兼嫆信号因而可以说立体声信号是始于单声道信号的,立体声信号是一些正确分布到空间去的单声道信号(也许这个说法太为大胆,但是耦就是这么想的欢迎反驳)在M/S拾音制式中,M信号就是借助S信号而分布到空间里去的

  M/S制式存在着一个明显的缺点。由于左声道信号和祐声道信号中都包含一个相同的中间信号所以,在正前方±45度夹角的区域内左右声道的分隔度不好。于A/B制式相反M/S制式存在中间声象加重现象。

  由于M/S制式也是采用一对位置重合的传声器因此它与X/Y制式一样,左右声道信号之间只存在强度差而不存在相位差和时间差。M/S制式的真实感极好还因为两支传声器靠得极近,两者拾取得混响信息具有相同的基本功率频谱分布但由于两支传声器指向性不同,在它们的输出端相位、振幅不重合所以,在重放时两族扬声器之间的混响声时无方向性的,而且十分均匀相反,对直达声则可以偅放出它的指向性来

  但是M/S制式在实际运用中,也受到一定的限制这时因为为了覆盖所有的音源,要求M/S传声器对子离声源一个特定嘚距离也就是说,传声器与乐队的距离不能由录音室混响时间特性来确定,而要由覆盖声源的要求来确定也就是,乐队的几何尺寸┅经确定传声器的距离也就确定了,这样所拾取的声音信号就被“锁入”固定的直达声/混响声比例之中。这就必然形成对录音室声学條件要求十分临界的局面因此,M/S制式较难同时使用多对传声器进行拾音前面讲的时针对传统录音方法而言,然而对于数码录音本人認为则可以使用无混响录音室,用后期来控制乐音的混响以及声场

  这种方法,在现在流行音乐的录制上得到了普遍的运用电脑混喑软件模拟出以前所使用的声象移动器(也被称为全景电位器PanoramicPotentiometer,即简称Pan,经常在软件中看到)它时把一个单声道信号(一件乐器、一组乐器或独唱、合唱的一个声部)。借助计算机按照一定的振幅比例分配到左右声道中去,我们通过现有的混音软件(如Cooledit、Sam2496)能把每一个单声道信号加入箌立体声声象群中任何一个幻象位置上去从而完成一个完整的双声道立体声音乐信号。

  当然用该种方法,声道间只存在强度差洏没有时间差和相位差,即没有“相位细节”用这样的方法制作的立体声音乐信号,在重放时所有声象位置都是认为给出的,与录音時乐器的实际位置完全没有关系所以,乐队的声象群是从录音师手中创造出来的

  对不住大家,这种俺们穷人(只有单声道话筒的淫)瑺用的方法——还有俺们广大制作人(他们是故意的)常用的方法偶倒讲不出什么各明堂,主要偶觉得好像真的没什么讲的参考一下乐队嘚布局就可以很容易做倒咯。

  仿真人头是一个用木头或者塑料做成的假人头直径约18厘米,在它的耳道末端分别装有两支动圈式或電容式传声器,它们一般是无指向性的然后,将两者的输出分别作为立体声的左右声道信号

  仿真人头是仿生学在电声技术领域的應用。因为人在听音时头部有遮蔽作用,使得偏离中心线声源来的声音信号到达两耳存在着强度差同时,由于声源离两耳不等距导致存在着时间差和相位差,这样就给人带来了声源的方位信息。同样仿真人头系统两支传声器的输出,也存在着这样的强度差和时间差以及相位差因此,把这样的两声道信号送道立体声耳机种供人聆听实际上就等于把听音人用声学的方法转移道仿真人头的位置上去叻。可以想象这种立体声信号的临场感时相当好的。

  不过使用这种制式的录音作品只能使用高质量的耳机进行收听,因为只有耳機才能把听音者完美地带回仿真人头所在地位置上去如果采用扬声器放声,明显的时间差各相位差将受到房间反射的影响将起不到协助定位的作用。

  仿真人头录制的立体声声象可以分离得想象不到的清楚,节目的感染力很强如果用它来录制广播剧,效果将十分逼真对移动着的声象,再现效果也很好

  但是,使用耳机聆听立体声也存在一些弊病一是有时产生所谓头中效应和头前效应,即聽音人不是感觉到声象再现于自己的面前而是再现于自己头部里两耳的连线位置上,或者有时再现于头前额附近,让人感到很不自然另一个弊病是如果听音人在听音过程中偏转头部,则声象也跟着偏过去

  头中效应和头前效应是由于双重耳壳效应引起的。人的耳殼对声音的定位有一定的作用但是对于仿真人头的立体声系统来说,仿真人头有耳壳听音人也有耳壳,两套耳壳产生的效应将给这方媔的定位机理带来混淆因而产生头中效应和头前效应。

  新型的仿真人头对头形耳壳作了更准确的模拟,在内耳道传声器前加入了┅定的声阻这样可以抑制有害的声反射。

  这种方法是和仿真人头式同样原理的一种录音制式不过是在真实的听音人耳道进口外约10毫米的地方悬挂两支微型传声器,只有靠很多的架子支撑这种方法同样是增加临场感,用耳机聆听的一种方法不过对录音人的要求很高,要求他不能有头部的便宜因为这样会导致重放声象的偏移,同样还要求他够坚定在很长的音乐录制过程中不能有任何的噪音,否則前功尽弃~~~~~~偶一直觉得这是偶看到过的最牛B的录音方法。

加载中请稍候......

紧接上一个博客文章此为第二蔀分。上一部分见:

AGC:Automatic Gain Control自动增益控制,使放大电路的增益自动地随信号强度而调整的自动控制方法

自动增益控制是限幅输出的一种,咜利用线性放大和压缩放大的有效组合对助昕器的输出信号进行调整当弱信号输入时,线性放大电路工作保证输出信号的强度;当输入信号达到一定强度时,启动压缩放大电路使输出幅度降低。也就是说AGC功能可以通过改变输入输出压缩比例自动控制增益的幅度。

最简單的硬性增益处理是对所有音频采样乘上一个增益因子它也等同于在频域每个频率都同时乘上这个增益因子,但由于人的听觉对所有频率的感知不是线性的是遵循等响度曲线的,导致这样处理后听起来感觉有的频率加强了,有的频率削弱了导致语言失真的放大。
要讓整个频段的频率听起来响度增益都是“相同”的就必须在响度这个尺度下做增益,而不是在频率域即按照等响度曲线对语音的频率進行加权,不能采用一个固定的增益因子进行加权

语音的自动增益处理可以大致分为两个部分:
1)响度增益因子的确定。
2)把响度增益因子映射到等响度曲线上确定最终各频率的增益权重。

使放大电路的增益自动地随信号强度而调整的自动控制方法实现这种功能的电路简稱AGC环。
AGC环是闭环电子电路是一个负反馈系统,它可以分成增益受控放大电路和控制电压形成电路两部分增益受控放大电路位于正向放夶通路,其增益随控制电压而改变控制电压形成电路的基本部件是AGC 检波器和低通平滑滤波器,有时也包含门电路和直流放大器等部件放大电路的输出信号u0 经检波并经滤波器滤除低频调制分量和噪声后,产生用以控制增益受控放大器的电压uc 当输入信号ui增大时,u0和uc亦随之增大 uc 增大使放大电路的增益下降,从而使输出信号的变化量显著小于输入信号的变化量达到自动增益控制的目的。

放大电路增益的控淛方法有:①改变晶体管的直流工作状态以改变晶体管的电流放大系数β。②在放大器各级间插入电控衰减器。③用电控可变电阻作放大器负载等。

AGC电路广泛用于各种接收机、 录音机和测量仪器中,它常被用来使系统的输出电平保持在一定范围内因而也称自动电平控制; 用于话音放大器或收音机时,称为自动音量控制。

AGC细分为AGCi(输入自动增益控制)和AGCo(输出自动增益控制)

ANS是背景噪音抑制功能(Automatic Noise Suppression)ANS可探测出褙景固定频率的杂音并消除背景噪音,例如:风扇、空调声自动滤除呈现出与会者清晰的声音。

将实时采样的数字信号进行频谱分析這样我们就能分析背景噪声相应的强度和频谱分布,然后根据这个模型就能设计一个滤波器当有人讲话的时候,同时做信号分析根据汾析,ANS就能分析出讲话者的频谱那么根据这些背景噪音和讲话者的频谱,这个滤波器根据两个信号的对比实时的改变让讲话者声音频譜通过,对背景噪声的频谱进行抑制降低其能量,比如说降低15到20个分贝就很明显可以感觉体验到噪音抑制的效果。

噪声有很多种既囿频谱稳定的白噪声,又有不稳定的脉冲噪声和起伏噪声在语音应用中,稳定的背景噪音最为常见技术也最成熟,效果也最好

噪音抑制的关键是提取出噪声的频谱,然后将含噪语音根据噪声的频谱做一个反向的补偿运算从而得到降噪后的语音。
这句话很重要后面嘚内容都是围绕这句话展开的。


假设音频起始处的一小段语音是背景音这一假设非常重要,因为这一小段背景音也是背景噪声是提取噪声频谱的基础。

降噪过程:首先将这一小段背景音进行分帧并按照帧的先后顺序进行分组,每组的帧数可以为10或其他值组的数量一般不少于5,随后对每组背景噪声数据帧使用傅里叶变换得到其频谱再将各频谱求平均后得到背景噪声的频谱。
得到噪声的频谱后降噪嘚过程就非常简单了,上图下面左侧的图中红色部分即为噪声的频谱黑色的线为有效语音信号的频谱,两者共同构成含噪语音的频谱鼡含噪语音的频谱减去噪音频谱后得到降噪后语音的频谱,再使用傅里叶逆变换转回到时域中从而得到降噪后的语音数据。

在实际应用Φ降噪使用的噪声频谱通常不是一成不变的,而是随着降噪过程的进行被持续修正的即降噪的过程是自适应的。这样做的原因是:
1)一方面是语音数据前部的静音长度有时不够长背景噪声数据不足导致得到的噪声频谱往往不够准确,
2)另一方面背景噪声往往不是绝对稳萣的,而是渐变的甚至会突变到另一种稳定的背景噪声

这些原因都要求在降噪的过程中对使用的噪声频谱做及时修正,以得到较好的降噪效果修正噪声频谱的方法是使用后继音频中的静音,重复噪声频谱提取算法得到新的噪声频谱,并将之用于修正降噪所用的噪声频譜所以降噪的过程中仍然要使用端点检测中用到的如何判断静音。噪声频谱修正的方法或者是新旧频谱进行加权平均或者使用新的噪聲频谱完全替换使用中的噪声频谱。

以上介绍的是降噪的非常简单的原理实际应用中的降噪算法远比上面介绍的要复杂,现实中的噪声源多种多样其产生的机理和特性也较为复杂,所以噪声抑制在现今仍然是一个较为活跃的研究领域各种新技术也层出不穷。

AEC是回声消除器(Acoustic Echo Canceller)就是在Mic采集到声音之后,将本地音箱播放出来的声音从Mic采集的声音数据中消除掉使得Mic录制的声音只有本地用户说话的声音。

囙声是指远端说话人的声音通过扬声器播放出来包括其反射声又被近端的麦克风收集再传送回远端。声学回声主要出现的场合包括:模擬电话免提模式、手机免提模式、车载蓝牙电话等场景

在即时通讯人机语音交互中,需要进行双方或多方的实时语音交流在要求较高嘚场合,通常都是采用外置音箱放音这样必然会产生回音,即一方说话后通过对方的音箱放音,然后又被对方的Mic采集到回传给自己洳果不对回音进行处理,将会影响通话质量和用户体验更严重的还会形成震荡,产生啸叫

传统的回声消除都是采用硬件方式,在硬件電路上集成DSP处理芯片如我们常用的固定电话、手机等都有专门的回音消除处理电路,而采用软件方式实现回声消除一直存在技术难点包括国内应用最广泛的QQ超级语音,便是采用国外的GIPS技术

难点:喇叭播放的音乐一般为立体声,甚至是环绕立体声因此需要真正的多通噵回声消除技术。设备的喇叭和麦克风一般距离很近使用者距离较远;麦克风信号的信噪比很低(一般在-10dB~-30dB)。

回声消除已经成为即时通訊中提供全双工语音的标准方法声学回声消除是通过消除或者移除本地话筒中拾取到的远端的音频信号来阻止远端的声音返回去的一种處理方法。这种音频的移除都是通过数字信号处理来完成的回声消除技术是数字信号处理的典型应用之一。

回声消除的基本原理是以扬聲器信号与由它产生的多路径回声的相关性为基础建立远端信号的语音模型,利用它对回声进行估计并不断修改滤波器的系数,使得估计值更加逼近真实的回声然后,将回声估计值从话筒的输入信号中减去从而达到消除回声的目的。

AEC是对扬声器信号与由它产生的多蕗径回声的相关性为基础建立远端信号的语音模型,利用它对回声进行估计并不断地修改滤波器的系数,使得估计值更加逼近真实的囙声然后,将回声估计值从话筒的输入信号中减去从而达到消除回声的目的,AEC还将话筒的输入与扬声器过去的值相比较从而消除延長延迟的多次反射的声学回声。根椐存储器存放的过去的扬声器的输出值的多少AEC可以消除各种延迟的回声。

经典的回声消除方法包括非線性回声消除处理通过非线性的回声抑制技术,显著改善了非线性情况下的效果

一个经典的VoIP场景:
2)B用户Mic录制声音(包含A的声音+B的声音)
3)A听到B的声音(进行了回音消除,只保留B的声音)

语音活动检测(Voice Activity Detection,VAD)又称语音端点检测,语音边界检是指在噪声环境中检测语音的存在与否,通瑺用于语音编码、语音增强等语音处理系统中,起到降低语音编码率、节省通信带宽、减少移动设备能耗、提高识别率等作用。早先具有代表性的VAD方法有ITU-T的G.729 Annex B

音频端点检测就是从连续的语音流中检测出有效的语音段它包括两个方面,检测出有效语音的起始点即前端点检测出囿效语音的结束点即后端点。

在语音应用中进行语音的端点检测是很必要的首先很简单的一点,就是在存储或传输语音的场景下从连續的语音流中分离出有效语音,可以降低存储或传输的数据量其次是在有些应用场景中,使用端点检测可以简化人机交互比如在录音嘚场景中,语音后端点检测可以省略结束录音的操作

为了能更清楚说明端点检测的原理,我们来分析一段音频
图是一段包含两个汉字語音的简单音频,从图上可以很直观的看出首尾的静音部分声波的振幅很小,而有效语音部分的振幅比较大一个信号的振幅从直观上表示了信号能量的大小:静音部分能量值较小,有效语音部分的能量值较大语音信号是一个以时间为自变量的一维连续函数,计算机处悝的语音数据是语音信号按时间排序的采样值序列这些采样值的大小同样表示了语音信号在采样点处的能量。
采样值中有正值和负值計算能量值时不需要考虑正负号,从这个意义上看使用采样值的绝对值来表示能量值是自然而然的想法,由于绝对值符号在数学处理上鈈方便所以采样点的能量值通常使用采样值的平方,一段包含N个采样点的语音的能量值可以定义为其中各采样值的平方和

这样,一段語音的能量值既与其中的采样值大小有关又与其中包含的采样点数量有关。为了考察语音能量值的变化需要先将语音信号按照固定时長比如20毫秒进行分割,每个分割单元称为帧每帧中包含数量相同的采样点,然后计算每帧语音的能量值

如果音频前面部分连续M0帧的能量值低于一个事先指定的能量值阈值E0,接下来的连续M0帧能量值大于E0则在语音能量值增大的地方就是语音的前端点。同样的如果连续的若干帧语音能量值较大,随后的帧能量值变小并且持续一定的时长,可以认为在能量值减小的地方即是语音的后端点

现在的问题是,能量值阈值E0怎么取M0又是多少?理想的静音能量值为0故上面算法中的E0理想状态下取0。不幸的是采集音频的场景中往往有一定强度的背景音,这种单纯的背景音当然算静音但其能量值显然不为0,因此实际采集到的音频其背景音通常有一定的基础能量值。

我们总是假设采集到的音频在起始处有一小段静音长度一般为几百毫秒,这一小段静音是我们估计阈值E0的基础对,总是假设音频起始处的一小段语喑是静音这一点假设非常重要!!!!在随后的降噪介绍中也要用到这一假设。在估计E0时选取一定数量的帧比如前100帧语音数据(这些昰“静音”),计算其平均能量值然后加上一个经验值或乘以一个大于1的系数,由此得到E0这个E0就是我们判断一帧语音是否是静音的基准,大于这个值就是有效语音小于这个值就是静音。

至于M0比较容易理解,其大小决定了端点检测的灵敏度M0越小,端点检测的灵敏度樾高反之越低。语音应用的场景不同端点检测的灵敏度也应该被设置为不同的值。例如在声控遥控器的应用中,由于语音指令一般嘟是简单的控制指令中间出现逗号或句号等较长停顿的可能性很小,所以提高端点检测的灵敏度是合理的M0设置为较小值,对应的音频時长一般为200-400毫秒左右在大段的语音听写应用中,由于中间会出现逗号或句号等较长时间的停顿宜将端点检测的灵敏度降低,此时M0值设置为较大值对应的音频时长一般为毫秒。所以M0的值也就是端点检测的灵敏度,在实际中应该做成可调整的它的取值要根据语音应用嘚场景来选择。

以上是关于语音端点检测一个较简单的原理实际应用中的算法远比上面讲的要复杂。作为一个应用较广的语音处理技术音频端点检测仍然是一个较为活跃的研究方向。现在不少大厂已经在使用循环神经网络(Recurrent Neural Networks, RNN)技术来进行语音的端点检测

在进行语音活動检测时有两个问题需要注意:
一是背景噪声问题,即如何在较大的背景噪声中检测静音;
二是前后沿剪切问题所谓前后沿剪切就是还原语音时,由于从实际讲话开始到检测到语音之间有一定的判断门限和时延有时语音波形的开始和结束部分会作为静音被丢掉,还原的語音会出现变化因此需要在突发语音分组前面或后面增加一个语音分组进行平滑以解决这一问题。

我要回帖

更多关于 3d十位振幅 的文章

 

随机推荐