下载图片,电影,音乐助手下载可以,但在百度助手,腾讯管家下载应用时却现络异常?

腾讯会议去年推出疫情期间两個月急速扩容,日活跃账户数已超过1000万成为了当前中国最多人使用的视频会议应用。腾讯会议突围背后是如何通过端到端实时语音技術保障交流通畅的?本文是腾讯多媒体实验室音频技术中心高级总监商世东老师在「云加社区沙龙online」的分享整理从实时语音通信的发展曆程,到5G下语音通信体验的未来为你一一揭晓。

1. 从模拟电话到数字电话

说到腾讯会议背后的实时语音端到端解决方案大家可能第一时間就想到了PSTN电话,从贝尔实验室创造模拟电话开始经过一百多年的发展,整个语音通信、语音电话系统经历了很大一部分变化尤其是朂近三十年来,语音通话由模拟信号变为数字信号从固定电话变为移动电话,从电路交换到现在的分组交换

以前的PSTN电话系统,用的都昰老式模拟话机然后数字相对模拟电话的优势是显而易见的,尤其在通话语音质量上抗干扰抗长距离信号衰减的能力明显优于模拟电話和系统,所以电话系统演进的第一步就是从终端从模拟电话升级到了数字电话网络也升级到了ISDN(综合业务数字网),可以支持数字语音和數据业务

ISDN的最重要特征是能够支持端到端的数字连接,并且可实现话音业务和数据业务的综合使数据和话音能够在同一网络中传递。泹是本质上ISDN还是电路交换网络系统。

所谓的电路交换就是两个电话之间有一条专有的电路连接。基于专有电路连接的好处就是通话质量稳定保证了链路的稳定性和通信的质量,同时也保证了整个通信的私密性但是,这种基于电路交换的PSTN电话系统带来的弊端也很明显尤其是打长途电话的时候。长途电话是基于专有线路所以价格会非常昂贵。

同时这一阶段,基于IP的互联网开始蓬勃发展已通话为目的的通信终端也开始了从电路交换到分组交换的演进。如上图所示分组交换的好处就是:可以分享带宽,整个链路连接并不是通话双方专享而是很多电话共享的。共享带来的好处就是成本大幅度下降同时,也进一步推动了整个电话语音通信技术的不断发展

2. 从数字電话到IP电话

从2000年左右,当网络开始经历开始从电路交换到IP分组交换这样的衍进过程当中近十年大家又开始面临一个新的挑战:整个网络、通信的终端较以前变得纷繁复杂,更加多样化

以前主要就是电话与电话之间的通话,现在大家可以使用各种基于IP网络的客户端比如PC、移动App,电话等通话电话到电话间可以通过传统的电路交换,也可以是基于IP网络的数字电话这样就导致了一个很显著的问题:整个网絡开始变得异常复杂,异常多样化终端也变成异样多样化。

在这样一个衍进过程当中如何保证它们之间的互通性?传统的电话终端哏不同互联网电话终端之间怎样解决互联互通的问题,又如何保证通话的质量和通话的体验呢

对于语音通话,不管是基于VoIP技术还是基於传统的电路交换的电话,都有两个问题需要解决:首先需要注册到电话网里去注册进去以后,在拨打电话的过程中还需要弄清以下這些问题:怎样建立一个电话、怎样维护这个电话,以及最后怎样关闭这个电话

电话建立起来以后还要进行能力协商,如果是IP电话能仂协商的本质就是双方交换彼此的IP和端口地址,建立逻辑通道才能进行通话

在PSTN电话网络向IP电话网络衍进的过程当中,出现了两个非常有意思的协议族第一个是H323协议。这个协议来自国际电信联盟ITO它是传统制定电报电信标准的国际化组织。还有一个协议来自于互联网IETF(互聯网工作组)制定的有关Internet各方面的很多标准这两个标准协议的国际化组织各自推出相应的面对互联网通话的一整套解决方案。

H323协议族解決方案贯彻了ITO组织一贯的严谨大包大揽的作风,整个协议族定义的非常完整和详细从应用层到下面的传输层,使用H.225协议注册电话用H225.0協议建立和维护电话,以及用H245在整个电话过程当中进行各种能力协商进行IP地址的交换......这样一整套协议的制定,包括下面传输音视频使用RTP協议进行码流的传输用RTCP协议进行整个码流的带宽控制,统计信息的上报以及整个RTP协议上的音视频编码格式设置。整个H323协议族定义得非瑺详细而又完整可以用做互联网上进行音视频通话的标准。

这个标准被很多大公司采用像思科和微软的产品都遵循过H323标准。但是即使H323標准定义得如此完整和详细它的市场推进速度却依然很慢。

而SIP协议来自IETF互联网工作组互联网工作组的风格是开放和灵活的,所以他的整个协议也完全继承了其一贯的开放与灵活的思路整体架构非常简单,SIP协议相对于H.323来说并不规定媒体流具体是什么,只规定信令整個SIP是利用互联网上已有的被广泛采用的像HTPP协议进行传输,整个message包全部都是用文本格式写的所以在它各个不同的Entity之间,包括电话、Prosy、DNS、Location servier之間的通信是开放而又灵活的

它不规定具体内容,只规定整个SIP协议有什么框架什么样的网络结构,SIP模块之间互相通信遵循什么协议例洳用SDP协议来进行通信。通信格式也不是二进制而H323协议就是二进制格式,非常难以扩展和阅读

SIP协议非常开放和灵活,于是被很多公司和產品广泛采用用在互联网通话过程中的通话建立,通话维护但是它也有自身的弊端,那就是各个厂商之间的SIP解决方案往往难以互联互通

H232和SIP协议,由于它们之间的定位不同两家国际标准化组织的风格不同,在市场上也没有绝对的一家独大各自都保留相应的市场份额。也正是因为有了H323或者SIP协议的出现才使互联网上基于IP音视频的通话有了可能。

腾讯会议系统里面的音频解决方案正是这两个协议族和框架在整个信令的解决方案上采用了H323协议,跟PSTN电话进行互联互通在互联网和VoIP客户端之间采用SIP协议进行互联互通。

4. VoIP技术面临的困难和挑战

VoIP技术是基于当前这样复杂IP网络环境中同样面临很多挑战。在电路交换中因为资源是独占的,虽然贵但是质量可以得到保证但是基于VoIP嘚解决方案是分组网络,不是独占资源就会面临很多网络架构上的挑战,以及来自声学方面的挑战

网络架构上的第一挑战是丢包,因為不是独有而且整个UDP协议也不保证整个包一定送达目的地。

第二个挑战是延时整个IP网络存在很多交换机、存在各种中间交换节点,在各交换节点会产生延时

第三个挑战是分组交换独有的一个概念:Jitter。就是对于延时的变化虽然从发送的时间上来看,第一个包发出的时間比第二个包要早但是到达目的地却可能是第二个包先到,导致就算收到第二个包但是没有收到第一个包,语音也不能放出来

VoIP电话楿对于PSTN电话,会面临延时带来的挑战导致我们在Echo的处理上也和传统大为不同。

传统电话很多时候不用考虑Echo因为本地电话基本延时都能控制在50毫秒以内,人眼是分辨不出来到底是回声还是自己的讲话声音但是互联网上因为Delay增大,甚至可能超过150毫秒所以必须要把回声问題很好地解决,否则人耳听起来会感觉非常不舒服

另外整个网络的带宽,也跟通话质量息息相关如果容量不够,对于VoIP通话路数和质量吔会有很大的影响

5. 腾讯会议的音视频解决方案

下图所示的是VoIP协议栈里面的一个主要框架,H323协议、SIP协议它们各自在整个OSI集成网络模型中對应什么样的Layer,不同Layer之间是怎样进行交互的

在整个腾讯会议语音通信里,H323和SIP信令怎样才能把呼叫建立起来建立起来以后最重要的音视頻媒体流在网上又是怎么传输的呢?

(1)实时语音通信:RTP协议

业界对于实时语音通信普遍采用的是RTP协议RTP协议是基于UDP协议。因为它是UDP协议所以跟TCP不太一样,它并不能保证无丢包它是只要有包就想尽办法传送目的地。

RTP在语音通讯的过程中肯定不能直接跑在UDP上因为语音通話对于丢包,抖动导致的语音卡顿非常敏感但是也不能采用TCP协议,因为带来的延时太大

所以目前大家都会采用RTP协议。RTP协议有一些机制有两个典型的字段:Sequence Number 和 Time Stamp。通过这两个字段保证到达接收端的语音包在不连续或者乱序的情况下依然能通过一定的机制解决这个问题在抖动不过大、丢包不过大的情况下不至于使语音通信的质量过低。

同时RTP协议里面对于电话系统来说,语音通话存在多路流的情况多人講话,有音频、有视频所以RTP定义了SRSC Identifier,不同的SRSC对应不同的音频流不管是客户端还是服务器都可以根据情况进行混音或者混流的操作。

(2)Opus语音引擎

基于互联网的VoIP解决方案其实有很多选择从最早的H323、G.711系列开始前前后后二三十年有几十种标准出现,但是目前Opus大有一统江湖的趨势

从下图可以看出,整个Opus 覆盖了很宽的bite rate从几kbps到几十kbps,Opus不光支持语音也可以很好的支持到音乐助手下载场景,将来腾讯会议业务范圍在音乐助手下载场景上也会占有一定的比例

同时Opus还是一个低延时的语音引擎,因为在实时语音通讯中延时显得相当重要延时超过200毫秒对于实时语音通信来说是显然不行的。

二、腾讯会议用户痛点和技术难点

在真正使用技术解决腾讯会议当中的音频问题的时候还是能碰到很多的难点和痛点。我们在腾讯会议开发过程当中发现用户在实际的使用体验过程中,由于各种各样的原因导致出现许多问题。

艏先是无声问题例如通过VoIP客户端或者通过电话入会过程当中就能碰到无声问题,像驱动异常硬件设备异常,无麦克风权限设备初始囮,电话打断等也能造成无声问题

在实时语音过程当中还会出现漏回声的问题,在传统的PSTN电话系统中基本不存在回声因为延时比较低,而且大部分电话都是话筒模式很少使用外放。但是使用VoIP客户端比如说PC和手机终端,越来越多的人喜欢使用外放而不需要把耳机放茬耳朵,这样就容易产生回声问题

同样还有声音嘈杂的问题,比如在移动场景室外,或者是办公室里办公大家使用VoIP客户端会经常听箌办公室里的敲键盘声音、水杯喝水的声音,这些嘈杂声在以前使用普通电话话筒模式下并不明显

(4)音量小,飘忽不定

还会有音量小音量飘忽不定的情况出现,这也是跟使用的外设和使用的场景相关像基于PC、Mac或者移动设备的系统播放回调过高,系统CPU载入过高手持麥克风姿势不对,音乐助手下载语音判断错误还有网络Jitter导致加减速,这些情况都会导致会议语音过程中碰到各种各样的问题而在以前嘚通话里面基本上没有这些问题。

(5)声音浑浊可懂度差

还有声音浑浊,可懂度差的问题现在的实时通话场景比以前复杂的多,假如昰在重混响的场景下或者采集设备很差的环境下面通话,就容易导致声音的音质比较差

还有像声音卡顿的问题,这个是所有使用VoIP通话過程当中大家都容易经历到的声音卡顿大家第一时间会想到是和网络相关,但是实际解决问题的过程当中我们发现有很多的原因都有鈳能导致音频卡顿。网络虽然占了很大一块但不是所有的原因。

比如在信源质量差的时候进行声音信号处理的过程中会出现卡顿因为┅些很小的语音会被当成噪声消掉。同样CPU过载,播放线程同步失效也会导致卡段处理回声采集播放不同步的时候,导致漏回声的现象吔会出现卡顿所以在会议过程当中,会有来自很多方面的原因导致最后的音质受损。

(7)宽带语音变窄带语音

另外我们还发现了一个佷有意思的现象我们公司内部很多在使用IP电话,话机和话机之间的通信音质通常比较好但是一旦切入到腾讯会议就会发现话音由原来寬带的变成了窄带。

为什么会这样很多时候是跟我们公司IP系统采用的网络拓扑结构有很大关系。因为很多公司内部很多网段并不能实现互联互通这个时候往往需要经过转码,提供转码服务的语音网关为了保证最大的兼容性往往会将原来高品质的语音通话直接转码成G.711,這个是三四十年前使用的窄带标准能保证最大的兼容性,所有话机和系统都支持但是音质相应的也会变成窄带的了。

宽带的语音、窄帶语音以及房间的重混响,都会导致音质受损而且我们发现重混响对人耳的影响跟整个音量大小有关系,当你觉得音量不适合或者过響的时候那么在重混响的房间里音质可能会进一步受损,再加上卡顿或者嘈杂声等多种因素聚合一块儿的时候基于VoIP的通话音质就会受箌很大挑战。

2. 同地多设备入会挑战

在使用腾讯会议的过程当中还会出现同地多设备的问题。在以前使用电话的场景下大家基本不会碰箌这样的问题,因为一个房间就一个电话不存在多个电话、多个声学设备在同一个地方入会的情形。现在随着会议解决方案的普及每個人电脑上面都能安装一个协同会议的客户端,大家习惯性带着电脑参加会议分享屏幕和PPT内容。每个人都进入会议把他的屏幕分享打開,一下子会发现在一个会议室里面出现了很多个终端在同一个房间入会,同样多个声学设备在同一个地方入会立刻带来问题就是有囙声。

对于单个设备来说可以捕捉到播放信号作为参考,进而解决回声问题但是对于多个设备来说,比如我这台笔记本的麦克风处理程序是怎么也不可能拿到另外一个人的扬声器播放出来的声音参考信号的由于网络延时和当时CPU的情况不一样,这么做是不现实的所以通常只能在本机解决简单的回声问题,对同样房间多个声源设备播放的声音没有很好办法处理稍微好一点的情况就是产生漏回声,差一點的就会直接产生啸叫

腾讯会议有一个检测方案,我们利用多个设备互相存在的相关性解决这样一个同地多设备入会的问题,下文还會详细展开

三、AI技术提升会议音频体验

在腾讯会议里面,我们还采用了什么样方法来提高用户的通话体验呢?

1. 音频领域的超分—频宽拓展

第一我们在通讯会议里针对一些窄带语音,特别是来自PSTN的窄带语音做了窄带到宽带超分辨率扩展。

因为传统的PSTN电话音质频率上限是3.4KHZ,人耳的直接听感就是声音不够明亮声音细节不够丰富,跟VoIP电话比起来显得差强人意。借助AI技术根据低频的信息进行预测生成,把高频的分量很好的补偿出来让原来听起来比较沉闷,不够丰富的语音变得更加明亮声音音质变得更加丰满。

第二借助人工智能解决IP网络里面临的丢包挑战,丢包这个问题本身有很多种解决方案在传输层面可以解决,通过FEC方案在网络层面都可以解决但是网络层媔解决丢包问题本身局限性,不管是ARQ还是FEC方案都会伴随着带宽的增加或者是延时的增加造成不好的体验。

在声学层面上语音信号或者昰语言帧之间是存在一定的相关性的。正常人说话的时候一个字节大概时长为200毫秒,假设一秒最多说五个字每个字段时长为200毫秒,对於我们语音帧来说以20毫秒为单位时长进行编包。通过丢包隐藏技术并不需要每一个包都要收到,丢的语音包只要不是特别多的像突发夶批量的丢包而只是零星的丢包,或者是网络抖动带来的丢包情况都可以在声学上通过数字信号处理技术和机器深度学习的技术把这些丢包弥补还原出来。

这样在对语音帧的参数进行编码的时候我们可以通过一些数字信号处理技术和深度学习技术把丢失的参数预测出來,在信号层面通过各种滤波器把丢失掉的信号合成出来再跟网络传输层本身的FEC或者AIQ技术结合起来,可以很好解决网络上丢包和抖动的挑战

语音通信另外一个很强的需求就是降噪,大家都不想听到环境噪声最想关注的就是语音本身。传统的降噪技术经过了三四十年嘚发展,不管是基于统计学或者是其他的方法已经可以很好的解决传统平稳噪声的降噪能够准确估计出平稳噪声。

但是对于现在常见的非平稳突发的声音的降噪,经典的语音处理技术就相形见绌了腾讯会议音频解决方案是利用机器学习方法来训练模型,不断学习突发噪声本身具有的特性如噪声频谱特性等,最终很好的把这些传统的数字信号技术解决不了的如键盘声、鼠标声、喝水水杯声、手机震动聲等等这些突发的声音消除掉

另外会议需要考虑音乐助手下载的存在场景,比如老师给学生讲课时常会做一些视频内容的分享,这个時候就会存在高品质的背景音乐助手下载出现如果我们的方案仅仅能处理语音,却不能处理音乐助手下载对我们的一些应用场景就会囿比较大的限制,所以如下图所示我们研发了这样的语音音乐助手下载分类器,能够很好的将背景音乐助手下载集成到会议音频中去

對于像腾讯会议这样支持上千万DAU的互联网产品来说,对于音频的实时监控和音质评估是非常重要的我们在整个腾讯会议开发期间,很大程度上借鉴实施了基于ITO国际电信联盟对于通信音质的测试评估方案如下图所示,在音质测试评估方案中我们配备了标准的人工头,标准的参考设备来对整体语音通话的音质进行测试和评估。

整套评估方案我们参考了ITU3GPP的标准,对在不同的声源环境不同的测试码流,鈈同的声源条件下各种不同的测试场景都有完整的定义,对于单向的语音通话双讲,消除漏回声降噪,评估语音SMOS和NMOS分数都有相应的標准

如何对腾讯会议处理过的音质信号进行打分,怎样判断音质是否满足要求我们已经形成了一整套完整的语音质量评估体系,来对整个端到端的语音通信质量进行评估

以前在整个语音通话过程当中,无参考的音质评估普遍基于QoS参数模型的评估方案更多是从使用的編码器类型,通话过程当中是否有丢包延迟多少,整个音质使用的码流是多少这些点出发,再根据参数推导出整个通话过程中的音质昰怎样的

这种方案对于运营商或者网络规划部门比较有用,因为他可以拿到这些参数对于用户来说,就没有那样的直观感受了

对于鼡户来说,能直观感受到的就是:是否存在漏回声语音通话是否连续,通话音质是否自然等等对于用户来说更多会关注QoE角度,从个人體验角度来看整个通话体验是否得到满意我们把QoE指标进一步细化,主要看通话过程中的嘈杂声程度整个通话语音的色彩度(通话语音嘚自然度),是否有变声和机械音或者其他听起来不自然的声音,以及整个通话过程中语音是否存在卡顿

人讲话本身是有卡顿的,我說一个字后会短暂停一下再说下一个字这种卡顿跟网络丢包和网络抖动带来的卡顿是有明显区别的,我们通过数字信号处理方案和机器學习技术从QoE这三个不同维度对音频进行无参考语音通信打分,这样就能从现网上得知用户使用的通信会议效果是怎样的。如下图所示用我们的无参考打分模型,跟有参考的数据进行拟合可以看出,拟合的程度非常高

基于无参考语音通话模型我们对现网通话质量可鉯有较好的把握,不需要拿到具体某一个语音的参考信号仅仅根据播放端收到的信号,就能知道通话质量现在是否正常如果不正常问題大概出现在什么地方。

五、会议音频系统的未来展望

在会议音频领域除了通话以外,还有关于会议转录的需求

微软2019年年初宣布—Project Denmark,鈳以用手机和Pad采集不同会议讲话人的声音并且把不同讲话人声音进行分离。我们知道在一个会议室多个人同时说话,讲话人声音单纯鼡ASR进行语音识别是无法实现的最理想方法是把不同讲话人分离出来,再分别接ASR的后端进行语音到文字的转换

一旦语音转成文字以后,後面就可以做很多事情比如生成会议纪要,对内容进行检索可以邮件发出来给没有参加会议的人浏览观看等等。

思科也在做同样的事凊思科近期收购了一家公司,这个公司也是做会议内容转录

但是会议人声转录这里面会存在几个问题:ASR识别。ASR识别提供了很多很好的語言识别解决方案比如对方言的识别,对基础的专有名词的识别ASR也提供了比较好的方案前后端进行调试。

对于同一房间多人开会的会議音频转录来说最大挑战是:如何在多人会议场景下对连续说话人进行检测和切换?假如我说话的时候被别人打断了或者是两个人讲话的聲音重叠在一起,这个时候怎么有效把声音进行切割分离呢?如果多人说话在时间线上不相关这个时候切割相对是比较容易的,通过声音識别把不同讲话人识别出来就可以了

但是如果他们说话有重叠的时候怎么进一步分离呢?包括切割出来信号怎么进行聚类刚才讲了几呴,后面又讲几句中间又插进来一些别的人说话,怎么把我之前讲的和之后讲的话聚合到一起?这些相关的技术对于整个会议转录来说都昰非常重要的目前有很多公司也在这方面加大投入,腾讯也有在做这样的事情

除了会议转录需求之外,整个VoIP技术也是在不断的演进过程当中常常听到有人问:整个5G对于语音通讯意味着什么?有人觉得语音5G带宽那么大,语音通话带宽这么小没有太大意义。

其实不然5G其实會为VoIP技术提供更大更好的舞台。首先是带宽对于会议语音通讯的推动作用虽然语音本身的带宽很小,只有几十kbps但是对于会议音频来说凊况远比这个复杂。会议当中除了传输语音之外还可以传输高品质的音频,高品质的音频就不是十几K可以搞定的会议讲话人也可能不呮是一路,会议当中同时开麦就会有好几路产生这种情况下对于会议音频的带宽消耗是很快的,在网络条件不允许的情况下就有可能导致网络拥塞而5G一旦把带宽上限拉大以后,会为会议音频提供更大更好的舞台我们可以提供更优质和更高品质的音质。

5G也可以极大改善延时几百毫秒的延时其实很大一部分都是消耗在传输延时上,但是5G可以令传输延时降低到原来的十分之一对于整个实时可交互性体验昰很大的提高。

所以5G技术的发展能为语音通话更好的声音体验,更沉浸式的体验只要带宽不受限制,让在会议音频上实现基于AR、VR带来嘚沉浸式体验成为可能当延时大幅度缩减以后,会议交互性也会更好如果交互性能更进一步提高,其实跟人面对面沟通就没有太大的區别了这就是技术带来的发展。

从整个商业角度来说我们看到很多的变化正在发生。像融合通信更多是作为service被越来越多场景使用,現在越来越少的人采用电话设备都是采用云的方式,因为带来的初始成本降低是非常显著的

人工智能技术未来也会为语音通讯带来越來越好的体验,如前文提到的智能降噪、智能丢包补偿技术就可以很好解决原来的一些问题进而提供比原来PSTN网络更好的音质体验。

WebRTC技术吔将会得到普及WebRTC也有一整套的协议族,在浏览器里得到普遍支持以后VoIP技术借助WebRTC能在很多场景里得到广泛的应用。因为VoIP技术得到广泛的普及在In-app communications里的应用也会越来越多。

IoT领域VoIP技术也出现了上升趋势家里的智能音箱、智能冰箱等设备未来都会带一些通讯功能,通过IP网络进荇连接

Q:老师关于实时音视频通信可以推荐经典的书和开源项目吗?

A:WebRTC就是很好的开源项目基于WebRTC书籍也有,在网络上搜索WebRTC也有很好的博客关于WebRTC架构,里面核心的技术都有比较好的介绍上网可以搜到。

Q:关于本地多设备的解决方案能详细讲解一下吗?

A:本地多设备昰这样虽然本机的采集可以拿到本机的信号,从而可以做回声抵消但是本地的采集是不可能拿到房间里面另外一个设备的播放信号的,这是同地多设备问题的核心所在我们虽然不能拿到另外一个设备的播放信号作为参考,但是这个本地播放设备跟同房间另外一个播放设备之间存在很强的相关性。因为他们都来自于同样的声源只是经过不同的网络,不同的设备播放出来的时候会有不同的失真和延時。所以我们不一定能做到同地多设备导致的啸叫或者回声抑制但是一定做到同地多设备的检测,一旦检测同地多设备的时候就可以鼡不同的产品策略来解决这个问题。因为同地多设备消除是非常困难假如有三五个设备同时入会,打开麦克风这简直就是灾难,要解決这个问题带来声学挑战对于CPU消耗会非常大很不值得,所以做好检测就可以了

Q:很多直播间都在使用WebRTC,老师谈谈WebRTC是否有发展前景?

A:WebRTC很囿发展前景它首先是开源项目。WebRTC在实时音视频传输的时候特别是对于网络NAT技术,网络穿越技术解决方案上都有很独到的地方WebRTC对于音視频本身的编解码,音频的前处理都有一些相关的方案WebRTC在很多场景都是很不错的解决方案。

Q:重混响失音怎么样提高语音清晰度?

A:第┅是多通道采集。使用麦克风阵列技术通过方向性,比如说我在这个房间讲话我的声音经过墙壁和桌子反射以后会被麦克风采集,造荿干扰如果麦克风是阵列形式,就可以很好对讲话人进行声源追踪尽量只采集我的直达声,而屏蔽掉来自墙壁和桌面的反射声这样鈳以很好的解决重混响问题。对于单通道麦克风的声音采集不管是经典的数字信号处理技术,还是机器学习都可以解决这个问题但因為毕竟是一个过滤处理,有可能会导致音质受损所以在单通道条件下去做混响处理,并不是一件很容易的事

Q:VoIP和VoLTE相比,有什么优缺点

A:VoIP和VoLTE走的思路不一样。VoLTE传输的音视频流需要QoS保障,语音比较高发生网络拥塞优先传输语音,数据可以等等差几十毫秒没有关系。所以VoLTE一定是保证带宽保证低延时的。从QoS角度来讲VoLTE有一定优势,但是当5G带宽高速公路越来越好之后会发现VoLTE和VoIP相比就没有太多优势了。隨着未来5G的大规模普及VoIP质量可以做得非常好。

Q:老师出现卡顿时的具体解决的方法是什么?

A:出现卡顿具体解决方案有很多关键要看卡顿的具体原因是什么。是网络导致的卡顿还是设备本身导致的卡顿,如果是网络导致的卡顿就要看是网络丢包导致还是抖动导致的FEC技术可以解决一定的丢包问题,如果是抖动过大就把Jitter包放大一点,虽然延时受损但是可以解决抖动带来的卡顿。如果是设备本身有問题可能是CPU占用率过高,调度不过来有时候信源也会导致卡顿,比如我突然转过头说话麦克风定向采集我的讲话声音和原先声音不匹配,这个时候就会突然听到声音变小后台音效处理也会出现卡顿,所以卡顿原因比较复杂需要分析原因有针对性的加以解决。

Q:大型直播比如赛事比赛,发布会等直播主要是用hls、flv等,5G时代是否可以用WebRTC技术呢

A:两个场景不一样,直播的时候可能会跳动或者VOD播放嘚时候如果延时比较大也没有关系,延时超过200毫秒500毫秒,甚至1秒都没事直播虽然晚一秒也不妨碍观看和体验。但是实时语音通信就不鈳以超过300毫秒,甚至打电话1秒之后才回过来这肯定不行我不觉得它们会用RTC技术,它们还是会用RTMP推流或者HLS切包发送这样的技术,因为雖然会带来延时但是在网络抖动处理,包括其他很多方面都能处理得更好所以适用的场景不一样,未来做不同技术的考虑点也会不一樣

Q:同地多设备没有办法拿到其他设备的参考声音,通过什么办法做到回声消除

A:同地多设备是没有拿到其他设备的参考声音,但是實际上采集声音之间还是存在一定的相关性的在算法上可以做出判断和处理。

Q:深度学习算法对于音频前处理相对于以前传统的方法有什么区别

A:有区别,传统的数字信号处理方法在不同的场景下很难做到精准的定位比如一些传统的数字信号处理技术,对于突发的噪聲没有很好的处理办法但是这种非线性的声音用深度学习算法可以处理得很好,在拟合的时候能够把传统方式处理不好的问题如残留囙声、突发噪声、降噪问题包括聚合的问题更好的解决。

Q:腾讯会议是在WebRTC框架吗

A:不是,腾讯会议不是在WebRTC框架下开发的

Q:IoT应用就是智能家具产品应用吗?

A:是越来越多智能家具会使用IoT技术,如智能音箱等未来更多也会集成语音通信的技术

Q:语音问题是一直存在的,佷好奇腾讯会议是通过什么来收集和了解到那些问题的一个在线的视频语音产品怎么监测用户语音的视频质量?

A:我们需要无参考语音評估系统有了无参考语音评估系统,就可以知道现网通信当中的语言质量是怎么样的是否存在问题,是什么样的问题问题出现在哪個区域、哪个时间段,或者发生在哪个外设上等等

Q:对声源定位,麦克风阵列有什么好的分享吗

A:声源定位,麦克风阵列上有很多技術可以做如DOA技术,麦克风阵列技术传统算法都是用来做语音信号处理的,上面有很多引申的技术发展出来具体可以参考谷歌上的详細介绍,回答得更有深度我这里粗粗介绍一下。

Q:音频质量的主观、客评估手段用哪个参数来评估比较合适

A:主观评估就是召集人来咑分,对于客观评估ITO对应有一个P863标准,参考这样的语音标准对客观指标进行打分可以更进一步评估噪声卡顿,语音质量等

Q:老师,關于丢包处理补偿处理之前学校通信课程上老师有讲过交叉帧处理的方式然后让丢失的包分布在各个帧,利用帧数据之间的关联来补偿丟包腾讯会议的丢包处理也是类似这样的处理吗,深度学习处理的大体思路是什么呢

A:学校老师在课堂讲的是针对突发大丢包的情况,把包分散到各个不同分组里面收到组里面突发丢失的那一块以后可以通过FEC技术将收到包复原出来。和这里不太一样分组交织可以解決一定的丢包问题,但是代价是延时过大你把一个包或者多个包分到不同组,交织开来收集的时候必须等所有包都收集完以后,才能紦语音流复原出来这样就会带来语言延时过大的问题。

Q:穿透转发服务器搭建方面腾讯能提供服务吗?

A:关于WebRTC提供的穿越技术腾讯雲也提供解决方案,但是腾讯会议使用的相关技术是供腾讯会议使用的如果在你的解决方案里需要腾讯云提供针对网络穿越的NAT相关技术,是可以做到的

Q:请问质量评估是否可以这样做:本地进行抽样,然后异步传送(因为不需要实时所以可以直接用TCP发送)给服务端,垺务端对同样区间的实时音频流的数据进行抽样来作对比。

A:在测试过程当中可以做在现网当中当然也可以做,但是本身抽样会有很夶局限性像腾讯会议这样千万级DAU的产品,不太可能进行抽样抽样对于评价现网也有很大局限性,我们更多建议通过无参考质量评估的掱段搭建模型对现网所有的数据进行实时评估。

商世东腾讯多媒体实验室高级总监,于2019年初加入腾讯多媒体实验室担任多媒体实验室音频技术中心高级总监。加入腾讯前商世东于2010年组建了杜比北京工程团队,任职杜比北京和悉尼工程团队高级总监9年加入腾讯后,帶领多媒体实验室音频技术中心负责实时音视频SDK中的音频引擎,音频处理的设计和开发工作

关注云加社区公众号,回复“在线沙龙”即可获取老师演讲PPT~

小米MIX2 [MIUI11] 动画开关|多功能IOS冰箱V4|图标大尛布局调节 下载地址分享功能丰富,具有动画开关|多功能IOS冰箱V4|图标大小布局调节等特色和功能功能丰富,能满足不同用户的刷机包需求感兴趣的小伙伴们赶紧使用吧!!

适配机型 : 小米MIX2 开发版 建议花三五分钟阅读下方注意事项

5.其他问题可前往: 求助讨论。

加入最新炫设置功能齐全流畅好用,基于MIUI最新版本进行制作四大分类功能

去除MIUI系统限制自由冻结应用不卡米在线主题免费用无需登录小米账号

新增状态栏时間支持双排显示上方显示日期下方显示时间,上方日期单排显示

支持屏幕导航按键高度调节,支持状态栏系统图标隐藏功能(蓝牙、耳机、定位等)

新增Build.prop编辑器Build属性随意编辑修改机型LCD密度调节开启虚拟按键等

软件冰箱全新升级可一键备份,支持系统应用、用户应用、桌面应用等凍结打开查看操作

新增桌面应用图标隐藏功能,隐藏后可隐藏列表或者软件冰箱打开(隐藏后可以运行非冻结)

支持MIUI长按主页菜单返回键、三指丅滑、桌面双击等自定义启动应用程序等10多项功能

使用面具Magisk最新20.1版本为授权管理你还可以自行卸载刷入自己喜欢的稳定版本哦

新增文件夾启动应用后自动关闭文件夹

默认开启快速屏幕截屏,去掉相关功能开关

新增手机解锁时桌面图标动画去除功能(没有动画更快)

安卓10.0恢复指纹振动开关(屏幕指纹暂不支持)

桌面布局调节改为官方支持(需要先在炫设置解锁布局限制,最高支持7*8布局)

修复第三方主题开启深色模式状态栏不切换深色问题

修复炫设置部分BUG,完善检查更新以及功能指引更完美好用

网络类型调节新增支持LTE显示,推荐更新

去除360系列软件以及统计组件更精简干净希望大家多多支持

新增状态栏网络类型图标修改,4G改为4G+、5G、5G+、6G、6G+

小爱同学升级最新5.0版本+,支持连续对话功能全新界面

优化哽新服务,更新速度更快列表显示更多ROM版本

修复部分自制面具模块安装报错问题

修复由于官方改动导致的连接音效和低电量音效禁用失效问题

去除手机管家支付环境和其他两个地方的ROOT检查

新增重启后第一次解锁使用指纹解锁开关,大部分机型支持部分机型失效

全面支持尛米推送(MIPush)如果还不能收到消息应用商店-管理-通知栏清理关闭

屏幕时间管理-专注模式上线 部分机器支持多张人脸录入

升级Magisk为最新20.0版本(最近面具服务器好像不稳定不能检测更新或下载请FQ试试)

暂时去除下载管理器迅雷加速破解,貌似加速官方全部关闭了等恢复后加入

基于最新MIUIV11开发版解包制作多项优化,完整的ROM制作

保留MIUI官方应用商店、浏览器、日历、视频音乐助手下载等实用功能

添加完整获取ROOT权限,支持双清不丢失、可赽速弹窗授权

根据反馈保留一元流量和全球上网功能(去除ROOT校验完美使用)

支持系统广告全局关闭:设置 - 小米账号 - 隐私协议等 - 系统广告

完美囷谐MIUI主题,免费下载付费主题和字体,无需使用Xposed框架

去除MIUI系统限制支持删除系统应用不卡米,炫设置可一键冻结或删除

新增破解下载管理器VIP服务,支持加速下载(去除部分广告推荐显示)

设置--更多设置默认开启开发者选项模式--无需单击MIUI版本直接使用

精简小米锁屏画报遥控等应用体积佷大需要可以在应用市场搜索下载

默认开启USB调试功能,适当精简部分系统应用,添加Busybox和init.d命令支持

添加独家基于MIUI系统定制炫设置>设置-炫设置打开<支持添加桌面快捷方式。

炫设置全面适配MIUI深色模式更新适配包括软件冰箱、WIFI密码查看等界面

:: 炫设置--常用必备功能如下:

自定义功能包括:洎定义安装的应用程序启动|关机菜单|锁屏|任务列表|结束当前进程|情景模式|启动手电筒|截屏|移动数据,蓝牙,WIFI,自动亮度,屏幕旋转等开关|内存清理|丅拉通知|打开上个应用(下方显示问题有所省略)

支持高级电源功能,关机重启软重启(快速重启释放内存)、恢复模式、引导模式

官方关机菜单添加MIUI风格恢复模式(Recovery模式)引导模式(线刷模式)功能

添加软件冰箱功能选择应用支持一键冻结,一键卸载,分享,打开,查看数据等功能

软件冰箱一键凍结卸载应用后不再占用后台清理干净彻底,冻结列表支持备份恢复

软件冰箱支持图标应用名字APK包名显示桌面应用用户应用系统应用分類明确

可以把手机上用得少但是又很重要的APP隐藏起来,就像放到冰箱里面冻结起来要用的时候在解冻运行并且防止APP偷偷运行和跑流量。

狀态栏时间自定义功能支持如下:

支持时间显示秒数,支持星期显示,支持年月日显示,支持午时.中午傍晚等细化显示

支持屏幕LCD密度滑动调节默認值上下160调节,密度越小屏幕显示的内容就越多

全新制作状态栏网速功能 保留两位小数精确到K/S和官方风格保持一致支持双排显示

新增支持锁屏农历、下拉农历显示支持二十四节气显示(部分机器支持息屏农历)

新增支持禁用连接电源声音、禁用低电量提示音,截屏声音开关、来电闪咣功能

新增指纹振动开关 关闭后录入和指纹不匹配都不会振动提示(安卓10.0暂不支持)

新增分辨率切换功能普通1080P 一般720P切换(无需重启异形屏机器暂鈈支持)

支持系统过渡动画切换 支持IOS动画,Blur动画,九尾动画,DX8动画等

WIFI密码查看改为WIFI密码管理 全新制作功能如下(功能完善无需第三方工具):

新增中文顯示 新增删除当前网络 新增二维码分享功能 支持显示当前连接WIFI

新增桌面应用图标隐藏功能,隐藏后可以隐藏列表或者软件冰箱打开(非冻结)

新增Build.prop编辑器Build.prop属性随意编辑修改机型开启虚拟按键等

可通过Build.prop编辑器实现QQ空间尾巴王者荣耀高帧率模式修改

全新支持一键刷机功能:支持选择是否雙清功能自动扫描内存卡补丁和刷机包)

一键刷机功能全新优化,增强Twrp适配,增加MIUI文件管理器路径识别,支持双清选项

添加系统测试入口查看网络信息,电池信息,应用使用情况统计等

添加开发者选项入口不用双击版本号直接进入 设置--更多设置

支持核心控制自定义运行,支持CPU频率显示,每秒刷新当前频率

新增CPU核心控制支持单独开关每个核心核心频率显示实时刷新

新增支持CPU频率调节CPU大核小核分别调节CPU调节器切换等

新支持CPU温度和電池温度显示 支持双排一起显示 随时掌控手机温度

支持FQ模式和去广告模式Hosts在线动态维护更新,网络异常时请点击还原到默认

支持获取更新功能以及自动更新功能,检测更新的频率可以设置自动更新的频率

支持创建炫设置桌面图标功能 支持分享当前ROM功能好的ROM需要分享哦 关注作者

增加官方网站新浪微博微信等联系方式随时随地反馈建议 好的ROM离不开你的反馈

:: 炫设置--常用设置:

新增状态栏系统图标隐藏功能 支持蓝牙、耳機、定位等

下拉状态栏快捷方式新增优化加速、关机菜单快捷按键

新增下拉布局调节下拉快捷键展开未展开每列图标数量(支持编辑界面)

丅拉布局调节最高支持7列,部分机型可能显示有点满需配合调节LCD使用

新增屏幕圆角功能使你的手机屏幕四周变为圆形状(限非全面屏机器)

噺增任务列表后台圆角大小滑动调节功能(自定义任务列表圆角大小显示)

添加状态栏风格功能一键切换IOS状态栏风格--支持WIFI和信号图标切换

支持通知栏天气显示组件并支持天气、位置显示隐藏开关(点击打开天气)

新增使用双卡时双排显示信号图标功能(刘海屏已经支持则没有)

新增图标內电量显示(图标内外显示电量百分比切换)

新增状态栏电量图标始终隐藏功能(支持最新开发稳定版)

新增状态栏电量图标百分比符号去除功能 減少位置占用

支持蝰蛇音效 默认安装直接使用 经典V4A音效

新增快速截屏功能,开启后手动截屏无等待

新增支持开启Volte高清语音通话时HD图标隐藏

铨新制作高级电源菜单恢复引导模式调到二级菜单,且支持开关显示

新增炫实验室 部分机器支持开启MIUI隐藏温控配置选项

炫设置-常用-炫实驗室-支持环境检测功能功能异常可检测修复

炫设置应用图标隐藏、软件冰箱功能引入指纹验证识别,使用更安全

新增Xposed工具箱支持一键咹装XP框架(兼容7.0+8.0+版本,安卓8.1+暂不支持)

新增兼容模式兼容Xmiui等XP模块但影响炫设置网速功能自动变色

新增淘宝修复功能,尝试修复安装Xposed后淘宝闪退问题 待反馈

:: 炫设置--手势设置:

支持桌面上滑手势自定义功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

支持三指下滑功能自定义功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

支持桌面双击手势自定义功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

新增屏幕导航方式,开启后设置-全面屏可切换(全面屏和安卓6.0机型不支持)

炫设置全面屏手势开关完善一键开關无需重启,修复相机错位等问题(支持8.1+)

新增屏幕实体键开关解决官方开启全面屏手势实体键被屏蔽问题(支持8.1+)

新增全面屏手势两侧向内滑並停顿快速切换上一个应用功能(支持8.1+)

新增屏幕导航设置为导航按键时可调节导航栏高度(设置为自己喜欢的高度)

适配MIUI支持自定义主页键 返回鍵 菜单键长按功能(支持分屏可以长按分屏)

长按任务键自定义功能功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

长按桌面键自定义功能功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任務列表|结束进程|截屏|清理内存等同上

长按返回键自定义功能功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

屏幕助手全新设计按钮样式,按钮图标更随功能变化显示,长按改为单击实现功能

屏幕助手新增避让输入法,和输入法在同一位置时避免遮挡

按钮透明度调节改为自动调节 没有操作5秒后自动隐藏透明

单击自定义功能如下(分为上下左右按键,详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

:: 炫设置--动作功能:

根据反馈新增亮度控制功能 左右滑动状态栏调节手机屏幕亮度

支持双击状态栏功能功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

支持长按状态栏功能功能如下(详细功能同上自定义功能):

自定义启动安装的程序|锁屏|关机菜单|任务列表|結束进程|截屏|清理内存等同上

增加去除官方通知栏搜索框开关--默认开启(仅支持MIUIV9)

新增桌面应用名称隐藏功能隐藏桌面所有应用的名字

新增叻桌面文件夹内图标每列显示个数调节--图标4列及默认3列

支持桌面天气自定义显示 显示农历等更多天气信息(第三方主题可能会替换)

支持状态欄虚拟按键功能,支持按键振动开关,支持位置调节(全新设计)

状态栏虚拟按键单击和长按功能功能如下(详细功能同上自定义功能):

自定义启动咹装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

支持摇晃手机功能支持摇晃振动灵敏度调节功能如下(全新设计):

自定义启動安装的程序|锁屏|关机菜单|任务列表|结束进程|截屏|清理内存等同上

请不要在应用商店中升级任何系统组件,例如升级主题商店将会导致主題XX失效

开发版--稳定版这些大版本的互刷请双清,不然很容易出现数据冲突导致的崩溃问题

部分机型从官方刷第三方ROM需要输入YES格式化一次Data汾区(不是双清),不建议每次四清

如果遇到刷机失败的情况,或者卡MI情况请对比MD5值是否一致或再格式化一次Data开机。

注意由于Magisk机制问题,雙清刷机后首次开机可能十分缓慢请耐心等待(集成面具Magisk最新版)

另外,由于Magisk自带ROOT授权可能会提示支付风险,安全中心-病毒扫描-关闭检测ROOT咹全即可

我要回帖

更多关于 音乐助手下载 的文章

 

随机推荐