春节假期结束,又有一批一批的人踏上了外出工作的奋斗之路,空间上的阻隔,降低了部分留在家乡的“老小组合”与打拼者之间的交流。萤石S10带屏摄像机的出现,解决了数码产品操作与网络要求更为复杂的问题,为消费者大大降低使用门槛,进一步促进亲情沟通的便利。

萤石S10双向视频通话摄像机操作便捷,支持4G无线流量,同时支持微信接听视频呼叫的功能,其采用ERTC(萤石实时音视频)技术,弱网下也能流畅通话。更多优化只为实现效果更佳的沟通体验。在视频通话的过程中,通话的流畅度和音频的质量是用户最直接的感受。

为了保障视频通话的效果,萤石在端到端的弱网传输效果和音频效果方面做了大量的优化工作。本文将从多角度阐析萤石实时音视频技术,而通过萤石开放平台,该服务也已在多行业实现了应用。开发者可以通过文末小助手联系我们,共同探寻RTC能力在千行百业的落地。

抗弱网能力

由于信号干扰、网络拥塞、网络设备故障等原因,生活中经常遇到网络不佳的情况,在这样的环境下视频通话,往往会出现卡顿、通话不连续或中断的情况,极大影响视频通话体验。为了避免以上问题,萤石自研了抗弱网方案,包括带宽估算、自适应编码、强制关键帧请求、丢包重启、前向纠错、平滑发送、抖动缓冲区等一系列算法,在丢包70%情况下能够流畅通话。

策略详解:

1)带宽估计(BandWidth Estimate)传统的带宽估算算法调控遵循乘性减加性增的规则,且在限宽场景下时延变化波动较大,会导致带宽估计值偏低,整体带宽利用率不高(50%左右)。萤石主要基于丢包趋势来做带宽估计,可以快速地探测出当前链路的可用带宽,且探测周期更短,带宽利用率可达80%以上。

2)自适应编码(Adaptive Coding)自适应编码策略主要是通过带宽估计来计算出当前最佳的音视频编码码率,动态调整编码器的编码参数。视频编码参数主要有码率、帧率和分辨率三个维度,具体的调整策略需要根据应用的场景和视频的内容来进行区分,主要有流畅优先和清晰度优先两种策略。

在S10视频通话场景中,为了保证视频的实时性,采用流畅优先逻辑,即保持帧率不降低,优先降码率,其次降分辨率。

3)强制关键帧请求视频流通常是以1个关键帧+ N个增量帧的方式发送,这些增量帧依赖于先前的帧进行解码和显示。

如果因为一些原因导致sps/pps 丢失、 组包错误等,如果不采取任何补救措施,就很难继续解码视频流,视频就会卡住, 直到下个关键帧。很多时候为了编码稳定GOP设置很大,这个时候意味着长时间卡顿或者黑屏。强制关键帧请求即通过向发送端请求发送关键帧,发送端收到请求后即刻编码出一个关键帧数据,避免接收端卡顿和黑屏的问题。

4)丢包重传丢包重传的目的是在丢包发生的时候,发送端能重新将丢失的数据发送给接收端。ERTC采用未到达确认(NACK)的方案,在接收端检测到丢包之后,主动向发送端请求重传的一种策略。在重传过程中,重传间隔和重传次数是两个重要的参数,间隔越小、次数越多抗弱网能力就越强,但是对端上的性能和带宽消耗就会越大。ERTC丢包重传算法采用自适应重传间隔,在同等延时情况下比传统算法减少50%以上的流量。

5)前向纠错(Forward Error Correction)FEC技术是在数据发送之前通过纠错编码进行数据冗余,在传输过程中出现丢包或延迟的情况下,接收端能通过这些冗余数据进行数据纠错恢复。FEC算法的好处就是能够增加冗余信息,提前纠正数据传输的错漏信息,减少端到端延时。但缺点就是会增加带宽的消耗,在限宽场景下反而会导致拥塞加剧。

萤石ERTC采用自适应前向纠错算法,通过网络质量检测来判断当前网络是否适合开启前向纠错,且应该加入多少比例的冗余数据,这样既能节省带宽消耗,也能适应不同的网络环境。

6)平滑发送(Paced Sender)平滑发送策略的目的是在数据量波动较大的情况下,对数据进行平滑处理,使数据均匀发送。

其主要的作用:减少网络拥塞、提高带宽利用率和改善实时音视频体验。平滑发送的码率值来源就是带宽估计的值,准确的带宽估计有利于数据及时均匀的发送出去;但平滑发送的缺点就是会增大数据的延时,带宽估计不准确可能会带来更多的延时。因此萤石ERTC的平滑发送算法会参考发送码率和接收码率进行综合评估,并对重传数据和FEC数据进行单独限制,避免冗余数据挤占了正常数据的传输。

7)抖动缓冲区(Jitter Buffer)在网络存在丢包和抖动的情况下,接收的数据会存在乱序或者堆积现象,需要在解码之前进行缓存和排序处理,消除乱序和抖动问题。抖动缓冲区的大小直接影响音视频播放的延时和质量,缓冲区太大会导致音视频延时很大,缓冲区太小的话丢包和抖动严重就会导致音视频质量很差。

萤石ERTC的网络检测模块能够及时精确地统计网络数据的抖动情况,自适应调整抖动缓冲区大小,减少延时的同时能够有效缓解网络抖动带来的卡顿问题。

音频质量

在音视频通话中,音频的质量对通话的体验至关重要,而决定音频质量的最重要方面是音频的算法。音视频通话算法的通常处理流程如下图所示:在音频通信系统里,从麦克风收音到编码这一阶段所涉及的算法被称作上行算法,也就是发送端算法。

麦克风在接收音频信号后,首先会经过高通滤波环节,以此去除信号中可能存在的直流分量。紧接着进入回声消除步骤,旨在消除设备自身播放后残留的声音。随后,信号会通过降噪算法,去除周围环境产生的噪声。完成降噪后,利用自动增益控制算法,将接收到的语音信号幅度调整至适宜范围。

最后,运用编码算法对语音信号进行压缩处理,从而降低数据传输所需的带宽。上行算法中,回声消除(Acoustic Echo Cancellation),自适应降噪(Acoustic Noise Suppression),自动增益控制(Automatic Gain Control),这三个模块通常称为音频3A算法,是上行算法中的核心模块。从解码到扬声器播放这一过程所涉及的算法则被称为下行算法,即接收端算法。

从RTC服务获取码流后,先通过解码算法将音频还原。倘若网络状况不佳,可能出现丢包现象,此时丢包补偿算法便会发挥作用,对丢失的数据包进行音频补偿,最大程度降低丢包对音频质量的影响。在音频信号传至扬声器播放之前,还可进行音频均衡控制,通过调整声音的频率响应,优化扬声器播放出来的声音听感 。

1)SHC常见的音频处理难点与通用的智能终端,比如手机、电脑相比,智能摄像机由于结构、性能等方面的原因,在音频处理算法方面更复杂,难度更大,常见下的通话算法处理有以下几个难点:

a.低信噪比与手机不同,一般摄像机类产品往往需要具备远距离通话能力,即用户站在离设备3~5米,对面也能听清,此时信噪比往往比较低。

b.低信回比同样由于远距离通话要求,要让站在远处的用户听清扬声器的声音,音量通常是比较大的,且扬声器和麦克风通常距离在10厘米以内,而近端用户通常在3~5米外,这样就会造成极低的信回比。

c.低成本摄像机类产品由于售价的限制,往往会选用成本较低的声学器件,主要是扬声器,通常非线性失真较大,而且为了降低成本,隔音防振往往做得不到位,最终对于回声中的非线性成分会非常高。另外主处理器芯片成本也被严格控制,导致算力限制也会非常大。

2)萤石音频算法为了克服以上难点,萤石在音频处理方向持续进行投入,将最新的深度学习技术,落地到智能摄像机场景中,做出了领先行业的音频体验。

传统方案中,回声消除和降噪是独立的两个模块,萤石算法的改进主要集中在这两个模块。回声消除又分为线性处理部分和非线性处部分,线性处理通过线性滤波器自适应拟合回声路径,可有效去除线性部分回声,紧接着的非线性处理会去除残留回声。

常见的WebRTC回声消除方案,在信回比较低时,往往很难在不漏回声的情况下,做到双讲(即通话双方同时说话的情况)保留,所以市面上大部分SHC类产品,在手机端说话时,用户会看到SHC端的用户在那张嘴说话,而听不到对面的声音,这就是双讲抑制的具体现象。深度学习神经网络可有效模拟非线性系统,在回声消除的后处理场景尤为合适。

传统降噪往往只能去除环境中的平稳噪声,如空调声这类持续平稳的噪声,而对于一些非平稳噪声,如关门声,脚步声,敲击声通常无能为力。

深度学习网络可以对语音信号进行建模学习,能有效去除各类噪声。并且,残留的非线性回声也可以视为一种特殊的噪声,那么回声消除的非线性处理与降噪可合并为一个任务。

用深度学习降噪模型,解决低信噪比和低信会比两个问题。在有了性能优良的音频模型之后,还要解决音频深度学习模型如何落地到SHC主处理器芯片上。

SHC芯片一般CPU能力相对较弱,但是都会具备NPU,为图像检测类算法提供算力。图像检测类算法的算子往往较为简单,一般都为CNN模型。而音频类模型通常需要RNN类算子的支持,如lstm,gru等。目前部分芯片NPU已支持此类算子。

除了算子对于模型的限制外,音频处理的动态范围会比图像检测类算法大,并且音频处理为回归问题,比图像检测这种分类问题精度要求更高,在量化过程中,要关注不同层的量化精度,视情况进行模型调整。最终,萤石的深度学习音频3A方案,在萤石的SHC产品上完成落地,极大提升了视频通话场景体验。

下面是萤石新算法与传统算法的对比,音频的前10秒是近端单讲的状态,后面15秒,手机端开始说话,可以看到传统算法近端的语音开始出现丢字,听不清的情况,而萤石新算法可以很好地保留双讲。传统算法处理结果萤石新算法处理结果

能力开放

萤石ERTC技术在应用于萤石设备的同时,也已通过萤石开放平台服务于千行百业,为广大开发者提供对接能力。

凭借着兼容性好、稳定性佳、抗网络抖动性强和集成速度快等核心优势获得了开发者的认可,涵盖了远程问诊、办公协同、在线培训、远程招聘、视频客服、互动课堂、远程庭审、远程检验、智能家居等场景,为合作伙伴提供安全可信、功能丰富、接入轻松、部署灵活的服务,帮助快速落地各类项目。

免责声明:凡注明为其它来源的信息均转自其它平台,目的在于传递更多信息,并不代表本站观点及立场。若有侵权或异议请联系我们处理。

相关推荐