WebRTC APM音频处理流程概述

摘要:
本文主要介绍WebRTC的APM。但这对言语有害。一些具有工频干扰的设备需要高通滤波器。它用于编码和解码以及随后的相关处理。APM分为两个流,近端流和远端流。far_结束流代码:intAudioProcessingImpl::AnalyzerReverseStreamLocked(){AudioBuffer*ra=render_auditio_.get();//为简洁起见,如果{//Splittowandhighband.WebRtcSpli_AnalysisQMF;}}返回错误;返回错误;返回错误;returnkNoError;}从上面的代码可以看出,远端在获取数据后主要有四个步骤进行处理。

本文主要介绍WebRTC的APM。

现在主要介绍一下audio_processing.h。

首先插入了几个类,这些都是audio_processing的核心模块。


class AudioFrame;  
class EchoCancellation;  
class EchoControlMobile;  
class GainControl;  
class HighPassFilter;  
class LevelEstimator;  
class NoiseSuppression;  
class VoiceDetection;  

AudioFrame:主要记录了通道基本信息,数据,VAD标志时间戳,采样频率,信道数等。

EchoCancellation:回声消除模块(AEC),在使用外置扬声器的时候应该使用,有些使用耳麦通讯的情况也会存在回声(因为麦克风与扬声器有空间或者电的弱耦合),如果影响了通话也应该开启。

EchoControlMobile:回声抑制模块(AES),这个模块和回声消除模块功能相似,但是实现方法不一样。运算量远远小于回声消除模块。非常适合移动平台使用。但是对语音损伤大。

GainControl:增益控制模块(AGC),这个模块使用了语音的特征对系统硬件音量和输出的信号大小进行调节。硬件上可以控制输入音量。软件上只能调节原来信号的幅度,如果对原来就已经破音的信号,或者本来输入就比较小的信号就无能为力了。


HighPassFilter:高通滤波器,抑制不需要的低频信号。可以根据需要修改参数选择相应的截止频率。对于某些有工频干扰的设备需要使用高通滤波器。

LevelEstimator:估计信号的能量值。

NoiseSuppression:噪声抑制模块(NS/SE),该模块一般应用在有环境噪声的情况,或者是麦克风采集到的数据有明显噪声的情况。

VoiceDetection:语音激活检测模块(VAD),该模块用于检测语音是否出现。用于编解码以及后续相关处理。


APM分为两个流,一个近端流,一个远端流。近端(Near-end)流是指从麦克风进入的数据;远端(Far-end)流是指接收到的数据。现在分别介绍一下,这部分代码在audio_processing_impl.cc里。

far_end流代码:

int AudioProcessingImpl::AnalyzeReverseStreamLocked() {
  AudioBuffer* ra = render_audio_.get();  // For brevity.
  if (rev_proc_format_.rate() == kSampleRate32kHz) {
    for (int i = 0; i < rev_proc_format_.num_channels(); i++) {
      // Split into low and high band.
      WebRtcSpl_AnalysisQMF(ra->data(i),
                            ra->samples_per_channel(),
                            ra->low_pass_split_data(i),
                            ra->high_pass_split_data(i),
                            ra->filter_states(i)->analysis_filter_state1,
                            ra->filter_states(i)->analysis_filter_state2);
    }
  }
  RETURN_ON_ERR(echo_cancellation_->ProcessRenderAudio(ra));
  RETURN_ON_ERR(echo_control_mobile_->ProcessRenderAudio(ra));
  RETURN_ON_ERR(gain_control_->ProcessRenderAudio(ra));
  return kNoError;
}
上述代码可以看出far-end获得数据后主要有4个步骤的处理。

1、判断是否是32k信号,采取相应的分频策略;

2、AEC流程,记录AEC中的far-end及其相关运算;

3、AES流程,记录AES中的far-end及其相关运算;

4、AGC流程,计算far-end及其相关特征。



near-end流代码:

int AudioProcessingImpl::ProcessStreamLocked() {
#ifdef WEBRTC_AUDIOPROC_DEBUG_DUMP
  if (debug_file_->Open()) {
    audioproc::Stream* msg = event_msg_->mutable_stream();
    msg->set_delay(stream_delay_ms_);
    msg->set_drift(echo_cancellation_->stream_drift_samples());
    msg->set_level(gain_control_->stream_analog_level());
    msg->set_keypress(key_pressed_);
  }
#endif
  AudioBuffer* ca = capture_audio_.get();  // For brevity.
  bool data_processed = is_data_processed();
  if (analysis_needed(data_processed)) {
    for (int i = 0; i < fwd_proc_format_.num_channels(); i++) {
      // Split into a low and high band.
      WebRtcSpl_AnalysisQMF(ca->data(i),
                            ca->samples_per_channel(),
                            ca->low_pass_split_data(i),
                            ca->high_pass_split_data(i),
                            ca->filter_states(i)->analysis_filter_state1,
                            ca->filter_states(i)->analysis_filter_state2);
    }
  }
  RETURN_ON_ERR(high_pass_filter_->ProcessCaptureAudio(ca));
  RETURN_ON_ERR(gain_control_->AnalyzeCaptureAudio(ca));
  RETURN_ON_ERR(echo_cancellation_->ProcessCaptureAudio(ca));
  if (echo_control_mobile_->is_enabled() && noise_suppression_->is_enabled()) {
    ca->CopyLowPassToReference();
  }
  RETURN_ON_ERR(noise_suppression_->ProcessCaptureAudio(ca));
  RETURN_ON_ERR(echo_control_mobile_->ProcessCaptureAudio(ca));
  RETURN_ON_ERR(voice_detection_->ProcessCaptureAudio(ca));
  RETURN_ON_ERR(gain_control_->ProcessCaptureAudio(ca));
  if (synthesis_needed(data_processed)) {
    for (int i = 0; i < fwd_proc_format_.num_channels(); i++) {
      // Recombine low and high bands.
      WebRtcSpl_SynthesisQMF(ca->low_pass_split_data(i),
                             ca->high_pass_split_data(i),
                             ca->samples_per_split_channel(),
                             ca->data(i),
                             ca->filter_states(i)->synthesis_filter_state1,
                             ca->filter_states(i)->synthesis_filter_state2);
    }
  }
  // The level estimator operates on the recombined data.
  RETURN_ON_ERR(level_estimator_->ProcessStream(ca));
  was_stream_delay_set_ = false;
  return kNoError;
}

其中包括七个步骤:1、分频;2、高通滤波;3、硬件音量控制;4、AEC;5、NS;6、AES;7、VAD;8、AGC;9、综合。

可见near-end的处理全面,流程清晰。可以根据实际需要打开不同的模块,适应不同场景的需要,对于一般通讯系统来说具有正面的改善效果。但是在实际工作中也发现了一些流程上隐患。另外就是该结构的各个模块处理相对独立耦合低,本来应该是一个优良的特性,然而在复杂情况的信号处理难以到达目标效果。由于低耦合造成的运算量浪费更加是无法避免的。


免责声明:文章转载自《WebRTC APM音频处理流程概述》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇计算机领域会议jqueryui + jsplubm 实现模块拖拽连线回显下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

webrtc 音频一点相关知识

采样频率:  44.1kHz ,它的意思是每秒取样44100次   。8kHz    8000次,  16kHz   160000次 比特率:  比特率是大家常听说的一个名词,数码录音一般使用16比特、20比特或24比特制作音乐。什么是“比特”?我们知道声音有轻有响,影响声音响度的物理要素是振幅,作为数码录音,必须也要能精确表示乐曲的轻响,所以一定要对波形...

iOS下WebRTC音视频通话(一)

在iOS下做IM功能时,难免都会涉及到音频通话和视频通话。QQ中的QQ电话和视频通话效果就非常好,但是如果你没有非常深厚的技术,也没有那么大的团队,很难做到QQ那么快速和稳定的通话效果。 但是利用WebRTC技术,即使一个人也能够实现效果不错的音视频通话。本篇介绍WebRTC的基础概念。 WebRTC介绍 WebRTC,名称源自网页实时通信(Web Re...

PeerJS 0.1.7:一个用于浏览器内P2P的WebRTC封装器

Michelle Bu与Eric Zhang在3月6日发布了PeerJS 0.1.7,它封装了WebRTC。后者是W3C倡议的旨在促进浏览器内P2P通信的一种技术。 尽管WebSocket的作用发展迅速,但PeerJS代表的是之前由服务器组织数据传输的方式有了根本性转变。 Bu说:“WebSocket和 WebRTC数据通道看起来一样——都支持二进制数据,...

记录webrtc在火狐浏览器上的不出流问题

目的:在两个浏览器之间通过信令服务器建立P2P连接,实现实时音视频通话。 过程:修改的是janus的例子,不过现在基本上没有janus的影子了。浏览器A建立ws连接信令服务器获取idA,B建立ws连接信令服务器获取idB,B发送携带idA的绑定指令。两端绑定,目前A发送给信令服务器的消息转发到B,B发送给信令服务器的消息转发给A。 接下来就是A和B之间发送...

Google WebRtc Android 使用详解(包括客户端和服务端代码)

转自:https://zhuanlan.zhihu.com/p/82446482 1、Google Webrtc介绍 WebRTC(Web Real-Time Communication)实现了基于网页的视频会议,标准是WHATWG 协议,目的是通过浏览器提供简单的javascript就可以达到实时通讯(Real-Time Communications (...

基于 WebRTC 的 RTSP 视频实时预览

简介 背景 由于项目需要,需要使用摄像头预览功能,设备型号为海康威视。目前已存在的基于 FFmpeg 的方案延迟都太高,所以项目最终选择基于此方案。 方案 方案选用为基于 WebRTC 的视频即时通讯,它原生支持对 RTP 协议的解码,所以能够做到延迟很低,大概0.2-0.4秒左右,其他方案都有大于1秒的延迟。 WebRTC对浏览器有要求,可以在下面的地...