百度DMA+小度App的蓝牙语音解决方案技术难点解析

摘要:
在DMA长记录中,只有两种常见的音频编解码器:SBC和OPOS。Opus是一种开源编码和解码技术,在压缩比、抗抖动性能和音质降低方面在当前同类音频编解码器中是独一无二的。蓝牙双模支持DMA语音,尽管spp和ble都可以使用。许多公司使用两个以上的主芯片来实现DMA+小规模解决方案。他们的语音识别技术特别好,也被广泛开发给第三方制造商。

前记

  你平时在商场看到的语音助手,看起来非常的简单,其实,这个小小语音助手的背后,是一个非常的复杂的技术支撑。从前端到后端的技术依次是:前端语音降噪技术,高效的音频编解码技术,蓝牙双模技术,DMA协议移植技术。手机侧音频编解码技术,降噪技术,语音识别技术。丰富的娱乐和使用资源(地图,音乐,音频等)。整个流程下来,是一个复杂的工程。想把整个产业链玩起来,真不是一个公司能够玩起来的,需要的是产业上很多公司的共同努力。

终端设备的难点

  • 前端降噪技术
     前端降噪技术,这里面一般是软件算法实现的,一般包括,单麦克,双麦克,多麦克降噪算法,消回声算法,AGC算法等。这三个的使用是一个配合的过程。具体设置什么参数,怎么适配,这个跟产品的特性是强相关的。有这方面疑问的同学可以多多交流。

百度DMA+小度App的蓝牙语音解决方案技术难点解析第1张

  • 音频编码技术
     由于蓝牙spp和ble的带宽都无法传输没有压缩的音频,还有就是无法对无线传输的质量做一个比较高的保证。因此,音频传输一定需要编解码的。在DMA长录音中,音频编解码常用的只有两种:SBC和OPOS。由于SBC是比较老的编解码算法,无论压缩比还是压缩质量,都无法和opus相比,所以,想要你的语音助手听的清楚,目前主流的都是opus编码。opus是一个开源的编解码技术,它无论是压缩比,抗抖动性能,还是音质的还原度,都是在目前的同类音频编解码中绝无仅有的。

百度DMA+小度App的蓝牙语音解决方案技术难点解析第2张

 opus唯一的不足之处就是消耗的MIPS比较高,假如你想把它移植到耳机或者类似耳机的小平台上,还是需要花费很多功夫的,很多芯片都是因为无法移植opus或者移植的opus无法优化,造成音频编解码效率特别低或者无法使用。这个当初我们也是摸索了好久,做了大量的算法优化才做的比较好的。

  • 蓝牙双模支持
     DMA语音这块,虽然是spp和ble都可以使用。假如你想在苹果上使用,只能使用ble,因为apple是不给第三方公司开发spp接口的。但是,假如你想在android上使用ble的话,由于android厂商太分散,每家做的ble都差距很大,会造成很多兼容性问题。这个也就是为什么目前主流的方案都是 android + spp apple +ble的模式,这个就要求你的芯片支持蓝牙和ble双模了。目前的绝大多数耳机芯片,双模支持的比较好的的确很少。这点我们也走了不少弯路,才后面找到了一个合适的芯片来做个这个东西。
  • 低成本的技术
     做产品呢,都是为了赚钱。所以,成本是广大设备商首先考虑的重点。为了能够做DMA+小度的方案,很多公司使用了两颗以上的主芯片。成本就需要5美金以上,这个价格就决定了产品无法大范围的商用。基于此,我们把所有的东西都放到了一个芯片中,一个产品一个芯片搞定,这个极大的降低了成本。不过,也是花费了很多精力的。毕竟,把所有的东西放到一个芯片中,这个对软件工程师的水平是一个极大的考验。

后台app的技术难点

  • 高效的语音识别技术
     前面的所有一切的努力,最后都是为了进行语音识别。国内做语音识别的厂家很多,为什么我们选择百度呢?主要有几个原因,百度是ai这块国内投入最大,投入最早,商用范围最广的互联网公司。他们的语音识别技术做的特别好,并且还广泛开发给第三方厂家。所以说,选择百度。也是我们经过很多实际考察做出的选择。后来等产品做出来了,也证明了我们的选择当初是对的。

  • 广泛的消费内容
     语音识别技术,假如没有后面的内容作支撑,只是客户问几个小问题的话,估计没啥吸引力了。所以,app的内容多少是该产品成败的关键。百度在这块可以说是下了血本的。地图,音乐,有声读物,基本上把主流的厂商都签了合同的。可以调用QQ音乐,可以调用喜马拉雅等。这些资源,真不是一般厂商能够调动的。

免责声明:文章转载自《百度DMA+小度App的蓝牙语音解决方案技术难点解析》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇不可错过的javascript迷你库GJK碰撞检测算法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

蓝牙(Bluetooth)基本介绍(转载)

 •蓝牙(Bluetooth)是一种短距离的无线数据与语音通信的开放性全球规范。 –蓝牙技术能为个人和商业的移动设备的无线连接带来一次革命,它不需要电缆,能通过短距离的无线链路使得用户将多种设备方便快速连接起来进行无缝的语音和数据通信。 –蓝牙区别于其它无线技术的一个典型特征是它能基于各设备各自的功能提供“联合使用模型”。 –通过数据访问点DAP,蓝牙还可...

Android蓝牙操作笔记

蓝牙是一种支持设备短距离传输数据的无线技术。android在2.0以后提供了这方面的支持。 从查找蓝牙设备到能够相互通信要经过几个基本步骤(本机做为服务器): 1.设置权限 在manifest中配置  Xml代码   <uses-permission android:name="android.permission.BLUETOOTH"/>...

SDRAM基础知识

SDRAM介绍 SDRAM(Synchronous Dynamic Random Access Memory),同步动态随机存储器。同步是指 Memory工作需要同步时钟,内部的命令的发送与数据的传输都以它为基准;动态是指存储阵列需要不断的刷新来保证存储的数据不丢失,因为SDRAM中存储数据是通过电容来工作的,大家知道电容在自然放置状态是会有放电的,如果电...

如何在嵌入式Linux上开发一个语音通信解决方案

开发一个语音通信解决方案是一个软件项目。既然是软件项目,就要有相应的计划:有多少功能,安排多少软件工程师去做,这些工程师在这一领域的经验如何,是否需要培训,要多长时间做完,中间有几个主要的milestone等。我们曾经四个人花了近一年时间开发了一个语音解决方案,成功通过验收,各项关键指标(语音质量、单向时延)均达到运营商要求。当时是在芯片公司,在公司自己的...

基于.NET Core winform的录音、字幕软件HTWCore的技术总结

  HTWCore是一款基于.NET Core的winform客户端程序,可以用来处理各种会议,记录,讲座,讲课等等来源的音视频,运用语音识别、视频内容提取等技术整理成word文档。项目中运用了以下技术:   基于.NET Core,因此是一款跨平台程序,可用于windows平台各个版本,将来会适配linux、mac等平台。将程序打包成单个文件,免于安装...

高斯键盘设置指南

高斯键盘设置指南 蓝牙模式 如何打开蓝牙模式 供电 : 蓝牙工作需要供电, 给高斯 GS87-D 供电有两种方式: 键盘背后的开关打到ON; 使用 USB Type-C 电源. 切换模式: 有线和无线模式切换键是 Fn+P 按下 Fn+P 右上角键盘灯闪烁 3 次, 有线模式和蓝牙模式互相切换. 但比较坑的是并没有指示灯表示当前处于有线模式还是蓝...