ISD9160学习笔记05_ISD9160语音识别代码分析

摘要:
前言语音识别是一个非常酷的功能。ISD9160的核心卖点是使用CyberVR算法的语音识别。我很好奇这款售价不到10元的IC如何实现百元的方案。听以下分析。本文作者,推特,转载时请注意:http://blog.csdn.net/iotisan/在功能分析语音识别程序中,建立了21个语音识别模型。一旦识别出相应的语音,则从串行端口输出相应型号的命令ID。具体的21个命令如下:完全打开模式

前言

语音识别是特别酷的功能,ISD9160的核心卖点就是这个语音识别,使用了Cybron VR 算法。 
很好奇这颗10块钱以内的IC是如何实现人家百来块钱的方案。且听如下分析。

本文作者twowinter,转载请注明:http://blog.csdn.net/iotisan/

功能分析

语音识别例程中做了21条语音识别模型,只要识别到对应的语音,就从串口输出对应模型的命令ID。

具体21条命令如下: 
全开模式 0 显示为1 
外出模式 1 显示为2 
房间开启 2 。。。 
房间关闭 3 
单灯变色 4 
多灯变色 5 
全部变色 6 
打开开关 7 
关闭开关 8 
打开插座 9 
关闭插座 10 
我要开灯 11 
我要关灯 12 
打开空调 13 
关闭空调 14 
温度升高 15 
温度降低 16 
打开电视 17 
关闭电视 18 
更换频道 19 
降低音量 20 
增加音量 21

代码分析

代码主循环的逻辑特别清晰,我把主干抽出来,方便大家理解。

int32_t DoVR_sep()
{
    Wave_StartRecord();
    CSpotter_Reset(hCSpotter);

    while (1) {
        nNumSample = Wave_GetSample(&lpsSample);

        if (CSpotter_AddSample(hCSpotter, lpsSample, nNumSample) == CSPOTTER_SUCCESS){
            nID = CSpotter_GetResult(hCSpotter);
            DrvUART_Write(UART_PORT0,&nID,1);       //confid 20150603
        }
        Wave_UnlockSample(&lpsSample);
    }
}

Wave_StartRecord开始录音,Wave_GetSample取出音频数据。 
CSpotter_AddSample进行语音识别,CSpotter_GetResult识别出语音命令ID,最后DrvUART_Write吐出ID。

如何修改自定义语音命令

原定计划是修改自定义语音命令,但是发现这块资料很少。对于如何实现语音识别的Cybron VR算法,这块是封装成库,具体是“CSpotterSDK16k24d.lib”。这部分底层核心不开放,是可以理解。但是在具体应用时,使用什么工具来产生具体的声音模型,却一直没能找到对应工具。

总结

可以看到ISD9160是可以实现本地一些预置的语音命令,基本上可以比的上一些几十块钱的模块。但是如何实现自定义的语音命令,还需要继续研究。

免责声明:文章转载自《ISD9160学习笔记05_ISD9160语音识别代码分析》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇selenium定位多个嵌套iframe匿名内部类的调用下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

自然语言处理中的分词问题总结

众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。本文转载自明略研究院的技术经理牟小峰老师讲授的语言处理中的分词问题。 如何界定分词   中文分词指的是将一个汉字序列切分成一个一个单独的词。分词就是将连续的字序列按照一定的规范重新...

自然语言处理入门 何晗 读书笔记 第1章 新手上路

第1章新手上路 自然语言处理是一门融合了计算机科学、人工智能以及语言学的交叉学科。这门学科研究的是如何通过机器学习等技术,让计算机学会处理人类语言,乃至实现终极目标----理解人类语言或人工智能。 自然语言处理这个术语没有被广泛的定义,注重语言学结构的学者喜欢使用计算语言学(CL),强调最终目的的学者更偏好自然语言理解(NLU)。 1.1自然语言与编程语言...

jieba gensim 相似度实现

博客引自:https://www.cnblogs.com//DragonFire/p/9220523.html 简单的问答已经实现了,那么问题也跟着出现了,我不能确定问题一定是"你叫什么名字",也有可能是"你是谁","你叫啥"之类的,这就引出了人工智能中的另一项技术: 自然语言处理(NLP) : 大概意思就是 让计算机明白一句话要表达的意思,NLP就相当...

神经机器翻译(NMT)相关资料整理

作者:zhbzz2007 出处:http://www.cnblogs.com/zhbzz2007 欢迎转载,也请保留这段声明。谢谢! 1 简介 自2013年提出了神经机器翻译系统之后,神经机器翻译系统取得了很大的进展。最近几年相关的论文,开源系统也是层出不穷。本文主要梳理了神经机器翻译入门、进阶所需要阅读的资料和论文,并提供了相关链接以及简单的介绍,以及总...

PyTorch实现Seq2Seq机器翻译

Seq2Seq简介 Seq2Seq由Encoder和Decoder组成,Encoder和Decoder又由RNN构成。Encoder负责将输入编码为一个向量。Decoder根据这个向量,和上一个时间步的预测结果作为输入,预测我们需要的内容。 Seq2Seq在训练阶段和预测阶段稍有差异。如果Decoder第一个预测预测的输出就错了,它会导致“蝴蝶效应“,影...

基于.NET Core winform的录音、字幕软件HTWCore的技术总结

  HTWCore是一款基于.NET Core的winform客户端程序,可以用来处理各种会议,记录,讲座,讲课等等来源的音视频,运用语音识别、视频内容提取等技术整理成word文档。项目中运用了以下技术:   基于.NET Core,因此是一款跨平台程序,可用于windows平台各个版本,将来会适配linux、mac等平台。将程序打包成单个文件,免于安装...