基于.NET Core winform的录音、字幕软件HTWCore的技术总结

摘要:
HTWCore是一个基于.NETCore的winform客户端程序,可用于处理来自各种来源的音频和视频,如会议、记录、讲座、讲座等,并使用语音识别、视频内容提取和其他技术将其整理成word文档。项目中使用了以下技术:基于.NETCore,它是一个跨平台程序,可以在Windows平台的各种版本中使用。未来它将适应Linux、Mac和其他平台。使用音频分割、音量处理、音频和视频解码、转码、音频和图像降噪、视频帧提取和其他音频和视频处理技术。语音识别期间记录的每个单词的时间代码可用于生成SRT文件和添加字幕文件。

  HTWCore是一款基于.NET Core的winform客户端程序,可以用来处理各种会议,记录,讲座,讲课等等来源的音视频,运用语音识别、视频内容提取等技术整理成word文档。项目中运用了以下技术:

  •   基于.NET Core,因此是一款跨平台程序,可用于windows平台各个版本,将来会适配linux、mac等平台。将程序打包成单个文件,免于安装,性能比较高。
  •        使用了音频切分,音量处理,音视频解码、转码,音视频降噪,视频帧提取等音视频处理技术。
  •        运用了当前领先的语音识别技术,可识别会议,记录,讲座等等场景的音频。
  •        利用声纹识别技术区分录音中人物角色,整理出自然、易读的文档。
  •        语音识别过程中记录每个单词的时间码,可用于生成SRT文件,添加字幕文件。
  •        使用了文本分析、自然语言处理技术,处理词类型,自然的添加标点符号。
  •        视频内嵌字幕提取首先将视频帧分离出包含成有效文本的图片,然后用基于SSIM(结构相似性,是一种衡量两幅图像相似度的指标)的算法比较两种图片的相似度,去掉相似度高的图片,提高性能。
  •       将视频帧OCR,能处理各种自然场景的含有文本图片,可以是中文、英文、日语、韩语等,也可以是双语文本,双语提取结果分行显示。
  •       对内容文字运用文本相似度算法,有效去重。
  •       将处理结果导出为常用的文本处理软件word,自动换行,缩进等,文档内容易读。

  HTWCore效果如下:

  1. 基于.NET Core winform的录音、字幕软件HTWCore的技术总结第1张

     将音视频文件拖入文本框。

  2. 可直接识别,或者可以对音视频做处理。   基于.NET Core winform的录音、字幕软件HTWCore的技术总结第2张
  3. 点击"Word"按钮,后进度提示。基于.NET Core winform的录音、字幕软件HTWCore的技术总结第3张
  4. 处理的结果生成的word文档在音视频的同目录下,1小时的音频只需要不到10分钟可出结果。基于.NET Core winform的录音、字幕软件HTWCore的技术总结第4张

    语音质量好的识别正确率在95%以上。

  5.    内嵌字幕,先截图框定范围。基于.NET Core winform的录音、字幕软件HTWCore的技术总结第5张

      左面的椭圆调整出现文本的帧,右边的滑块调整字幕范围。

  其余功能可直接使用,不一一说明了。

  HTWCore下载:

  链接:https://pan.baidu.com/s/1k4zjpMBbUf-Okczd6xUogQ 提取码:qs52 

  或者加QQ群:414750884

  基于.NET Core winform的录音、字幕软件HTWCore的技术总结第6张

  

免责声明:文章转载自《基于.NET Core winform的录音、字幕软件HTWCore的技术总结》仅用于学习参考。如对内容有疑问,请及时联系本站处理。

上篇win10 系统到期的解决方案Airtest断言方法下篇

宿迁高防,2C2G15M,22元/月;香港BGP,2C5G5M,25元/月 雨云优惠码:MjYwNzM=

相关文章

科大讯飞语音识别

科大讯飞语音识别 随着当今社会的高速发展,我们所使用的产品也向着遍历和智能的方面发展着,当然了手机端的App也不例外。现在的App都在缩减用户操作的流程,优化用户的体验,为了更加便利用户。提高用户的DAU(日活),增加用户的粘性一般我们都会想出比较新颖的招式。 如果现在有这样一个需求:用户需求:用户需要绑定银行卡输入银行卡号,手动输入增加用户的操作度,所以...

[转]几个常见的语音交互平台的简介和比较

1.概述 最近做了两个与语音识别相关的项目,两个项目的主要任务虽然都是语音识别,或者更确切的说是关键字识别,但开发的平台不同, 一个是windows下的,另一个是android平台的,于是也就选用了不同的语音识别平台,前者选的是微软的Speech API开发的,后者则选用 的是CMU的pocketsphinx,本文主要将一些常见的语音交互平台进行简单的介绍...

一、STM32简介、选型及其目标

STM32简介 STM32系列是由意法半导体公司推出的ARM Cortex-M内核单片机,从字面上来看,ST为意法半导体公司的缩写,M是Microcontrollers即单片机的缩写,32代表32位 芯片系列 STM32系列芯片分类 STM32后缀的型号说明 模块准备 STM8S103F3P6 STM8S芯片,20引脚,8KB闪存,TSSOP封装,工...

ISD9160学习笔记05_ISD9160语音识别代码分析

前言 语音识别是特别酷的功能,ISD9160的核心卖点就是这个语音识别,使用了Cybron VR 算法。 很好奇这颗10块钱以内的IC是如何实现人家百来块钱的方案。且听如下分析。 本文作者twowinter,转载请注明:http://blog.csdn.net/iotisan/ 功能分析 语音识别例程中做了21条语音识别模型,只要识别到对应的语音,就从串...

百度ai 基于node 语音识别 音频文件类型转换

百度ai 基于node 语音识别 音频文件类型转换 项目简介 源代码移步:https://github.com/xuess/ai-baidu-node 本项目主要功能为,本地音频语音识别和文件类型转换(利用fluent-ffmpeg) config.js 里面的应用Id,请替换成自己在百度应用里申请的。出于测试方便,我就不删除了。 1.工程依赖安装,如...

NLP入门之语音模型原理

这一篇文章其实是参考了很多篇文章之后写出的一篇对于语言模型的一篇科普文,目的是希望大家可以对于语言模型有着更好地理解,从而在接下来的NLP学习中可以更顺利的学习. 1:传统的语音识别方法: 这里我们讲解一下是如何将声音变成文字,如果有兴趣的同学,我们可以深入的研究. 首先我们知道声音其实是一种波,常见的MP3等都是压缩的格式,必须要转化成非压缩的纯...