thchs30

以Kaldi的thchs30数据集为例，我们主要解析train_deltas.sh脚本中的相关源码。1. 需要的文件 alidir/final.mdl：单音素模型的最终GMM参数。$a...

数据准备：中文语音合成demo参考路径egsmandarin_voices1，使用thchs30_250数据集。对齐数据（如A11_0.lab文件）采用HTS标记格式，包含时间戳、音...

Pocketsphinx在Windows下中文识别准确率低在Windows环境下使用Pocketsphinx进行中文语音识别时，常出现识别准确率显著偏低的问题。主要原因包括：中文声学...

五,验证层:量化评估与ab测试基准测试集:采用thchs-30 +自建医疗问诊语料(200小时,含12类方言); 指标体系:wer(词错误率),ter(术语召回率)...

云从科技语音技术成果:在语音识别技术上,云从科技刷新中文语音识别数据集aishell的纪录,字错率降低到4.34%,较过去最好成绩降低8%;在语义纠错技术中,在aishell和清华大学语音thchs30测试...

清华TH语料库（THCHS-30语料库）简介：原清华TH语料库于1994年建成，后经过升级和更新，更名为THCHS-30语料库。总库采用分级管理原则，分为生语料和熟语料两大类。网址：...

清华TH语料库（THCHS-30语料库）链接：http://www.openslr.org/18 介绍：清华TH语料库于1994年建成，总库分为生语料和熟语料两大类。近年来不断...

(aishell、thchs-30)、小样本学习(fewclue)、情感分析(chnsenticorp)、命名实体识别(msra-ner、weibo-ner)、中文分词(pku、msr、ctb)、语义解析(dusql)、信息抽取(duie)、搜索匹配(...

在Aishell和清华大学语音Thchs30测试集上，将字错率第一遍WFST解码以及第二遍RNN重打分结果分别相对降低21.7%和10.3%。TCP/IP堆栈缺陷曝光：Forescout...

Whisper在中文转录中常缺失或误标标点，核心原因在于其训练数据与语言特性错配：模型约95%的训练文本为英文，中文标点（如顿号、书名号、引号配对...