%0 Journal Article %A 吕坤儒 %A 吴春国 %A 梁艳春 %A 袁宇平 %A 任智敏 %A 周柚 %A 时小虎 %T 融合语言模型的端到端中文语音识别算法 %D 2021 %R 10.12263/DZXB.20201187 %J 电子学报 %P 2177-2185 %V 49 %N 11 %X

为了解决语音识别模型在识别中文语音时鲁棒性差,缺少语言建模能力而无法有效区分同音字或近音字的不足,本文提出了融合语言模型的端到端中文语音识别算法.算法建立了一个基于深度全序列卷积神经网络和联结时序分类的从语音到拼音的语音识别声学模型,并借鉴Transformer的编码模型,构建了从拼音到汉字的语言模型,之后通过设计语音帧分解模型将声学模型的输出和语言模型的输入相连接,克服了语言模型误差梯度无法传递给声学模型的难点,实现了声学模型和语言模型的联合训练.为验证本文方法,在实际数据集上进行了测试.实验结果表明,语言模型的引入将算法的字错误率降低了21%,端到端的联合训练算法起到了关键作用,其对算法的影响达到了43%.和已有5种主流算法进行比较的结果表明本文方法的误差明显低于其他5种对比模型,与结果最好的DeepSpeech2模型相比字错误率降低了28%.

%U https://www.ejournal.org.cn/CN/10.12263/DZXB.20201187