电子学报 ›› 2020, Vol. 48 ›› Issue (7): 1255-1260.DOI: 10.3969/j.issn.0372-2112.2020.07.002

• 学术论文 • 上一篇    下一篇

一种多尺度前向注意力模型的语音识别方法

唐海桃, 薛嘉宾, 韩纪庆   

  1. 哈尔滨工业大学计算机科学与技术学院, 黑龙江哈尔滨 150001
  • 收稿日期:2019-06-06 修回日期:2020-02-29 出版日期:2020-07-25 发布日期:2020-07-25
  • 通讯作者: 韩纪庆
  • 作者简介:唐海桃 男,1994年9月出生于四川省广安市.现为哈尔滨工业大学计算机科学与技术专业硕士研究生,主要研究方向为语音识别.E-mail:tanghaitao_ape@163.com;薛嘉宾 男,1993年7月出生于内蒙古自治区包头市.现为哈尔滨工业大学计算机科学与技术专业博士研究生,主要研究方向为语音识别.E-mail:xuejiabin@hit.edu.cn
  • 基金资助:
    国家重点研发项目(No.2017YFB1002102)

A Method of Multi-Scale Forward Attention Model for Speech Recognition

TANG Hai-tao, XUE Jia-bin, HAN Ji-qing   

  1. School of Computer Science and Technology, Harbin Institute of Technology, Harbin, Heilongjiang 150001, China
  • Received:2019-06-06 Revised:2020-02-29 Online:2020-07-25 Published:2020-07-25

摘要: 注意力模型是当前语音识别中的主流模型,然而其存在一个缺点,即当前时刻的注意力模型可能产生异常得分.为此,本文首先提出前向注意力模型,其采用上一时刻正常注意力得分平滑当前时刻异常得分.接着通过对上一时刻的注意力得分添加约束因子来对前向注意力模型进行优化,达到自适应平滑的目的.最后,在优化模型基础上提出多尺度前向注意力模型,其通过引入多尺度模型来对不同等级的语音基元进行建模,进而将所得到的不同等级目标向量进行融合,以达到解决注意力得分异常值的目的.采用SwitchBoard作为训练集,Hub5'00作为测试集进行实验,相比于基线系统,多尺度前向注意力模型的词错误率(Word Error Rate,WER)相对降低14.28%.

关键词: 前向注意力机制, 自适应平滑, 多尺度, 语音识别

Abstract: Attention-based model is a popular model in speech recognition,however it has a disadvantage that the attention-based model may produce abnormal scores.To solve this problem,this paper first proposes a forward attention model,which adopts normal attention score at the previous moment to smooth the abnormal score at the current moment.Then,the model is optimized to add constraint factors to the attention score at the previous moment to achieve the purpose of adaptive smoothing of the above abnormal scores.Then,a multi-scale forward attention model is proposed on the above model.This model introduces a multi-scale method to model the speech primitives of different levels,and then fuses the target vectors of different levels to solve the outliers of attention score.In the experiment,SwitchBoard is adopted as the training set and Hub5'00 as the test set.Compared with the baseline system,the Word Error Rate (WER) of the proposed system decreased by 14.28% relatively.

Key words: forward attention mechanism, adaptive smoothing, multi-scale, speech recognition

中图分类号: