电子学报 ›› 2015, Vol. 43 ›› Issue (7): 1294-1299.DOI: 10.3969/j.issn.0372-2112.2015.07.007

• 学术论文 • 上一篇    下一篇

自动发音错误检测中基于最大化F1值准则的区分性特征补偿训练算法

黄浩1, 徐海华2, 王羡慧1, 吾守尔·斯拉木1   

  1. 1. 新疆大学信息科学与工程学院, 新疆乌鲁木齐 830046;
    2. 南洋理工大学Temasek实验室, 新加坡 639798
  • 收稿日期:2013-12-26 修回日期:2014-09-24 出版日期:2015-07-25
    • 作者简介:
    • 黄 浩 男,1976 年10月出生,新疆乌鲁木齐人,副教授.1999 年、2004 年和2008年分别在上海交通大学、新疆大学、上海交通大学获工学学士、硕士和博士学位.主要从事语音信号处理、自然语言处理与多媒体交互方面的研究工作. E-mail:hwanghao@gmail.com;徐海华 男,1975 年2月出生,湖北黄冈人.1998年、2005 年和2010年分别在哈尔滨理工大学、华中科技大学、上海交通大学获工学学士、硕士和博士学位.目前为新加坡南洋理工大学Temasek 实验室研究科学家.主要从事语音识别、关键词检索等方面的研究工作. E-mail:haihuaxu@ntu.edu.sg;王羡慧 男,1980 年5月出生,新疆泽普人,副教授.2004年、2011年分别在新疆大学和西安交通大学获工学学士和博士学位.主要从事人工智能与机器学习等方面的研究工作. E-mail:wisdom@xju.edu.cn;吾守尔·斯拉木 男,中国工程院院士,新疆大学信息科学与工程学院教授.主要研究方向为语音识别、语音合成、多语种信息处理. E-mail:wushour@xju.edu.cn
    • 基金资助:
    • 国家自然科学基金 (No.61365005,No.60965002)

Maximum F1-Score Criterion Based Discriminative Feature Compensation Training Algorithm for Automatic Mispronunciation Detection

HUANG Hao1, XU Hai-hua2, WANG Xian-hui1, Wushour Silamu1   

  1. 1. School of Information Science and Engineering, Xinjiang University, Urumqi, Xinjiang 830046, China;
    2. Temasek Laboratories, Nanyang Technological University, Singapore 639798
  • Received:2013-12-26 Revised:2014-09-24 Online:2015-07-25 Published:2015-07-25
    • Supported by:
    • National Natural Science Foundation of China (No.61365005, No.60965002)

摘要:

为提高自动发音错误检测性能,提出一种区分性特征补偿训练算法.该方法将高斯后验概率矢量经过线性变换后作为偏移量补偿至传统的谱特征.将经过正确度标注的语音数据库上的发音错误检测F1值的最大化作为变换参数的训练准则.推导了目标函数对变换参数的偏导数公式,并利用无约束参数优化例程L-BFGS更新变换参数.发音错误检测实验表明该方法能够有效增大训练和测试集的F1值.并且训练和测试集的精确度、召回率也都有明显提高.在特征优化的基础上进行模型参数训练,检错性能较单独的区分性特征训练、单独的区分性模型训练都有进一步改进.

关键词: 自动发音错误检测, F1值, 区分性训练, 特征, 计算机辅助语言学习

Abstract:

To improve the performance of automatic mispronunciation detection,a discriminative feature compensation training algorithm is proposed.The method is to train a matrix projecting from posteriors of Gaussians to a normal size feature space,and then to add the projected features to traditional spectral features.The matrix is trained according to maximum F1-score criterion,which aims at maximizing the empirical mispronunciation detection F1-score on the annotated speech database.Mispronunciation detection experiments have shown the method is effective in increasing F1-score,precision and recall on both the training data and evaluation data.It is also shown model parameter discriminative training on new features obtained further improvements over both model training and feature training.

Key words: automatic mispronunciation detection, F1-score, discriminative training, feature, computer-assisted language learning

中图分类号: