电子学报 ›› 2018, Vol. 46 ›› Issue (4): 878-885.DOI: 10.3969/j.issn.0372-2112.2018.04.016

• 学术论文 • 上一篇    下一篇

基于长时信息的自适应话音激活检测

杨绪魁, 屈丹, 张文林, 闫红刚   

  1. 解放军信息工程大学, 河南郑州 450001
  • 收稿日期:2016-11-16 修回日期:2017-04-24 出版日期:2018-04-25 发布日期:2018-04-25
  • 作者简介:杨绪魁 男,1988年10月出生,福建光泽人.现为解放军信息工程大学在读博士研究生,研究方向为语音信号处理与识别、机器学习等.E-mail:gzyangxk@163.com;屈丹 女,1974年9月出生,吉林九台人,现为解放军信息工程大学信息系统工程副教授、博士生导师.主要研究方向为语音信号处理与识别、人工智能等;张文林 男,1982年11月出生,河北蕲春人.现为解放军信息工程大学信息系统工程学院讲师.主要研究方向语音信号处理与识别、人工智能等;闫红刚 男,1975年10月出生,河南驻马店人.现为解放军信息工程大学信息系统工程学院副教授.主要研究方向通信信号分析、语音处理与识别、机器学习等
  • 基金资助:
    国家自然科学基金(No.61673395,No.61403415);河南省自然科学基金(No.162300410331)

Adaptive Voice Activity Detection Based on Long-Term Information

YANG Xu-kui, QU Dan, ZHANG Wen-lin, YAN Hong-gang   

  1. PLA Information Engineering University, Zhengzhou, Henan 450001, China
  • Received:2016-11-16 Revised:2017-04-24 Online:2018-04-25 Published:2018-04-25

摘要: 语音信号的长时信息应用于话音激活检测中表现优越.利用三种听觉滤波器组,对语音信号进行非线性的谱分解,本文提出了六种基于听觉滤波器组的长时信息,并提出了基于长时信息的自适应话音激活检测算法.该算法无需训练数据,根据多种长时信息,直接在待测信号中挑选出类别明确的信号,然后利用这些信号训练分类模型,对待测信号按帧进行语音-非语音分类.在TIMIT语音库和NOISEX-92噪声库上的实验表明,该算法在极低信噪比环境下,仍表现出更高的准确性和更强的稳健性.同时,在线实验表明,算法在实时处理中仍能取得优异的性能.

关键词: 话音激活检测, 长时信息, 听觉滤波器, 自适应

Abstract: The long-term information of speech signals shows excellent performances in the applications of voice activity detection.Six types of long-term information based on auditory filter banks are proposed through the non-linear spectral decomposition with three different auditory filters.Further,an adaptive voice activity detection algorithm based on these types of long-term information is proposed.Without additional training data,this algorithm use the data selecting from the test signals according to long-term information to train a speech/non-speech classifier,and classifies the current test signals using the speech/non-speech classifier frame by frame.Experiments on TIMIT dataset and NOISEX-92 dataset show that the algorithm improves the performance of VAD with higher accuracy and stronger robustness in low SNR noisy environments.The online experiments show that it can also obtain a good performance in real-time processing conditions.

Key words: voice activity detection, long-term information, auditory filter bank, adaptive

中图分类号: