远讲语音信号处理及其鲁棒语音识别

Research, Georgia Tech, Center for Signal and Image Processing, 2019

研究基于DNN的存在干扰人情况下的远讲语音分离、增强、去混响方法

算法创新

提出了利用阵列时间和空间信息的一种两阶段处理的多通道前端DNN结构

效果惊艳

仅采用5分钟目标干净语音训练,提出将能量归一化为对应干净语音能量,准确估计语音相位,结合后处理,显著提 高家居环境下1-5m距离内目标说话人的语音质量(提高PESQ 0.5,21%)和multi-condition training ASR的识别性能(降低词错误率WER63%),并提高了系统对说话人位置的鲁棒性