远讲语音信号处理及其鲁棒语音识别

Research, Georgia Tech, Center for Signal and Image Processing, 2019

研究基于DNN的存在干扰人情况下的远讲语音分离、增强、去混响方法

算法创新

提出了利用阵列时间和空间信息的一种两阶段处理的多通道前端DNN结构

效果惊艳

仅采用5分钟目标干净语音训练，提出将能量归一化为对应干净语音能量，准确估计语音相位，结合后处理，显著提高家居环境下1-5m距离内目标说话人的语音质量（提高PESQ 0.5，21%）和multi-condition training ASR的识别性能（降低词错误率WER63%），并提高了系统对说话人位置的鲁棒性

Share on

Twitter Facebook LinkedIn

Quandong Wang (王全东)

算法创新

效果惊艳

Share on