多通道端到端ASR

Project/Research, Xiaomi, AI lab, 2021

从0到1构建多通道ASR范式:构建大规模数据集、算法和评测集,对标谷歌、百度

成果丰富

小米集团百万美金技术大奖优秀奖、一篇论文以及三篇专利

Y. Kong, J. Wu, Q. Wang, P. Gao, W. Zhuang, Y. Wang, L. Xie, “Multi-Channel Automatic Speech Recognition Using Deep Complex Unet”, 2021 IEEE Spoken Language Technology Workshop (SLT), 2021, pp. 104-110.

  • 一种单/多通道语音识别模型混合训练装置

  • 一种适用于多通道远场语音识别的离线最优强制对齐装置

  • 一种基于解码置信度的多通道数据增广装置

算法创新

提出降采样resnet结构、利用离线降噪单通道模型做teacher-student学习、信号波束空间、离线最优强制对齐、单多通道混合迁移学习同时优化单多通道模型,解决前后端联合优化问题

效果惊艳

构建解码器的模块,”多快准”,大幅超越传统前后端分开模型,语音识别错误减少20.2%