多通道端到端ASR
Project/Research, Xiaomi, AI lab, 2021
从0到1构建多通道ASR范式:构建大规模数据集、算法和评测集,对标谷歌、百度
成果丰富
小米集团百万美金技术大奖优秀奖、一篇论文以及三篇专利
Y. Kong, J. Wu, Q. Wang, P. Gao, W. Zhuang, Y. Wang, L. Xie, “Multi-Channel Automatic Speech Recognition Using Deep Complex Unet”, 2021 IEEE Spoken Language Technology Workshop (SLT), 2021, pp. 104-110.
一种单/多通道语音识别模型混合训练装置
一种适用于多通道远场语音识别的离线最优强制对齐装置
一种基于解码置信度的多通道数据增广装置
算法创新
提出降采样resnet结构、利用离线降噪单通道模型做teacher-student学习、信号波束空间、离线最优强制对齐、单多通道混合迁移学习同时优化单多通道模型,解决前后端联合优化问题
效果惊艳
构建解码器的模块,”多快准”,大幅超越传统前后端分开模型,语音识别错误减少20.2%