白烨:中国科学院自动化研究所博士生,本科毕业于中国农业大学。研究兴趣为语音识别、语言模型、语音关键词检测。
论文一:Learn Spelling from Teachers: Integrating Language Models into Sequence-to-Sequence Models
简介:现有端到端语音识别系统难以有效利用外部文本语料中的语言学知识,针对这一问题,我们提出采用知识迁移的方法,首先对大规模外部文本训练语言模型,然后将该语言模型中的知识迁移到端到端语音识别系统中。这种方法利用了外部语言模型提供词的先验分布软标签,并采用KL散度进行优化,使语音识别系统输出的分布与外部语言模型输出的分布接近,从而有效提高语音识别的准确率。

论文二:A Time Delay Neural Network with Shared WeightSelf-Attention for Small-Footprint Keyword Spotting
简介:语音关键词检测在智能家居、智能车载等场景中有着重要作用。面向终端设备的语音关键词检测对算法的时间复杂度和空间复杂度有着很高的要求。当前主流的基于残差神经网络的语音关键词检测,需要20万以上的参数,难以在终端设备上应用。 为了解决这一问题,我们提出基于共享权值自注意力机制和时延神经网络的轻量级语音关键词检测方法。该方法采用时延神经网络进行降采样,通过自注意力机制捕获时序相关性;并采用共享权值的方法,将自注意力机制中的多个矩阵共享,使其映射到相同的特征空间,从而进一步压缩了模型的尺寸。与目前的性能最好的基于残差神经网络的语音关键词检测模型相比,我们提出方法在识别准确率接近的前提下,模型大小仅为残差网络模型的1/20,有效降低了算法复杂度。

田正坤:中国科学院自动化研究所智能交互团队,直博二年级,目前主要研究兴趣集中在端到端语音识别以及低资源语音识别。
论文:Self-Attention Transducers for End-to-End Speech Recognition
简介:针对RNN-Transducer模型存在收敛速度慢、难以有效进行并行训练的问题,我们提出了一种Self-attention Transducer (SA-T)模型,主要在以下三个方面实现了改进:
(1)通过自注意力机制替代RNN进行建模,有效提高了模型训练的速度;
(2)为了使SA-T能够进行流式的语音识别和解码,进一步引入了Chunk-Flow机制,通过限制自注意力机制范围对局部依赖信息进行建模,并通过堆叠多层网络对长距离依赖信息进行建模;
(3)受CTC-CE联合优化启发,将交叉熵正则化引入到SA-T模型中,提出Path-Aware Regularization(PAR),通过先验知识引入一条可行的对齐路径,在训练过程中重点优化该路径。 经验证,上述改进有效提高了模型训练速度及识别效果。

范存航:博士研究生在读,现就读于中国科学院自动化研究所模式识别国家重点实验室,师从陶建华研究员。他的主要研究方向包括语音分离、语音增强、语音识别、语音信号处理、机器学习等。目前在包括INTERSPEECH、ISCSLP、APSIPA等语音相关领域国际顶级会议上发表多篇文章。曾获得第十九届全国信号处理学术会议优秀论文奖。
论文:Discrimination Learning for Monaural Speech Separation Using Deep Embedding Features
简介:语音分离又称为鸡尾酒会问题,其目标是从同时含有多个说话人的混合语音信号中分离出不同说话人的信号。当一段语音中同时含有多个说话人时,会严重影响语音识别和说话人识别的性能。 目前解决这一问题的两种主流方法分别是:深度聚类(DC, deep clustering)算法和排列不变性训练(PIT, permutation invariant training)准则算法。深度聚类算法在训练过程中不能以真实的干净语音作为目标,性能受限于k-means聚类算法;而PIT算法其输入特征区分性不足。针对DC和PIT算法的局限性,我们提出了基于区分性学习和深度嵌入式特征的语音分离方法。首先,利用DC提取一个具有区分性的深度嵌入式特征,然后将该特征输入到PIT算法中进行语音分离。同时,为了增大不同说话人之间的距离,减小相同说话人之间的距离,引入了区分性学习目标准则,进一步提升算法的性能。所提方法在WSJ0-2mix语音分离公开数据库上获得较大的性能提升。
