黄健:中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上发表多篇论文。曾获中国科学院大学三好学生称号。
报告题目:The introduction of speech emotion recognition
报告摘要:语音情感识别能够使人机交互更加和谐自然,近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种,传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展,深度神经网络也被成功地应用在了语音情感识别领域,主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型,而且其他领域的模型也有效地提升了语音情感识别的性能。
Spotlight:
1、有效地提取鲁棒的有效的情感特征;
2、基于时序上下文的情感建模;
3、自编码与CTC。
1. Towards Temporal Modelling of Categorical Speech Emotion Recognition
推荐理由:语音情感特征对于正确的语音情感识别具有重要的作用,因此学习到鲁棒的语音情感特征具有重要的作用。以前的研究利用无监督学习自编码器学习情感特征只是基于简单的重建损失进行训练,然后抽取中间层得到情感特征。然而这样可能会混杂其它的声学信息如语言等,无法提取有效的情感特征。在本文中,将中间层特征分为两个部分,其中一个表示情感特征、另一个表示非情感特征,并使二者正交来区分二者使之学习到的特征更为趋向于情感特征,并通过实验验证了所提方法的有效性。此外,这种思想还可以推广到其它需要提取鲁棒的特征但会混有其它信息的领域。
2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function
推荐理由:先前的研究已经有许多工作利用深度神经网络提取鲁棒的语音情感特征,主要有利用无监督学习自编码器及变体进行提取和利用大量语音数据预训练的神经网络进行提取。本文基于区分性学习的思路,学习鲁棒的语音情感特征使相同情感类别的距离减小,不同情感类别的距离增大。系统的输入包括两个同类别的样本和一个不同类别的样本,经过变长模块处理为等长输入,利用长短时记忆模型进行情感时序编码,生成有效的鲁棒的情感特征向量,训练目标包括区分性损失和监督交叉熵损失两个任务。
3. Semi-Supervised Autoencoders for Speech Emotion
推荐理由:语音情感识别是一个低资源的任务,情感数据量较小。本文提出利用半监督自编码器来提高语音情感识别的准确率。模型的训练包括无监督重建损失和监督分类损失,并且将无情感标签的语音样本单独分为一类,使模型能够充分利用无情感标签的数据进行训练,能够减小所需的情感数据样本,在不同的实验数据库上均表明所提方法的有效性。
4. TOWARDS LEARNING NUISANCE-FREE REPRESENTATIONS OF SPEECH
推荐理由:语音情感识别是一个多对一的问题,以前的解决方式是通过对每帧预测结果投票或者在特征层池化的方式解决。本文假设一句话的状态两种状态的链式结构,包括情感状态和非情感状态如静音、停顿等,利用语音识别中常用的CTC模型进行语音情感建模。实验结果表明,CTC模型能够有效地识别语音情感状态,并且将一些非情感表达时刻识别未非情感状态,并取得了良好的效果。