The introduction of speech emotion recognition

尚尚小助手

讲者介绍

黄健：中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM，ICASSP，Interspeech等会议上发表多篇论文。曾获中国科学院大学三好学生称号。

报告题目：The introduction of speech emotion recognition

报告摘要：语音情感识别能够使人机交互更加和谐自然，近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种，传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展，深度神经网络也被成功地应用在了语音情感识别领域，主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型，而且其他领域的模型也有效地提升了语音情感识别的性能。

Spotlight：

1、有效地提取鲁棒的有效的情感特征；

2、基于时序上下文的情感建模；

3、自编码与CTC。

论文推荐

1. Towards Temporal Modelling of Categorical Speech Emotion Recognition

推荐理由：语音情感特征对于正确的语音情感识别具有重要的作用，因此学习到鲁棒的语音情感特征具有重要的作用。以前的研究利用无监督学习自编码器学习情感特征只是基于简单的重建损失进行训练，然后抽取中间层得到情感特征。然而这样可能会混杂其它的声学信息如语言等，无法提取有效的情感特征。在本文中，将中间层特征分为两个部分，其中一个表示情感特征、另一个表示非情感特征，并使二者正交来区分二者使之学习到的特征更为趋向于情感特征，并通过实验验证了所提方法的有效性。此外，这种思想还可以推广到其它需要提取鲁棒的特征但会混有其它信息的领域。

2. Speech Emotion Recognition from Variable-Length Inputs with Triplet Loss Function

推荐理由：先前的研究已经有许多工作利用深度神经网络提取鲁棒的语音情感特征，主要有利用无监督学习自编码器及变体进行提取和利用大量语音数据预训练的神经网络进行提取。本文基于区分性学习的思路，学习鲁棒的语音情感特征使相同情感类别的距离减小，不同情感类别的距离增大。系统的输入包括两个同类别的样本和一个不同类别的样本，经过变长模块处理为等长输入，利用长短时记忆模型进行情感时序编码，生成有效的鲁棒的情感特征向量，训练目标包括区分性损失和监督交叉熵损失两个任务。

3. Semi-Supervised Autoencoders for Speech Emotion

推荐理由：语音情感识别是一个低资源的任务，情感数据量较小。本文提出利用半监督自编码器来提高语音情感识别的准确率。模型的训练包括无监督重建损失和监督分类损失，并且将无情感标签的语音样本单独分为一类，使模型能够充分利用无情感标签的数据进行训练，能够减小所需的情感数据样本，在不同的实验数据库上均表明所提方法的有效性。

4. TOWARDS LEARNING NUISANCE-FREE REPRESENTATIONS OF SPEECH

推荐理由：语音情感识别是一个多对一的问题，以前的解决方式是通过对每帧预测结果投票或者在特征层池化的方式解决。本文假设一句话的状态两种状态的链式结构，包括情感状态和非情感状态如静音、停顿等，利用语音识别中常用的CTC模型进行语音情感建模。实验结果表明，CTC模型能够有效地识别语音情感状态，并且将一些非情感表达时刻识别未非情感状态，并取得了良好的效果。

回放视频+推荐论文+讲者PPT 登录后获取查看地址

黄健

语音情感识别

导读

语音情感识别能够使人机交互更加和谐自然，近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种，传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展，深度神经网络也被成功地应用在了语音情感识别领域，主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型，而且其他领域的模型也有效地提升了语音情感识别的性能。

Introduction

语音情感识别是对音频进行情感分类。本文从语音情感识别的情感特征提取和情感模型构建两个方面进行说明，并介绍一些经典的方法和模型。

正文

情感是受外界刺激而产生的主观精神状态，往往伴随着复杂的心理和生理变化（皮电活动增加，心跳加快），并且会对自身的决策和行为（表情、言语和手势等行为）产生影响。因此，情感识别就是依据外在表现地生理信号和行为反应去量化、描述和识别人类情绪。在感知用户情绪的基础上，情感交互系统才能够尽可能像人一样适应用户的情绪并通过多种表达方式影响用户的情绪，有利于提高自然的人机情感交互水平。不同的研究者对于情感有不同的分类，但最常见的包括“高兴”、“伤心”、“生气”和“中性”这几类。情感识别系统主要包括情感特征提取和情感模型构建两个方面，情感识别的研究也是根据这两个方面展开的。

传统的语音情感特征包括韵律（基频、能量等）、频谱（MFCC、LPC等）和音质（jitter、shimmer等）三方面，有研究者专门不同的声学特征对于情感的影响，总结出了许多情感特征集如eGemaps。近来深度学习的发展，许多深度网络方法被用来提取鲁棒的语音情感特征。最典型的是利用无监督学习自编码器通过重建损失来获得有效的特征，并且还能降低特征维度。另外，降噪自编码器通过在输入数据加入一些噪声获得了更为鲁棒的特征。然而，这样提取的特征无法保证都是与情感相关的，因此有研究者将自编码器的中间隐含层部分分为两个部分，并假设一个是情感相关的另一个是情感无关的，重建输入是依据这两个部分的加权和。这样学习的特征可以去除掉一些情感无关的部分。近来，有研究者在此基础上让这两个部分正交以保证更好地区分情感部分和非情感部分，获得了更好的效果。此外，有研究者利用区分性训练使相同情感类别的距离更近，不同情感类别的距离更远已获得更具有可分性的情感特征，具体包括对比损失和三元损失等。

传统的情感模型如SVM能获得较好的性能，但是由于未能考虑到上下文关系，效果未能达到最优。LSTM模型能有对长时时序进行建模，目前是情感识别中使用的最多的模型。其它的一些能考虑时序的模型也在情感识别中获得了较好的性能。针对情感数据较少的特性，有研究者利用半监督学习组合无监督学习和监督学习的优点，能够融合无标签数据，提升在较小数据集上的性能。有研究利用CTC模型将情感识别的多对一问题转换成序列问题，假设一个空状态，并设定一段时长的情感状态是所标注的情感状态和空状态以马尔科夫链的形式存在，以CTC模型进行训练，测试时首先去除空状态，选择预测类别中最多的一类作为最终的预测类别。

情感识别主要包括情感特征提取和情感建模两个部分。随着深度学习的发展，这两个部分分别都被深度神经网络所替代以提取鲁棒可分的情感特征和时序的情感识别模型，并且也建立了端到端的情感识别模型，许多其它领域的模型也成功地应用在了情感识别方向。

版权声明

原创文章，禁止私自转载