郑艺斌:中国科学院自动化研究所模式识别国家重点实验室14级直博生。目前研究兴趣为语音合成。博士期间在Interspeech, ICSP, ISCSLP等会议上发表十余篇论文。曾获博士生国家奖学金。
报告题目:End-to-End Speech Synthesis
报告摘要:如何使人机交互中机器的声音更具情感和表现力一直是一个重要的研究热点。不同于传统pipeline式的语音合成系统,端到端的语音合成方法凭借简练的模型结构,突出的性能获得了越来越多的关注,其中以WaveNet, tacotron, tacotron2等最为著名。
Spotlight:
传统语音合成方法简介;
基于注意力机制的序列模型;
神经声码器。
1. WAVENET:A GENERATIVE MODEL FOR RAW AUDIO
推荐理由:这篇文章可以看做是端到端语音合成的开山之作,文章提出了一个深度圣经网络模型,直接生成原始的音频波形。
2. TACOTRON:TOWARDS END-TO-END SPEECH SYNTHESIS
推荐理由:不同于WaveNet结构,tacotron主要采用的结构为基于encoder-decoder的Seq2Seq的结构来是将文本转化为语音。其中还引入了注意机制(attention mechanism)。Tacotron在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。
3. NATURAL TTS SYNTHESIS BY CONDITIONING WAVENET ON MEL SPECTROGRAM
推荐理由:谷歌推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。