武楚涵:清华大学电子工程系博士生,主要研究方向为自然语言处理,用户建模和推荐系统,目前已在ACL、IJCAI、KDD、EMNLP、WSDM、NAACL和CIKM等学术会议上发表论文若干。
报告题目:基于可学习范数和注意力机制的文本表示池化方法
报告摘要:我们提出了一种基于可学习范数和注意力机制的池化方法,用于文本表示学习。不同于已有的使用固定范数的池化方法,我们提出以端到端的方式学习池化的范数,以自动在不同的任务中找到用于文本表示的最佳范数。此外,我们提出了两种方法来确保模型训练的数值稳定性。第一是幅度限制,它重新缩放输入以确保其非负性,并减轻指数爆炸的风险。第二是公式重整,用于分解幂指数运算,以避免计算输入特征的实数幂,并加速池化运算。在四个基准数据集上的实验结果表明,我们的方法可以有效地提高基于注意力机制的池化方法的性能。
Spotlight:
本文提出了一种基于可学习范数和注意力机制的文本表示池化方法;
本文提出了两种方法来保证模型训练的数值稳定性并提升池化速度;
本文提出的池化方法具有通用性,可以用于许多NLP领域的任务。
1. Convolutional Neural Networks for Sentence Classification
推荐理由:基于卷积神经网络和最大值池化的文本表示方法,是使用卷积神经网络作为文本特征抽取器的经典工作。
2. Hierarchical Attention Networks for Document Classification
推荐理由:一种基于层次化注意力机制的文本表示模型(HAN),是注意力机制在NLP领域的经典应用。
3. Learned-Norm Pooling for Deep Feedforward and Recurrent Neural Networks
推荐理由:一篇尝试设置不同范数进行特征池化的工作。与本文不同,该工作中的池化范数需要手动选取,而我们的方法则可以自动进行训练来寻找合适的范数。
4. Attention is not Explanation
推荐理由:一篇对注意力机制解释性的探讨,研究了注意力权重和特征重要性的关联,指出了基于注意力权重进行模型解释性分析的问题。
5. Attention is not not Explanation
推荐理由:对上一篇论文的一项反驳,质疑了上一篇论文中的部分假设,并进一步讨论了使用注意力权重解释RNN等模型的合理性。
6. Hierarchical User and Item Representation with Three-Tier Attention for Recommendation
推荐理由:一篇对层次化注意力机制的进一步扩展的工作。该工作在HAN的基础上提出增加了一级文档级别的注意力机制,从而形成了三级注意力机制,用于学习更好的用户和商品表示。