曹瑞升:上海交通大学计算机博士在读,主要研究方向为自然语言理解中的语义解析,目前已在ACL会议和TASLP期刊累计发表4篇文章。
报告题目:混合局部和全局关系的线图增强文本转SQL模型
报告摘要:该工作旨在解决文本转SQL任务中棘手的异构图编码问题。为此,我们提出了线图增强模型(Line Graph Enhanced Text-to-SQL, LGESQL)来挖掘潜在的关系特征,而且不需要显示地构造元路径。利用线图,信息不仅通过节点之间的连接传播,还能通过有向边之间的拓扑结构传播。同时,节点间的局部和非局部关系在图迭代更新时被区分地整合到一起。在跨域基准数据集Spider上,在不同词向量的设定下,我们都取得了榜单第一名,进一步地验证了该模型的有效性。
论文标题:LGESQL: Line Graph Enhanced Text-to-SQL Model with Mixed Local and Non-Local Relations
分享亮点:
1、本文针对异构图编码问题,利用线图显式地对边的特征迭代更新;
2、模型中显式地区分节点之间的局部和非局部关系,并且有效地整合到一起。
推荐经典论文:
1. A Syntactic Neural Model for General-Purpose Code Generation
2017年ACL该论文针对语义解析领域的受限解码问题(结构化输出有严格的语法和语义限制),基于语法来解码,先生成目标程序的语法树,再通过后处理转化。我个人非常喜欢这项工作,它提出了一个完整普适的端到端语法转导框架。
2. Towards Complex Text-to-SQL in Cross-Domain Database with Intermediate Representation
2019年ACL该论文提出IRNet模型,基于语法进行解码,先生成一种中间语义表示SemQL,再通过后处理转化成SQL,是后续很多工作的解码器基准。
3. RAT-SQL: Relation-Aware Schema Encoding and Linking for Text-to-SQL Parsers
2020年ACL该论文首次将关系图注意力网络模型自适应地用于Text-to-SQL领域,在基准数据集上取得了非常显著的提升,是后续很多工作的编码器基准。
推荐最新进展:
4. TaBERT: Pretraining for Joint Understanding of Textual and Tabular Data
2020年ACL该论文着重于文本和表格数据的联合预训练,结合表格的特性,提出纵向注意力计算和横向注意力计算两种模式,以及诸多针对性的自监督任务。
5. Towards Robustness of Text-to-SQL Models against Synonym Substitution
2021年ACL该论文指出目前文本转SQL任务的潜在风险,用户问句和表名/列名的重合度较高,并对基准数据集重新标注,刻意转述或用近义词替换原始问句中包含的表名和列名,性能显著下降,并针对性提出两种解决方案。
6. PICARD: Parsing Incrementally for Constrained Auto-Regressive Decoding from Language Models
2021年EMNLP该论文使用基于符号的端到端模型直接生成SQL序列,仅仅在解码时每一步加以限制约束,就能生成语法和语义合理的输出。