乔峙:中国科学院信息工程研究所第三研究室在读硕士生,导师为周宇副研究员。2018年本科毕业于吉林大学。主要研究方向为场景文字检测与识别,曾在CVPR上发表一作论文。
报告题目:基于语义强化编码器解码器框架的场景文字识别方法
报告摘要:近年来,主流的场景文本识别方法大多基于注意力机制的编码器解码器框架,并取得了非常好的性能,能够处理任意形状的文本。但是对于一些如模糊,遮挡,有不完整字符的低质量文本图片,现有的方法依旧很难处理。我们认为这是由于基于注意力机制的方法会更加集中于局部特征,而忽略了图片中整个文本的全局信息,从而缺乏一个有效的引导。本次报告将介绍我们小组发表于CVPR2020上的工作,基于语义强化编码器解码器框架(Semantics Enhanced Encoder-Decoder Framework, SEED)的场景文字识别方法。在现有注意力机制的框架下,SEED通过预测一个全局的语义信息来指导解码过程,同时对全局语义信息进行有效的监督。我们将提出的框架应用到现有识别方法ASTER中,在目前公开的数据集上性能都有明显的提升。
Spotlight:
对目前将语义信息与文字方面任务结合的工作进行简述;
介绍语义强化的编码器解码器框架;
介绍提出的框架在现有识别方法ASTER上的应用。
何明航:华中科技大学电信学院在读硕士,VLR实验室成员,导师为白翔教授。主要研究兴趣包括文字检测和识别。曾在TPAMI,AAAI上发表论文。
报告题目:基于分割的文字识别方法
报告摘要:近年来由于深度学习的兴起和海量数据的驱动,场景文字识别领域取得了快速的发展,现在比较流行的文字识别的方法采用的是RNN attention的结构,取得显著的识别结果的同时这种结构也有一些缺点,比如在长文本,低质量的文本上容易出现attention的累计误差(attention drift),引起识别错误。最近出现了一种使用分割网络来做文字识别的方法,采用的模型很小而且易于训练,但是后处理过程中涉及到取阈值和找连通域的操作,在一些排列紧密,或者较模糊的文字区域容易造成漏字和多字,另外该网络需要字符级别的监督才能正常训练。
我们在AAAI-20的文章中提出了新的识别模型——TextScanner,同样以分割的方法为基础,在此之上加入了一个简单的排序分支,保证文字中的字符以正确的顺序读取,并大大减轻了上述的分割为基础的识别方法中漏字,多字的问题。除此之外,我们引入了一种新的机制——mutual supervision,使得TextScanner在合成数据上预训练之后,可以用弱监督的方式在没有字符级别监督的真实数据上继续训练。
Spotlight:
排序分支;
弱监督;
在各个数据集上都取得了state-of-the-art的结果;
对长文本,中文的识别有优势。
1. ASTER An Attentional Scene Text Recognizer
推荐理由:在解决任意形状文本识别问题中,ASTER是基于矫正方法中最经典的方法之一,在多个数据集上都取得了非常优秀的性能。
推荐理由来自:乔峙
2. [2019-AAAI] Show Attend and Read A Simpleand Strong Baseline for Irregular Text Recognition
推荐理由:基于二维注意力机制的识别方法也是处理任意形状文本有效的思路,SAR提出了一个简单有效的二维注意力机制的框架,取得了非常不错的性能。
推荐理由来自:乔峙
3. [2015-ICCV] LEWIS Latent Embeddings for Word Images and Their Semantics
4. [2018-ACCV] Visual Re-ranking with Natural Language Understanding for Text Spotting
5. [2019-EMNLP] Semantic Relatedness Based Re-ranker for Text Spotting
推荐理由:一系列将语义信息与文本任务结合起来的文章,思路都比较新颖有趣,值得阅读。
推荐理由来自:乔峙
6. [2018-PAMI] ASTER:Attentional Scene Text Recognizer with Flexible Rectification
推荐理由:ASTER是文字识别领域很经典的论文,用STN+attention decoder的结构来做文字识别,现在很多文字识别的论文都以此为基础进行改进。
推荐理由来自:何明航
7. Scene Text Recognition from Two-Dimensional Perspective
推荐理由:第一篇用分割的方法来做文字识别的文章,较为详细的分析和探究了用分割方法做文字识别与attention decoder的方法相比的优缺点。
推荐理由来自:何明航
8. WordSup Exploiting Word Annotations for Character based Text Detection
推荐理由:将弱监督的方法引入到文字检测的任务中,具有很强的启发性。
推荐理由来自:何明航