SCATTER and GFTE

Paper Reading
卢宁 2019年4月9日

SCATTER: Selective Context Attentional Scene Text
Recognizer
Litman, Ron Anschel, Oron Tsiper, Shahar Litman, Roee Mazor, Shai Manmatha, R.

动机
 级联
 中间监督
 更强的特征表示
Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh. Convolutional pose machines. In Pro- ceedings ofthe IEEE Conference on
Computer Vision and Pattern Recognition, pages 4724–4732, 2016.
Alejandro Newell, Zhiao Huang, and Jia Deng. Asso- ciative embedding: End-to-end learning for joint de- tection and grouping. In Advances
in Neural Informa- tion Processing Systems, pages 2277–2287, 2017.
Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In European conference on computer
vision, pages 483– 499. Springer, 2016.

贡献
 提出了一个可重复的处理架构
 可以训练更深的 encoder
 提出了一个选择性的注意力解码器

总体架构
 Transformation (TPS)
 Feature Extraction (29-layer ResNet)
 Visual Feature Refinement
 Selective-Contextual Refinement Block

Feature Extraction
1. 语义信息增强
2. 弥补检测误差

Selective-Contextual Refinement Block

训练和推理过程
 MJ + Synth + Synth Add
 1 V100, Adadelta , 0.95 decay, 128 (40%, 40%, 20%), clipping ~ 5， 6 epoches
 40% 随机缩放，扭曲， 32 * 100
 高>宽，90 度旋转，每字符平均，取最高概率的版本

总结
 可以训练更深的编码器
 级联框架可以拓展到其他基于 attention 的方法
 模型缩减使得高精度小模型可行
 解码器的可以做集成策略

GTC: Guided Training of CTC Towards Efficient and
Accurate Scene Text Recognition
Hu, Wenyang Cai, Xiaocong Hou, Jun Yi, Shuai Lin, Zhiping

动机
 精度和前向时间的平衡
 CTC 无法很好地学习特征对齐和特征表示
 更强的特征表示和 local correlation

贡献
 基于 Guidance 的 CTC 训练框架
 利用 GCN 学习 local correlation 以强化 CTC decoder

总体架构
 Transformation (STN)
 Feature Extraction (ResNet-50)
 Attentional Guidance
 GCN + CTC Decoder

GCN + CTC Decoder
https://www.desmos.com/calculator/vhvhpbbvb4

训练和推理过程
 训练时，CTC Loss 负责 GCN + CTC encoder 的更新， CE Loss 负责更新其他部分
 推理时只使用 CTC 分支
 32 卡 V100, 32 batch size, adam 10e-3 decay 0.1/30000 iters
 Mj + Synth + Synth Add + all benchmark training set  5.6 M
 64 height * up 160
 Greedy Decoding

总结 + 思考
 本质是学习一个更强特征表示和特征对齐
 提出了一个选择性的注意力解码器
 GCN vs. GCB

GFTE: Graph-based Financial Table Extraction
Li, Yiren Huang, Zheng Yan, Junchi Zhou, Yi Ye, Fan Liu, Xianhui

动机
 表格提取任务比较困难，耗费人力，无法自动化
 表格数据缺少benchmark数据集和方法

贡献
 提出了 FinTab 数据集
 提出了一种表格提取建模思想
 利用结构，文字，图像特征结合 GCN 做图表格提取

数据集
 缺少金融类的表格数据集
 来源单一缺少多样性
 19 种文档，1600 个表格，2522 页 /3329 页
 半封闭表格，跨页表格，合并单元格表格

总体架构
 建模成分类任务
 提出了一种表格提取建模思想
 坐标转换为相对位置
 256 * 256, 通过 grid_sample 抽出下条图

SCATTER and GFTE

Recommended

Recommended

More Related Content

Similar to SCATTER and GFTE

Similar to SCATTER and GFTE (7)

SCATTER and GFTE