SlideShare a Scribd company logo
1 of 38
Paper Reading
卢宁 2019年4月9日
SCATTER: Selective Context Attentional Scene Text
Recognizer
Litman, Ron Anschel, Oron Tsiper, Shahar Litman, Roee Mazor, Shai Manmatha, R.
动机
 级联
 中间监督
 更强的特征表示
Shih-En Wei, Varun Ramakrishna, Takeo Kanade, and Yaser Sheikh. Convolutional pose machines. In Pro- ceedings ofthe IEEE Conference on
Computer Vision and Pattern Recognition, pages 4724–4732, 2016.
Alejandro Newell, Zhiao Huang, and Jia Deng. Asso- ciative embedding: End-to-end learning for joint de- tection and grouping. In Advances
in Neural Informa- tion Processing Systems, pages 2277–2287, 2017.
Alejandro Newell, Kaiyu Yang, and Jia Deng. Stacked hourglass networks for human pose estimation. In European conference on computer
vision, pages 483– 499. Springer, 2016.
贡献
 提出了一个可重复的处理架构
 可以训练更深的 encoder
 提出了一个选择性的注意力解码器
总体架构
 Transformation (TPS)
 Feature Extraction (29-layer ResNet)
 Visual Feature Refinement
 Selective-Contextual Refinement Block
Transformation
Feature Extraction
1. 语义信息增强
2. 弥补检测误差
Visual Feature Refinement
Selective-Contextual Refinement Block
Selective-Contextual Refinement Block
训练和推理过程
 MJ + Synth + Synth Add
 1 V100, Adadelta , 0.95 decay, 128 (40%, 40%, 20%), clipping ~ 5, 6 epoches
 40% 随机缩放, 扭曲, 32 * 100
 高>宽,90 度旋转, 每字符平均,取最高概率的版本
对比实验
对比实验
模型集成
模型缩减
总结
 可以训练更深的编码器
 级联框架可以拓展到其他基于 attention 的方法
 模型缩减使得高精度小模型可行
 解码器的可以做集成策略
思考
SCATTER or MASTER ?
GTC: Guided Training of CTC Towards Efficient and
Accurate Scene Text Recognition
Hu, Wenyang Cai, Xiaocong Hou, Jun Yi, Shuai Lin, Zhiping
动机
 精度和前向时间的平衡
 CTC 无法很好地学习特征对齐和特征表示
 更强的特征表示和 local correlation

贡献
 基于 Guidance 的 CTC 训练框架
 利用 GCN 学习 local correlation 以强化 CTC decoder
总体架构
 Transformation (STN)
 Feature Extraction (ResNet-50)
 Attentional Guidance
 GCN + CTC Decoder
总体架构
Attentional Guidance
GCN + CTC Decoder
https://www.desmos.com/calculator/vhvhpbbvb4
训练和推理过程
 训练时,CTC Loss 负责 GCN + CTC encoder 的更新, CE Loss 负责更新其他部分
 推理时只使用 CTC 分支
 32 卡 V100, 32 batch size, adam 10e-3 decay 0.1/30000 iters
 Mj + Synth + Synth Add + all benchmark training set  5.6 M
 64 height * up 160
 Greedy Decoding
对比实验
消融实验
总结 + 思考
 本质是学习一个更强特征表示和特征对齐
 提出了一个选择性的注意力解码器
 GCN vs. GCB
GFTE: Graph-based Financial Table Extraction
Li, Yiren Huang, Zheng Yan, Junchi Zhou, Yi Ye, Fan Liu, Xianhui
动机
 表格提取任务比较困难,耗费人力,无法自动化
 表格数据缺少benchmark数据集和方法
贡献
 提出了 FinTab 数据集
 提出了一种表格提取建模思想
 利用 结构,文字,图像特征结合 GCN 做图表格提取
数据集
 缺少金融类的表格数据集
 来源单一缺少多样性
 利用 结构,文字,图像特征结合 GCN 做图表格提取
 19 种文档,1600 个表格,2522 页 /3329 页
 半封闭表格,跨页表格,合并单元格表格
数据集
总体架构
 建模成分类任务
 提出了一种表格提取建模思想
 利用 结构,文字,图像特征结合 GCN 做图表格提取
 坐标转换为相对位置
 256 * 256, 通过 grid_sample 抽出下条图
总体架构
实验
谢谢

More Related Content

Similar to SCATTER and GFTE (7)

Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式Chap12 嵌入式系统开发模式
Chap12 嵌入式系统开发模式
 
Mining the Parkinson's Telemonitoring Data Set
Mining the Parkinson's Telemonitoring Data SetMining the Parkinson's Telemonitoring Data Set
Mining the Parkinson's Telemonitoring Data Set
 
腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述腾讯大讲堂40 web类服务用户体验优化综述
腾讯大讲堂40 web类服务用户体验优化综述
 
第六名 6th Aurora
第六名 6th Aurora第六名 6th Aurora
第六名 6th Aurora
 
云计算可信评估方法研究
云计算可信评估方法研究云计算可信评估方法研究
云计算可信评估方法研究
 
手勢以及身體骨架辨識
手勢以及身體骨架辨識手勢以及身體骨架辨識
手勢以及身體骨架辨識
 
2015數據分析工具在智慧交通與觀光的應用
2015數據分析工具在智慧交通與觀光的應用2015數據分析工具在智慧交通與觀光的應用
2015數據分析工具在智慧交通與觀光的應用
 

SCATTER and GFTE