11. Sharma, Arjun. "Adapting off-the-shelf CNNs for word spotting & recognition." Document Analysis and
Recognition (ICDAR), 2015 13th International Conference on. IEEE, 2015.
【10】
Keywords: Word spotting, CNN Adaption
概要
・現存のCNNが⽂字認識問題にうまく対応できない原因で、CNN-
Adaptationで少ないラベル付きのデータを⽤いて、より顕著な⽂字
の特徴を抽出できる。また、CNNの特徴を抽出し、KD-treeで認識
を⾏う。実験段階では、⽣データとSynthetic dataを学習データとし
て両⽅から評価を⾏う。
・CNN-Adaptation:The process of preserving the knowledge learnt
by the lower levels of the CNN, and retraining the classification
layers to address the new problem(実はfine-tuning)
新規性・差分
・CNN-Adaptationで再トレーニングしたネットワークか
ら抽出した特徴を⽤いて、⼿作りの特徴とOff-the-Shelf
CNNの特徴より⾼い精度を達成した。
Links
論⽂: http://ieeexplore.ieee.org/abstract/document/7333909/keywords
CNN-Adaptation前後特徴の変化
Dataset:
Test: 2 Book in Telugu & 1 Book in English
Train: 本からのデータ&Synthetic Data
Printed documentsの実験結果
英語の認識はヒンディー語の学習データに適⽤したCNNの
特徴を⽤いて⾏う結果と、逆にヒンディー語の認識は英語
に適⽤したCNNの特徴を⽤いて⾏う結果
12. Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi, “Deep Learning Based Language and
Orientation Recognition in Document Analysis”, in ICDAR, 2015.
【11】
Keywords: Kernel, Optical character recognition software
新規性・差分
概要
・OCRが⽅向に対して弱い。また、単⼀の⾔語を認識しか
できない原因で、OCRが認識する前に⽂字の種類と⽅向を
ディープラーニングで認識する⼿法を提案した。
・新しいSliding window投票の処理を提案し、ネットワー
ク規模を縮⼩する。
・事前に⽂字の種類と⽅向を判断し、各OCRを使うことが
間違いないように認識精度が⾼くなる。
Links
論⽂: http://ieeexplore.ieee.org/document/7333799/
流れ CNN Structure
⼊⼒サイズには制限なし認識について
認識段階で、Sliding windowsは平均的に各⾏
に配分する。
n: the number of sliding
windows
m: the number of classes
j: the class now確率分布
投票⽅法
従来⼿法: 97.31%
Number: Sliding windowの数
Width: Sliding windowの幅
5種の⾔語、⼆⽅向 → 10種類 5種の⾔語、⼆⽅向 → 7種類
*三種の⾔語は⼀つの⽅向しかない
という設定がある
13. ・⽂字認識に対して、inter-class informationはよく無視さ
れた。本研究では、classification feedbackだけでなく、
inter-class informationを表⽰できるreconstruction
feedbackを加えるニューラルネットワークを提案した。こ
の⼿法を使って、当時には⼀番低い誤検出率を達成した。
Li Chen, Song Wang, Wei Fan, Jun Sun, Naoi Satoshi , “Reconstruction Combined Training for
Convolutional Neural Networks on Character Recognition”, in ICDAR, 2015.
【12】
Keywords: neural nets, character recognition, image classification, image reconstruction, learning
新規性・差分
概要
・ネットワークから再構成した⽂字イメージと標準的な⽂
字イメージの差をreconstruction feedbackとして、CNNを
トレニンーグする。
Links
論⽂: http://ieeexplore.ieee.org/document/7333798/
Framework
CNN Structure
Loss function
E c → t h e e r r o r o f t h e
classification
E r → t h e e r r o r o f t h e
reconstruction
I f E r
satisfies:
Then
:
λ, T → Validation trainingから得られ
る
14. Benjamin Eysenbach, Carl Vondrick, Antonio Torralba, “Who is Mistaken?”, in arXiv pre-print
1612.01175, 2016.
【13】
Keywords: Mistake Understanding, Action Recognition
新規性・差分
概要
誰がいつ誤った⾏動をしたのかを認識する問題である。こ
の新規の問題に対して、抽象シーンないにおいて課題を抽
出する。提案のデータセットは8フレームのストーリーで
構成され、いずれかに誤った⾏動を含んでいる。右図のよ
うにシーンが進み、⾚い⽮印が誤った⾏動(False Belief)で
ある。ここでは誰がいつミスをしたかを推定する。
・誤った⾏動を認識する問題やそのデータベースを提供す
る。ミスかどうかは2値分類問題に設定した。
・このタスクにおいて解決策を与えた。時間特徴や画像特
徴などを適⽤。
Links
論⽂ https://arxiv.org/abs/1612.01175
プロジェクト http://people.csail.mit.edu/bce/mistaken/
⾚⽮印は正解、紫⽮印は推定を誤った結果
17. Zhenzhong Lan, Yi Zhu, Alexander G. Hauptmann, “Deep Local Video Feature for Action Recognition”,
in 1701.07368, 2017.
【16】
Keywords: Video Recognition, Action Recognition
新規性・差分
概要
動画における⾏動認識の問題を扱っている。動画のラベルを推定するため、動画全体の特徴蓄積は⾏ってきたが、局所的な特徴を把握する
には⾄っていなかった。この問題に対処するため、局所的な⼊⼒から局所的な特徴を抽出するためのCNNの学習を実⾏する。ローカルな特
徴を抽出したあとはグローバルな表現(e.g. VLAD, FVs)に変換し、動画ラベルを推定する。
画像認識から動画認識へのドメイン変換やローカルな特徴を抽出するためにDeep lOcal Video Features (DOVF)を提案する。DOVFでは、
(1)どの層から特徴抽出するか、オーバーフィットを避けることも重要、(2)ローカル特徴からグローバル特徴にどのようにエンコー
ディングすればよいか、MeanPoolingやFisher Vectors (FV)も検討を⾏う、(3)どの程度デンスにローカル特徴を抽出すれば良いか、
(4)DOVFはどの程度IDTのような古典的なモデルを補完できるかを検証した。
ローカル特徴を取り出すために、VeryDeepTwo-StreamCNN (VGG16, Inception-BN)を⽤い、最後の5層の特徴マップを参照する。テストで
は25フレームごとに均⼀にサンプルを⾏い、確率分布を累積する。データ拡張はオリジナルと4種にクリップした画像を⽤い、さらにその⽔
平に反転した画像のx10に設定する。特徴のエンコードは単純平均、MaxPooling、BoW、VLAD、FVなどを採⽤。SVMはCHI square、FVと
VLADに関してはLinear Kernelを採⽤。Spatial-netとTemporal-netの重みはSpa:Tem = 1:1.5に設定。ローカル特徴は⾼次元になりがちである
が、PCAにより256次元に圧縮してからエンコードを⾏う。実験結果より、VGG16(第4層)、Inception(第2層)、エンコード(MeanPooling、
MaxPooling)、サンプルサイズ(15フレーム以降はあまり効果がない; 25フレームごとにサンプルする⽅法は、全探索(1フレームごとに25フ
レームをサンプル)とほぼ同じであることが判明)
・HMDB51, UCF101にてState-of-the-art, Comparativeな精度を達成した。
(が、UCF101においてもあまり有意な差が⾒られない)
・動画認識ではEnd-to-endなCNNよりも、中間層の出⼒をエンコードして認識
したほうが性能がよくなりやすい
Links
論⽂ https://arxiv.org/pdf/1701.07368v2.pdf
プロジェクト
18. Gomez, Lluis, and Dimosthenis Karatzas, “Object Proposals for Text Extraction in the Wild”, in ICDAR,
2015.
【17】
Keywords: Word spotting, Selective search,
新規性・差分
概要
・Selective search[1] をワードスポット問題に適⽤する⼿法を提案し
た。まずはMSERで画像をセグメンテーションし、最初の候補領域
(proposals)を⽣成する。凝集型クラスタリングで同じ内容を持ってい
る候補領域をクラスタリングする。最後にクラスタリングされた候補
領域をランキングする。当時には ⾮常に良い認識率を達成した。
・クラスターがsingle linkage criterion (SLC) を⽤いて最近傍を探索す
る。今回のSLCではsquared Euclidean distanceのような空間的な距離
だけでなく、領域の簡単な特徴(例えば画素値の平均や領域境界で勾
配の⼤きさの平均など)も考慮される。
Links
論⽂: https://arxiv.org/abs/1509.02317
Code: https://github.com/lluisgomez/TextProposals
[1] Uijlings, Jasper RR, et al. "Selective search for object recognition." International journal of computer vision 104.2 (2013): 154-171.
今回のSLC:
f(r)で使われる特徴が違うため、性能も違いがある
f(r) → ⼆つの領域の類似度を表現するため定義される関数
テストデータ:
・ICDAR Robust Reading Competition
dataset (ICDAR2013)
・Street View Dataset (SVT)
ICDAR2013
SVT
FAST
FULL
ランキング⽅法によって、proposalの数と認識率との関係
*10000個のproposalに接近すると、⽅法を問わず、認識率が同じくなる傾
向がある。
19. Gao, Renwu, Shoma Eguchi, and Seiichi Uchida, “True Color Distributions of Scene Text and
Background”, in ICDAR, 2015.
【18】
Keywords: text detection, color feature, HSV
新規性・差分
概要
・⼤量な⾃然画像から⽂字の⾊とその背景の⾊との具体的な
関係をHSVモデル上で分析した。前景と背景との⾊相、明
度、彩度のノンパラメトリック統計分布を統計した。統計結
果によって、⽂字とその背景の⾊特徴の関係を分析した。
・初めに⽂字認識に対する前景と背景の⾊関係を分析した
Links
論⽂: human.ait.kyushu-u.ac.jp/publications/ICDAR2015-Gao.pdf
結論
1) 明度と彩度から⾒ると、⽂字とその背景のコントラストが
⾼い
・ ⽂字とその背景は明るさのコントラストが⾼い
・現実世界では暗い背景に明るい⽂字がある場合より明るい背
景に暗い⽂字がある場合が多い
・飽和の⽂字は⼀般的に不飽和の背景に囲まれ、不飽和の⽂字
の後ろには飽和の背景がある
2) ⾊相から⾒ると、⽂字とその背景のコントラストが低い
・ ⾃然画像での⽂字とその背景の原⾊は、⾚と⻘に近く、紫と
緑にほとんど関係ない
3) ⾊特徴を⽤いれば、⽂字の検出より、ノイズの抑制のほう
が得意
Non-parametric distribution of each channel in HSV color space. (a) Distribution in
value channel. (b) Distribution in saturation channel. (c) Distribution in hue channel.
Color distribution with condition. (a)
Distribution of saturation channel
under the condition of value channel
greater than 0.5. (b) Distribution of
hue channel under the condition of
both value and saturation channels
greater than 0.5.
彩度や明度の影響を抑えるため
⾊特徴の役割を考察する実験
Original Ground Truth
Using only shape features Using shape features + Color features