論文紹介
dhSegment:
文書セグメンテーションのための、包括的なディープラーニングアプローチ
2019-02-13 作成:寺田英雄(オープンストリーム)
https://www.facebook.com/hideo.terada.5
原著
https://arxiv.org/pdf/1804.10371.pdf
タイトル: "dhSegment: A generic deep-learning
approach for document segmentation"
2
問題設定
● やりたいこと
○ ヨーロッパ圏の古文書(歴史的文書)の画像セグメンテーション
○ 複数の課題を同時に扱う:
■ ページ抽出
■ ベースライン抽出
■ レイアウト分析
■ イラスト・写真の抽出と分類
● やりかた
○ 統一のCNNと、課題別の後処理ブロックを使う
○ ピクセル単位のセマンティック・セグメンテーション
3
dhSegment の構造
4
アウトライン
システムは、2つの連続したステップに基づく。(図1)
5
図1
ステップ2:
後処理
ステップ1:
アウトライン
● ステップ1:
○ 完全畳み込みニューラルネットワーク( FCN)
■ 入力:文書の画像;
■ 出力:各ピクセルについて予測された属性の確率のマップ
■ 学習:各ピクセルの属性 IDを示すマスク画像
● ステップ2:(後処理)
○ 予測マップを各々のタスクの目的の出力に変換
○ タスクに依存する手作り画像処理を使用(単純・標準的な範囲のアルゴリズムに限定)
● 実装
○ TensorFlow を使用。GitHubに公開
6
ネットワークアーキテクチャ(ステップ1)
7
全て Conv/Deconv 層
ネットワークアーキテクチャ(ステップ1)
8
縮小パス
(contracting path)
ResNet-50 に従った構成
拡張パス
(expansive path)
入力の解像度
まで戻す
ネットワークアーキテクチャ(ステップ1)
● 縮小パス
○ ImageNetで事前学習したResNet-50は固定→その他をファインチューニング(転移学習)
○ ResNetにはボトルネック型を使用
● 拡張パス
○ Deconv層で特徴マップを拡大
○ アップサンプリングはバイリニア補間
○ 入力と同じ解像度まで戻す
○ 縮小パスの途中段階の Feature Mapを各々バイパスさせて入力(図 1の点線)
■ →高解像度、中解像度、低解像度の特徴を強調して反映 →局所的特徴と、広域の特徴 を
ネットワークに上手く参照させる狙い
9
ステップ2:(後処理)
単純かつ標準的な画像処理だけ使用
● 2値化
○ 固定しきい値
○ 大津の方法
● モルフォロジー
○ 基本演算:膨張(dilation)・収縮(erosion)→開・閉演算子(opening, closing op.)
● 連結成分分析(CCA:Connected Component Analysis)
○ 2値化、モルフォロジーの後に実施
○ 面積の小さなブロブの除去に使う
● 形状ベクトル化
○ CCAで抽出した連結画素の外周の多角形の頂点座標(位置ベクトル)列に変換
○ 面積のない線分も多角形に含む、とする
10
訓練方法
● ロス関数:L2正則化(weight decay 10-6
)を適用
● 学習率:指数関数的減衰(0.95)、初期値範囲[10-5
, 10-4
]
● 重み初期化:Xavier の初期化法
● 最適化制御:Adam optimizer
● 学習安定化:Batch Normalization 使用
● 画像のサイズ調整:
○ 総画素数範囲:6x105
〜106
の範囲
○ さらに300x300サイズにクロップ
○ 『境界効果』を避けるため、マージンを追加
● データ拡張(Augmentation)
○ on-the-fly での実行
■ 画像回転:角度範囲: [-0.2, 0.2] (rad.)
■ スケーリング:拡縮比率範囲: [08, 1.2]
■ ミーラリング
11
実験結果
12
実験結果(タスク別)
● タスク:
○ ページ抽出
○ ベースライン検出
○ 文書レイアウト解析
○ オーナメント(装飾)
○ 写真集の抽出
13
ページ抽出
14
ページ抽出
● 目的:文書画像の背景を除去して、ページ部分だけにする
○ ページ部分に該当する 2値マスク画像を得ること
● 訓練:1635枚の画像、バッチサイズ=1、30エポック
○ 画像は、アスペクト比維持下で、 6x105
画素にリサイズしている。
● 後処理:
○ (1)ステップ1のネットワーク出力に対し、大津の方法で2値化を実施 →(A)
○ (2)opening-closing を使って、(A)の2値画像の点状のゴミを消去 →(B)
○ (3)2値画像(B)の画素領域を包絡する四辺形を見つける。
■ =4つのもっとも極端な角を探索する。
15
ページ抽出:結果 表Ⅰ
数値は、Ground Truth に対する mIoU 値
16
ページ抽出:結果 図3 画像例
17
緑色:Ground Truth、青色:dhSegment の検出結果 (データ: cBADテストセット)
不正確 わずかに不正確 正確
ベースライン検出
18
ベースライン検出
● 目的:ベースラインの検出
○ ベースラインとは?
■ 画像上の仮想的な線分で、その上にほとんどの文字が乗っており、またディセンダ分がその
下に拡張されるもの。
■ ※ディセンダ=アルファベットの小文字表記において「 g」のように下に伸びた部分
● 検出方法
○ ネットワークは、ベースラインから半径5ピクセル以内にある画素を予測するように訓練する(訓練
データをそのように与える)
● 訓練:画像は106
サイズにリサイズ、30エポック、約50分
19
ベースライン検出:結果 表Ⅱ
20
文書レイアウト解析
21
文書レイアウト解析
● 目的:文書画像を意味のある領域に分割(画素ラベリング)すること
○ 分割クラス:テキスト、装飾、コメントと背景、およびそれらの複合(例:テキスト領域かつ装飾)
● 訓練:3つの文書群(文書内訳:30の訓練画像、10の評価画像、10のテスト画像)
○ 各文書群ごとに独立にモデルを訓練、30エポック
○ 画像リサイズなし、バッチ学習のためのクロッピングは実施
○ バッチサイズ=8、画像サイズ 400x400(一部はバッチサイズ=4、 600x600)
○ 学習時間:2〜4時間
● 後処理:
○ ラベリング結果の各クラスごとに 2値マスクを作成、面積 50ピクセル未満の小ブロブを除去
○ 前述のページ抽出の結果を利用して、画像の境界上のテキスト検出の FPを減らす
22
文書レイアウト解析の結果: 表Ⅲ
23
中世写本写本のレイアウト分析ータスク1 (IoU)に関するICDAR2017コンペティションの結果
文書レイアウト解析の結果: 図5
24
左側はオリジナルの原稿画像、中央は、 dhSegmentでピクセル単位でラベル付けされたクラス、そして
右側は、Ground Truth との比較(色の意味の評価ツールによる)
オーナメント(装飾)検出
25
オーナメント検出
● 目的:文書画像から、オーナメント(装飾部分)を検出する
● 訓練:
○ データ:
■ オーナメントを矩形でアノーテーションした訓練データ。計 912ページ分の
アノテーションつき画像、うち 612ページに1個以上のオーナメントが含まれる。
● 訓練用610ページ(オーナメントつき 427ページ)
● 評価用92ページ(同上 92ページ)
● テスト用183ページ(同上 123ページ)
● 画像サイズ:8x105
にリサイズ
○ 学習:バッチサイズ= 16、30エポック、2時間未満
● 後処理:
○ 2値化により、バイナリマスク画像を生成
○ モルフォロジー開閉 (Opening/Closing)処理
○ バウンディングボックスのあてはめ
○ 極小のボックスは除去(画像サイズ比 0.5%未満のもの)
26
オーナメント検出の結果: 表Ⅳ
27
オーナメント検出タスクの結果。参考文献 [23]の方法によるもの。
それぞれのテストセットについて、異なる IoU閾値により評価した。
オーナメント検出の結果: 図6
28
左の画像は部分的に検出された装飾の場合を示し、中央のものはイラストの検出を示していますがバナーの誤検出も示して
います。右の画像は複数の装飾の抽出の正しい例です。
写真集(フォトコレクション)抽出
29
写真集抽出
● 目的:
○ カードボード(厚紙)台紙に貼り付けられた写真の画像について、写真部分と、厚紙部分、背景部分
の3クラスに分離(領域分割)する
● 訓練:
○ 上記の3クラスに応じて画像を3色に色分け注釈したものを教師データとして訓練。
○ モデルは、各ピクセルの所属クラスを予測する。
○ 訓練用データ:100個
○ 評価用データ:20個
○ テスト用データ:150個
○ 40エポックの訓練、所要時間: 20分
● 後処理:
○ 予測クラス画素のモルフォロジーオープニング。
○ 連結領域の最小の包絡矩形を抽出。 Prior制約:厚紙は写真の外側でなければならない。
○ 得られた矩形をGround Truthと比較
30
写真集抽出の結果: 表Ⅴ
31
テストセットでのmIoUの評価、および0.85と0.95のIoU閾値でのいくつかのリコール値
写真群抽出の結果: 図7
32
オーナメントの場合とは反対に、抽出されるゾーンはより明確に定義されているため、
より正確な抽出が可能となっている。
ディスカッション
33
ディスカッション
● 同一ネットワーク、ほぼ同じトレーニング構成を使用しながら、5つのタスクの結果
は、SOTA(最先端性能)と競争力があるか又は凌駕している
● 一般的で柔軟性のあるアプローチにもかかわらず、トレーニングのスピードは速く
(場合によっては1時間未満)、必要なトレーニングデータ量も少ない
○ →ネットワークの事前トレーニング済みの部分のおかげ
● 一般化されたディープラーニング型アプローチが、従来の個別専用システムより優
れていることによる帰結:
○ 非専門家でも訓練できる
○ この機能のプログラミングモジュール化が可能 →ビジュアルプログラミング等に対応
● 本論文では、タスクごとに別々に学習したが、複数のタスクを一つのネットワークで
同時に学習させたほうが、性能が向上する可能性があり、今後の研究課題であ
る。
34
以上
35

論文紹介 dhSegment:文書セグメンテーションのための包括的ディープラーニングアプローチ