論文紹介　dhSegment：文書セグメンテーションのための包括的ディープラーニングアプローチ

論文紹介
dhSegment:
文書セグメンテーションのための、包括的なディープラーニングアプローチ
2019-02-13　作成：寺田英雄（オープンストリーム）
https://www.facebook.com/hideo.terada.5

原著
https://arxiv.org/pdf/1804.10371.pdf
タイトル: "dhSegment: A generic deep-learning
approach for document segmentation"
2

問題設定
● やりたいこと
○ ヨーロッパ圏の古文書（歴史的文書）の画像セグメンテーション
○ 複数の課題を同時に扱う：
■ ページ抽出
■ ベースライン抽出
■ レイアウト分析
■ イラスト・写真の抽出と分類
● やりかた
○ 統一のCNNと、課題別の後処理ブロックを使う
○ ピクセル単位のセマンティック・セグメンテーション
3

アウトライン
システムは、２つの連続したステップに基づく。（図１）
5
図１
ステップ２：
後処理
ステップ１：

アウトライン
● ステップ１：
○ 完全畳み込みニューラルネットワーク（ FCN）
■ 入力：文書の画像；
■ 出力：各ピクセルについて予測された属性の確率のマップ
■ 学習：各ピクセルの属性 IDを示すマスク画像
● ステップ２：（後処理）
○ 予測マップを各々のタスクの目的の出力に変換
○ タスクに依存する手作り画像処理を使用（単純・標準的な範囲のアルゴリズムに限定）
● 実装
○ TensorFlow を使用。GitHubに公開
6

ネットワークアーキテクチャ（ステップ１）
7
全て Conv/Deconv 層

8
縮小パス
(contracting path)
ResNet-50 に従った構成
拡張パス
(expansive path)
入力の解像度
まで戻す

● 縮小パス
○ ImageNetで事前学習したResNet-50は固定→その他をファインチューニング（転移学習）
○ ResNetにはボトルネック型を使用
● 拡張パス
○ Deconv層で特徴マップを拡大
○ アップサンプリングはバイリニア補間
○ 入力と同じ解像度まで戻す
○ 縮小パスの途中段階の Feature Mapを各々バイパスさせて入力（図 1の点線）
■ →高解像度、中解像度、低解像度の特徴を強調して反映 →局所的特徴と、広域の特徴を
ネットワークに上手く参照させる狙い
9

ステップ２：（後処理）
単純かつ標準的な画像処理だけ使用
● ２値化
○ 固定しきい値
○ 大津の方法
● モルフォロジー
○ 基本演算：膨張(dilation)・収縮(erosion)→開・閉演算子(opening, closing op.)
● 連結成分分析(CCA:Connected Component Analysis)
○ ２値化、モルフォロジーの後に実施
○ 面積の小さなブロブの除去に使う
● 形状ベクトル化
○ CCAで抽出した連結画素の外周の多角形の頂点座標（位置ベクトル）列に変換
○ 面積のない線分も多角形に含む、とする
10

訓練方法
● ロス関数：L2正則化（weight decay 10-6
）を適用
● 学習率：指数関数的減衰(0.95)、初期値範囲[10-5
, 10-4
]
● 重み初期化：Xavier の初期化法
● 最適化制御：Adam optimizer
● 学習安定化：Batch Normalization 使用
● 画像のサイズ調整：
○ 総画素数範囲：6x105
〜106
の範囲
○ さらに300x300サイズにクロップ
○ 『境界効果』を避けるため、マージンを追加
● データ拡張(Augmentation)
○ on-the-fly での実行
■ 画像回転：角度範囲： [-0.2, 0.2] (rad.)
■ スケーリング：拡縮比率範囲： [08, 1.2]
■ ミーラリング
11

実験結果（タスク別）
● タスク：
○ ページ抽出
○ ベースライン検出
○ 文書レイアウト解析
○ オーナメント（装飾）
○ 写真集の抽出
13

ページ抽出
● 目的：文書画像の背景を除去して、ページ部分だけにする
○ ページ部分に該当する 2値マスク画像を得ること
● 訓練：1635枚の画像、バッチサイズ＝１、30エポック
○ 画像は、アスペクト比維持下で、 6x105
画素にリサイズしている。
● 後処理：
○ （１）ステップ１のネットワーク出力に対し、大津の方法で２値化を実施 →(A)
○ （２）opening-closing を使って、(A)の２値画像の点状のゴミを消去 →(B)
○ （３）２値画像(B)の画素領域を包絡する四辺形を見つける。
■ ＝４つのもっとも極端な角を探索する。
15

ページ抽出：結果　表Ⅰ
数値は、Ground Truth に対する mIoU 値
16

ページ抽出：結果　図３画像例
17
緑色：Ground Truth、青色：dhSegment の検出結果　（データ： cBADテストセット）
不正確わずかに不正確正確

ベースライン検出
● 目的：ベースラインの検出
○ ベースラインとは？
■ 画像上の仮想的な線分で、その上にほとんどの文字が乗っており、またディセンダ分がその
下に拡張されるもの。
■ ※ディセンダ＝アルファベットの小文字表記において「 g」のように下に伸びた部分
● 検出方法
○ ネットワークは、ベースラインから半径５ピクセル以内にある画素を予測するように訓練する（訓練
データをそのように与える）
● 訓練：画像は106
サイズにリサイズ、30エポック、約50分
19

ベースライン検出：結果　表Ⅱ
20

文書レイアウト解析
21

文書レイアウト解析
● 目的：文書画像を意味のある領域に分割（画素ラベリング）すること
○ 分割クラス：テキスト、装飾、コメントと背景、およびそれらの複合（例：テキスト領域かつ装飾）
● 訓練：３つの文書群（文書内訳：30の訓練画像、10の評価画像、10のテスト画像）
○ 各文書群ごとに独立にモデルを訓練、３０エポック
○ 画像リサイズなし、バッチ学習のためのクロッピングは実施
○ バッチサイズ＝８、画像サイズ 400x400（一部はバッチサイズ＝４、 600x600）
○ 学習時間：２〜４時間
● 後処理：
○ ラベリング結果の各クラスごとに 2値マスクを作成、面積 50ピクセル未満の小ブロブを除去
○ 前述のページ抽出の結果を利用して、画像の境界上のテキスト検出の FPを減らす
22

文書レイアウト解析の結果：　表Ⅲ
23
中世写本写本のレイアウト分析ータスク１ (IoU)に関するICDAR2017コンペティションの結果

文書レイアウト解析の結果：　図５
24
左側はオリジナルの原稿画像、中央は、 dhSegmentでピクセル単位でラベル付けされたクラス、そして
右側は、Ground Truth との比較（色の意味の評価ツールによる）

オーナメント（装飾）検出
25

オーナメント検出
● 目的：文書画像から、オーナメント（装飾部分）を検出する
● 訓練：
○ データ：
■ オーナメントを矩形でアノーテーションした訓練データ。計 912ページ分の
アノテーションつき画像、うち 612ページに1個以上のオーナメントが含まれる。
● 訓練用610ページ（オーナメントつき 427ページ）
● 評価用92ページ（同上 92ページ）
● テスト用183ページ（同上 123ページ）
● 画像サイズ：8x105
にリサイズ
○ 学習：バッチサイズ＝ 16、30エポック、２時間未満
● 後処理：
○ 2値化により、バイナリマスク画像を生成
○ モルフォロジー開閉 (Opening/Closing)処理
○ バウンディングボックスのあてはめ
○ 極小のボックスは除去（画像サイズ比 0.5％未満のもの）
26

オーナメント検出の結果：　表Ⅳ
27
オーナメント検出タスクの結果。参考文献 [23]の方法によるもの。
それぞれのテストセットについて、異なる IoU閾値により評価した。

オーナメント検出の結果：　図6
28
左の画像は部分的に検出された装飾の場合を示し、中央のものはイラストの検出を示していますがバナーの誤検出も示して
います。右の画像は複数の装飾の抽出の正しい例です。

写真集（フォトコレクション）抽出
29

写真集抽出
● 目的：
○ カードボード（厚紙）台紙に貼り付けられた写真の画像について、写真部分と、厚紙部分、背景部分
の３クラスに分離（領域分割）する
● 訓練：
○ 上記の３クラスに応じて画像を３色に色分け注釈したものを教師データとして訓練。
○ モデルは、各ピクセルの所属クラスを予測する。
○ 訓練用データ：100個
○ 評価用データ：20個
○ テスト用データ：150個
○ 40エポックの訓練、所要時間： 20分
● 後処理：
○ 予測クラス画素のモルフォロジーオープニング。
○ 連結領域の最小の包絡矩形を抽出。 Prior制約:厚紙は写真の外側でなければならない。
○ 得られた矩形をGround Truthと比較
30

写真集抽出の結果：　表Ⅴ
31
テストセットでのmIoUの評価、および0.85と0.95のIoU閾値でのいくつかのリコール値

写真群抽出の結果：　図7
32
オーナメントの場合とは反対に、抽出されるゾーンはより明確に定義されているため、
より正確な抽出が可能となっている。

ディスカッション
● 同一ネットワーク、ほぼ同じトレーニング構成を使用しながら、5つのタスクの結果
は、SOTA（最先端性能）と競争力があるか又は凌駕している
● 一般的で柔軟性のあるアプローチにもかかわらず、トレーニングのスピードは速く
（場合によっては1時間未満）、必要なトレーニングデータ量も少ない
○ →ネットワークの事前トレーニング済みの部分のおかげ
● 一般化されたディープラーニング型アプローチが、従来の個別専用システムより優
れていることによる帰結：
○ 非専門家でも訓練できる
○ この機能のプログラミングモジュール化が可能 →ビジュアルプログラミング等に対応
● 本論文では、タスクごとに別々に学習したが、複数のタスクを一つのネットワークで
同時に学習させたほうが、性能が向上する可能性があり、今後の研究課題であ
る。
34

論文紹介 dhSegment：文書セグメンテーションのための包括的ディープラーニングアプローチ

More Related Content

Similar to 論文紹介 dhSegment：文書セグメンテーションのための包括的ディープラーニングアプローチ

More from Hideo Terada