201310合同ゼミ論文紹介

吉村研究室
B2211017
片渕小夜
201310合同ゼミ①
3次元空間中の文字の回転角度を利用し
た情景中文字の検出と認識
2013/10/07IS1-031

目次
1. 文字認識技術の概要と諸問題
2. 提案手法の説明
3. 実験の説明と考察
4. まとめ
5. 参考文献
2013/10/07IS1-032

１．文字認識技術の概要と諸問題
2013/10/07IS1-033

文字認識技術の概要と諸問題（１）
2013/10/07IS1-034
今では携帯電話やタブレットPC,
スマートフォンでカメラが内蔵
されていない機器は殆ど無い
カメラを入力手段とする文字認識への期待が高まっている

文字認識技術の概要と諸問題（２）
2013/10/07IS1-035
カメラで撮影した文字は回転や透視投影の変形を含み、
従来のフラットヘッドスキャナで取得された文書画像を対象とするOCR
では認識が難しい

文字認識技術の概要と諸問題（3）
2013/10/07IS1-036
 従来手法では…
1. アフィン不変な特徴を用いたレイアウトに依存しない
文字認識手法
→認識対象は白の背景に黒で印刷された文字、情景内からの文
字検出については考慮されていない
2. 教師なし学習を用いて情景内から文字を検出、認識
する手法
→回転している文字について考慮されていない
回転や透視投影の影響を受けている文字を
情景内から検出、認識する手法を提案する

２．提案手法の説明
2013/10/07IS1-037

大まかな流れ
2013/10/07IS1-038
1. 連結成分切り出し
2. 文字認識
3. 非文字の棄却、文字検出

1.連結成分切り出し
2013/10/07IS1-039
面積が50px以下の領域
はノイズとして判定

2.文字認識
2013/10/07IS1-0310
① 特徴抽出
標準文字に対して計算機上で3次元の回転処理を施し回転文字
を生成、特徴抽出を行う
回転はｘ軸,ｙ軸,ｚ軸の順に
行われる
回転処理を行う際には画素値
の線形補間を用いている

2.文字認識
2013/10/07IS1-0311
② 特徴抽出
特徴ベクトルとして加重方向指数ヒストグラム（392次元）を抽出
して使用する
特徴抽出によって得られた特徴ベクトルから、文字のクラスごと
に平均ベクトル、共分散行列の固有値、固有ベクトルを算出し、そ
れらを学習辞書とする
A
A
A

２．文字認識
2013/10/07IS1-0312
③ 認識
識別関数としてMQDF（Modified quadratic discriminant
function）を採用
→識別精度を損なうこと無く、計算量を大幅に削減できる

（補足）数式中の変数
2013/10/07IS1-0313
X:入力文字のn次元特徴ベクトル
M:母集団の平均ベクトル
k:識別に用いる固有ベクトル数
N:各クラスのサンプル数
P(ω):クラスωの事前確立
Φ𝑖, 𝜆𝑖:標本共分散行列の第i固有ベクトルと第i固有値
𝜎2
:特徴ベクトルXの事前確立分布を球状と仮定した場合の分散
𝑁0:𝜎2の信頼度定数

３．非文字の棄却、文字検出
2013/10/07IS1-0314
 取り出した連結成分集合に非文字の連結成分が含
まれている
→非文字連結部分を棄却
非文字連結部分

3.非文字の棄却、文字検出
2013/10/07IS1-0315
① 小さな非文字の連結部分を除去
ピリオドと分類された連結部分を棄却
※この研究では「１つの文字は連結した１つの領域で成り立って
いる」として文字を認識するため、「i」,「j」の２つの連結領域から
なる文字を認識することはできない
i j ピリオドと判断され棄却
i j

2013/10/07IS1-0316
② 閾値よりも大きい値を持つ連結成分を非文字として
棄却
MQDFの値が最小となる文字クラスに連結成分を分類
→値が小さいほどその連結成分が文字である可能性が高い
なお、閾値は全ての連結成分に対して求めた識別関数値（MQDF
の出力値）ヒストグラムを用いた大津の判別分析により決定する

2013/10/07IS1-0317
③ グループA, グループBに含まれる連結成分の数を
カウントし、少ない方のグループを棄却する

3.実験の説明と考察
2013/10/07IS1-0318

実験データ
2013/10/07IS1-0319
 認識対象文字が合計1271個含まれる情景内画像50
枚
※学習した回転角度の範囲内で回転している文字
※Z軸まわりの回転角度が一定である
文字検出の精度を比較
するため、2値化によって
画像中の全ての文字連結成分
を切り出せる画像を扱う

評価基準
2013/10/07IS1-0320
R 再現率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑁
∗ 100 %
𝑃 適合率 =
𝑇𝑃
𝑇𝑃 + 𝐹𝑃
∗ 100(%)
𝐹 𝐹値 =
2 ∗ 𝑅 ∗ 𝑃
𝑅 + 𝑃
(%)
TP(TruePositive),TN(TrueNegative):文字、非文字を
正しく認識した個数
FP(FalsePositive),FN(FalseNegative):文字、非文字を
誤って分類した個数

実験手法（1）
2013/10/07IS1-0321
 同じ平面に印字されている文字は、3次元空間中で
あってもある程度同じ向きを持つと想定される
 回転角度を想定した結果を用いて連結成分を絞り
込む
同じ回転角度を持つ！

実験手法（２）
2013/10/07IS1-0322
A) 文字の回転角度による棄却を行わない手法
B) 文字の回転角度による棄却を追加した手法（２クラ
スを許容とする）
２クラス：最大個数の回転角度クラスとその回転角度±１０度のク
ラスのうち連結成分数の多い方のクラス
C) 文字の回転角度による棄却を追加した手法（３ク
ラスを許容とする）
３クラス：最大個数の回転角度クラスとその回転角度±１０度の２ク
ラス

実験結果（1）
2013/10/07IS1-0323

実験結果（2）
2013/10/07IS1-0324

実験結果（3）
2013/10/07IS1-0325
文字の回転角度を用いた非文字の連結成分棄却により誤検出が
減少していることがわかる

実験結果（４）
2013/10/07IS1-0326

4.まとめ
2013/10/07IS1-0327

研究のまとめ
2013/10/07IS1-0328
 情景内に含まれる回転や透視投影の変形を含む文字を
認識することができた
 回転文字の辞書を作成
 MQDFによるある種の「文字らしさ」をもって判定をしている
 回転角度による棄却により精度向上
 ただし、文字は1つの連結成分として考えられているため、
認識ができない文字がある
 辞書の容量削減、推定精度の向上
 Ｘ，Y軸周りの回転角度を用いた文字検出の精度向上

この研究が面白いと感じた部分
2013/10/07IS1-0329
 iPhoneを使った文字認識アプリを作ったことがある
1. 2値化
2. テキストライン検出、文字のベースラインを2次スプ
ライン曲線で当てはめる
3. 文字の並ぶピッチを判断、1文字ごとに分割し文字を
抽出
4. 回転文字に対応していない
1. ex:1->/, O(オー)->0(ゼロ)などの誤検出
 回転文字の辞書を作ることを思いつかなかった

5.参考文献
2013/10/07IS1-0330

使用した論文
蔵元侃太,大山航,若林哲史,木村文隆
『3次元空間中の文字の回転角度を利用した情景文字
の検出と認識』
『SSII2013第19回画像センシングシンポジウム』（2013
年6月）IS1-03
2013/10/07IS1-0331

参考ページ
2013/10/07IS1-0332
 画像処理ソリューション（2013/08/23アクセス）
 http://imagingsolution.blog107.fc2.com/
 吉田大祐(2006)『eラーニングのための単語辞書を
使用した板書手書き文字認識』(2013/09/14アクセ
ス)
 http://miuse.mie-
u.ac.jp/bitstream/10076/9124/1/2006T028.pdf

201310合同ゼミ論文紹介

Recommended

Recommended

More Related Content

More from Saya Katafuchi

More from Saya Katafuchi (15)

Recently uploaded

Recently uploaded (10)

201310合同ゼミ論文紹介