公式ホームページからの画像形式 電話番号抽出アルゴリズム 
北海道大学 工学部 情報工学科 
複雑系工学講座 調和系工学研究室 
4年 江端 佑介
背景 
入力 
公式サイト一覧 
札幌 011-aaa-aaaa http://aaa… 
011-bbb-bbbb http://bbb… 
011-ccc-cccc http://ccc… 
0123-dd-dddd http://ddd… 
0123-ee-eeee http://eee… 
公式サイトデータベース 
ユーザー システム 
出力 
オフィシャルゲート(公式サイト検索エンジン)[山本,川村,高木,大内,2004] 
複雑系とウェブ構造 
複雑系 : 系の要素の作用が系全体の振る舞いを決定 
電話番号が重要 
公式サイトデータベースの作成 
特定地域の宿泊施設公式サイト一覧の検索 
※電話番号…テキスト形式のみを考慮し,画像形式は未考慮 
ウェブページ リンク構造 共通事項を持ったページ群
目的 
公式サイト収集効率の向上のための 
電話番号画像抽出アルゴリズムの提案
絞込み(電話番号1~5種) 
“011+ホテル”をキーとしたGoogle検索 
オフィシャルゲートデータベース作成手法概要 
(例)札幌市のホテルの公式サイト収集 
: 
公式サイトデータベース 
: 
テキスト形式電話番号の抽出 
宿泊施設の電話番号のみを保存 
011-zzz-zzzz 
011-ccc-cccc 
011-bbb-bbbb 
011-aaa-aaaa 
有向グラフの入り次数最大 
→公式サイト 
http://aaa.com 
http://aaa.com 
http://bbb.net 
http://bbb.net 
http://ccc.co.jp 
http://zzz.com 
各電話番号をもつページを頂点 
リンクを弧とするグラフ構造 
電話番号の存在とリンク構造 
公式サイト決定ヒューリスティック 
札幌市ホテル 公式サイト 
その他サイト
現行手法の問題点 
問題 
電話番号を画像で表示しているサイトはデータベース収集対象外 
2003年* 
2008年** 
テキスト 
画像 
89.8% 
10.2% 
83.5% 
16.5% 
年 \ 表示形式 
宿泊施設公式サイトの電話番号 
*先行研究での調査(数百サイト) 
**本研究での調査(関東地方254サイト,42件の電話番号画像収集) 
“011+ホテル”をキーとしたGoogle検索 
札幌市ホテル 公式サイト 
その他サイト 
“札幌+ホテル”をキーとしたGoogle検索 
電話番号画像の存在 
→公式サイト 
改善案 
現行手法 性能悪化
電話番号画像抽出アルゴリズム 
サイト内gif画像 
入力画像 
アルゴリズム概要 
→pgm形式(モノクロ256階調)に変換 
二値化 
領域分割 
文字抽出 
電話番号 画像認識 
細線化 
電話番号画像例
0 
200 
400 
600 
800 
1000 
1200 
1400 
1600 
0 
49 
63 
89 
101 
117 
132 
145 
158 
173 
186 
200 
214 
228 
241 
255 
画素数 
画素値 
単色背景(38件/42件) 
二値化 
電話番号画像の特徴① 
背景領域 
文字領域候補 
二値化 領域分割 文字抽出 
電話番号 
画像認識 
細線化 
電話番号画像抽出アルゴリズム 
2番目に多い画素値近傍を黒 
その他を白とする 
電話番号認識に失敗 
→3番目に多い画素値近傍で 
再二値化
細線化 
→Hilditchの手法を採用 
電話番号画像の特徴② 
文字のフォントが多種 
二値化 
領域分割 
文字抽出 
電話番号 画像認識 
細線化 
電話番号画像抽出アルゴリズム 
二値画像中の黒の連結領域について,幅1の中心線を求める.
電話番号画像の特徴③ 
行幅の違う文字が混在(5件/42件) 
a>2b または b>2a ⇒ 最も広い空白部分で分割 
b 
a 
領域分割 
二値化 
領域分割 
文字抽出 
電話番号 画像認識 
細線化 
電話番号画像抽出アルゴリズム 
行列検出→1文字抽出 
左右から画像幅の4分の1のみを調べ 各々1行の幅を求める
文字抽出 
【抽出対象】 
数字(0~9) 
アルファベット(T,E,L) 
ハイフン 
輪郭投影による一次元化 
[パターン認識と画像処理 95] 
【手順】 
②入力画像から切り出した文字をn*nに正規化 
③正規化した文字の上下左右輪郭投影を取る 
→パターンベクトル 
④ パターンベクトルとの差の総和が最小になる特徴ベクトル 
→文字として抽出 
①抽出対象全ての文字に対して画像サンプルを用意 
二値・細線化後 n*nに正規化(n=21)し上下左右輪郭投影を取る 
→ 特徴ベクトル 
電話番号画像の特徴④ 
数字・ハイフン・アルファベット(T,E,L)を含む 
二値化 
領域分割 
文字抽出 
電話番号 画像認識 
細線化 
電話番号画像抽出アルゴリズム
電話番号の特徴 
・0から始まる10桁の数字 
(ハイフン2つまで含む) 
・“TEL”文字の存在 
電話番号画像 
国内プレフィクス 
0 
加入者番号 
4桁 
計5桁 
計10桁 
4桁 
市外局番 
1~4桁 
市内局番 
4~1桁 
電話番号画像認識基準 
二値化 
領域分割 
文字抽出 
電話番号 画像認識 
細線化 
電話番号画像抽出アルゴリズム
実験と結果 
対象 電話番号gif画像(42件) 
57% 
(24件) 
43% 
(18件) 
電話番号画像と 
認識 
電話番号画像と 
は認識せず 
桁数の不足→9件 
二値化の失敗→8件 
領域分割の失敗→1件 
数字全一致 → 13件 
一部数字誤認識 → 6件 
TEL文字抽出→5件 
電話番号画像認識率(%) オフィシャルゲート収集率(%) 
0 83.5 
10 85.2 
20 86.8 
30 88.5 
40 90.1 
50 91.8 
57 92.9 
60 93.4 
→現状 
→電話番号画像 
を考慮
考察 
原因:画像内に写真 
領域分割の失敗(1件) 
二値化の失敗(8件) 
原因1:背景色に文字色と似た色 
原因2:背景色がグレー 
二値化時に隣接文字が接触
桁数の不足(9件) 
考察 
原因:元画像の時点で隣接文字が接触
まとめ 
・電話番号画像抽出アルゴリズムを提案した 
・本アルゴリズムでは,42つの電話番号画像サンプルのうち24件(57%)の 
画像を電話番号画像と認識した 
・本アルゴリズムを公式サイト自動収集システムに組み込むことで 
公式サイト収集率を約10%向上させることが期待できる 
・接触文字に対応 
【今後の研究】 
・実システムへの組み込み 
・宿泊施設公式サイトの調査により公式サイトにおける電話番号画像の 
特徴を見出した

ebata b

  • 1.
    公式ホームページからの画像形式 電話番号抽出アルゴリズム 北海道大学工学部 情報工学科 複雑系工学講座 調和系工学研究室 4年 江端 佑介
  • 2.
    背景 入力 公式サイト一覧 札幌 011-aaa-aaaa http://aaa… 011-bbb-bbbb http://bbb… 011-ccc-cccc http://ccc… 0123-dd-dddd http://ddd… 0123-ee-eeee http://eee… 公式サイトデータベース ユーザー システム 出力 オフィシャルゲート(公式サイト検索エンジン)[山本,川村,高木,大内,2004] 複雑系とウェブ構造 複雑系 : 系の要素の作用が系全体の振る舞いを決定 電話番号が重要 公式サイトデータベースの作成 特定地域の宿泊施設公式サイト一覧の検索 ※電話番号…テキスト形式のみを考慮し,画像形式は未考慮 ウェブページ リンク構造 共通事項を持ったページ群
  • 3.
  • 4.
    絞込み(電話番号1~5種) “011+ホテル”をキーとしたGoogle検索 オフィシャルゲートデータベース作成手法概要 (例)札幌市のホテルの公式サイト収集 : 公式サイトデータベース : テキスト形式電話番号の抽出 宿泊施設の電話番号のみを保存 011-zzz-zzzz 011-ccc-cccc 011-bbb-bbbb 011-aaa-aaaa 有向グラフの入り次数最大 →公式サイト http://aaa.com http://aaa.com http://bbb.net http://bbb.net http://ccc.co.jp http://zzz.com 各電話番号をもつページを頂点 リンクを弧とするグラフ構造 電話番号の存在とリンク構造 公式サイト決定ヒューリスティック 札幌市ホテル 公式サイト その他サイト
  • 5.
    現行手法の問題点 問題 電話番号を画像で表示しているサイトはデータベース収集対象外 2003年* 2008年** テキスト 画像 89.8% 10.2% 83.5% 16.5% 年 \ 表示形式 宿泊施設公式サイトの電話番号 *先行研究での調査(数百サイト) **本研究での調査(関東地方254サイト,42件の電話番号画像収集) “011+ホテル”をキーとしたGoogle検索 札幌市ホテル 公式サイト その他サイト “札幌+ホテル”をキーとしたGoogle検索 電話番号画像の存在 →公式サイト 改善案 現行手法 性能悪化
  • 6.
    電話番号画像抽出アルゴリズム サイト内gif画像 入力画像 アルゴリズム概要 →pgm形式(モノクロ256階調)に変換 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像例
  • 7.
    0 200 400 600 800 1000 1200 1400 1600 0 49 63 89 101 117 132 145 158 173 186 200 214 228 241 255 画素数 画素値 単色背景(38件/42件) 二値化 電話番号画像の特徴① 背景領域 文字領域候補 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像抽出アルゴリズム 2番目に多い画素値近傍を黒 その他を白とする 電話番号認識に失敗 →3番目に多い画素値近傍で 再二値化
  • 8.
    細線化 →Hilditchの手法を採用 電話番号画像の特徴② 文字のフォントが多種 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像抽出アルゴリズム 二値画像中の黒の連結領域について,幅1の中心線を求める.
  • 9.
    電話番号画像の特徴③ 行幅の違う文字が混在(5件/42件) a>2bまたは b>2a ⇒ 最も広い空白部分で分割 b a 領域分割 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像抽出アルゴリズム 行列検出→1文字抽出 左右から画像幅の4分の1のみを調べ 各々1行の幅を求める
  • 10.
    文字抽出 【抽出対象】 数字(0~9) アルファベット(T,E,L) ハイフン 輪郭投影による一次元化 [パターン認識と画像処理 95] 【手順】 ②入力画像から切り出した文字をn*nに正規化 ③正規化した文字の上下左右輪郭投影を取る →パターンベクトル ④ パターンベクトルとの差の総和が最小になる特徴ベクトル →文字として抽出 ①抽出対象全ての文字に対して画像サンプルを用意 二値・細線化後 n*nに正規化(n=21)し上下左右輪郭投影を取る → 特徴ベクトル 電話番号画像の特徴④ 数字・ハイフン・アルファベット(T,E,L)を含む 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像抽出アルゴリズム
  • 11.
    電話番号の特徴 ・0から始まる10桁の数字 (ハイフン2つまで含む) ・“TEL”文字の存在 電話番号画像 国内プレフィクス 0 加入者番号 4桁 計5桁 計10桁 4桁 市外局番 1~4桁 市内局番 4~1桁 電話番号画像認識基準 二値化 領域分割 文字抽出 電話番号 画像認識 細線化 電話番号画像抽出アルゴリズム
  • 12.
    実験と結果 対象 電話番号gif画像(42件) 57% (24件) 43% (18件) 電話番号画像と 認識 電話番号画像と は認識せず 桁数の不足→9件 二値化の失敗→8件 領域分割の失敗→1件 数字全一致 → 13件 一部数字誤認識 → 6件 TEL文字抽出→5件 電話番号画像認識率(%) オフィシャルゲート収集率(%) 0 83.5 10 85.2 20 86.8 30 88.5 40 90.1 50 91.8 57 92.9 60 93.4 →現状 →電話番号画像 を考慮
  • 13.
    考察 原因:画像内に写真 領域分割の失敗(1件) 二値化の失敗(8件) 原因1:背景色に文字色と似た色 原因2:背景色がグレー 二値化時に隣接文字が接触
  • 14.
  • 15.
    まとめ ・電話番号画像抽出アルゴリズムを提案した ・本アルゴリズムでは,42つの電話番号画像サンプルのうち24件(57%)の 画像を電話番号画像と認識した ・本アルゴリズムを公式サイト自動収集システムに組み込むことで 公式サイト収集率を約10%向上させることが期待できる ・接触文字に対応 【今後の研究】 ・実システムへの組み込み ・宿泊施設公式サイトの調査により公式サイトにおける電話番号画像の 特徴を見出した