More Related Content
PDF
PDF
PDF
PDF
PDF
ODP
PDF
PPT
Presen scalability public_20121009 More from harmonylab
PDF
Collaborative Document Simplification Using Multi-Agent Systems PDF
Can Large Language Models perform Relation-based Argument Mining? PDF
UniPAD: A Universal Pre-training Paradigm for Autonomous Driving PDF
Efficient anomaly detection in tabular cybersecurity data using large languag... PDF
APT-LLM Embedding-Based Anomaly Detection of Cyber Advanced Persistent Threat... PDF
CTINexus: Automatic Cyber Threat Intelligence Knowledge Graph Construction Us... PDF
Mixture-of-Personas Language Models for Population Simulation PDF
QuASAR: A Question-Driven Structure-Aware Approach for Table-to-Text Generation PDF
Large Language Model based Multi-Agents: A Survey of Progress and Challenges PDF
Mixture-of-Personas Language Models for Population Simulation PDF
TransitReID: Transit OD Data Collection with Occlusion-Resistant Dynamic Pass... PDF
Data Scaling Laws for End-to-End Autonomous Driving PDF
DeepSeek-R1: Incentivizing Reasoning Capability in LLMs via Reinforcement Lea... PDF
Is Ego Status All You Need for Open-Loop End-to-End Autonomous Driving? PDF
Encoding and Controlling Global Semantics for Long-form Video Question Answering PDF
AECR: Automatic attack technique intelligence extraction based on fine-tuned ... PDF
Enhancing Zero-Shot Chain-of-Thought Reasoning in Large Language Models throu... PDF
Towards Scalable Human-aligned Benchmark for Text-guided Image Editing PDF
Multiple Object Tracking as ID Prediction PDF
【卒業論文】LLMを用いたMulti-Agent-Debateにおける反論の効果に関する研究 ebata b
- 1.
- 2.
背景
入力
公式サイト一覧
札幌 011-aaa-aaaa http://aaa…
011-bbb-bbbb http://bbb…
011-ccc-cccc http://ccc…
0123-dd-dddd http://ddd…
0123-ee-eeee http://eee…
公式サイトデータベース
ユーザー システム
出力
オフィシャルゲート(公式サイト検索エンジン)[山本,川村,高木,大内,2004]
複雑系とウェブ構造
複雑系 : 系の要素の作用が系全体の振る舞いを決定
電話番号が重要
公式サイトデータベースの作成
特定地域の宿泊施設公式サイト一覧の検索
※電話番号…テキスト形式のみを考慮し,画像形式は未考慮
ウェブページ リンク構造 共通事項を持ったページ群
- 3.
- 4.
絞込み(電話番号1~5種)
“011+ホテル”をキーとしたGoogle検索
オフィシャルゲートデータベース作成手法概要
(例)札幌市のホテルの公式サイト収集
:
公式サイトデータベース
:
テキスト形式電話番号の抽出
宿泊施設の電話番号のみを保存
011-zzz-zzzz
011-ccc-cccc
011-bbb-bbbb
011-aaa-aaaa
有向グラフの入り次数最大
→公式サイト
http://aaa.com
http://aaa.com
http://bbb.net
http://bbb.net
http://ccc.co.jp
http://zzz.com
各電話番号をもつページを頂点
リンクを弧とするグラフ構造
電話番号の存在とリンク構造
公式サイト決定ヒューリスティック
札幌市ホテル 公式サイト
その他サイト - 5.
現行手法の問題点
問題
電話番号を画像で表示しているサイトはデータベース収集対象外
2003年*
2008年**
テキスト
画像
89.8%
10.2%
83.5%
16.5%
年 \ 表示形式
宿泊施設公式サイトの電話番号
*先行研究での調査(数百サイト)
**本研究での調査(関東地方254サイト,42件の電話番号画像収集)
“011+ホテル”をキーとしたGoogle検索
札幌市ホテル 公式サイト
その他サイト
“札幌+ホテル”をキーとしたGoogle検索
電話番号画像の存在
→公式サイト
改善案
現行手法 性能悪化 - 6.
- 7.
0
200
400
600
800
1000
1200
1400
1600
0
49
63
89
101
117
132
145
158
173
186
200
214
228
241
255
画素数
画素値
単色背景(38件/42件)
二値化
電話番号画像の特徴①
背景領域
文字領域候補
二値化 領域分割 文字抽出
電話番号
画像認識
細線化
電話番号画像抽出アルゴリズム
2番目に多い画素値近傍を黒
その他を白とする
電話番号認識に失敗
→3番目に多い画素値近傍で
再二値化
- 8.
- 9.
- 10.
文字抽出
【抽出対象】
数字(0~9)
アルファベット(T,E,L)
ハイフン
輪郭投影による一次元化
[パターン認識と画像処理 95]
【手順】
②入力画像から切り出した文字をn*nに正規化
③正規化した文字の上下左右輪郭投影を取る
→パターンベクトル
④ パターンベクトルとの差の総和が最小になる特徴ベクトル
→文字として抽出
①抽出対象全ての文字に対して画像サンプルを用意
二値・細線化後 n*nに正規化(n=21)し上下左右輪郭投影を取る
→ 特徴ベクトル
電話番号画像の特徴④
数字・ハイフン・アルファベット(T,E,L)を含む
二値化
領域分割
文字抽出
電話番号 画像認識
細線化
電話番号画像抽出アルゴリズム - 11.
- 12.
実験と結果
対象 電話番号gif画像(42件)
57%
(24件)
43%
(18件)
電話番号画像と
認識
電話番号画像と
は認識せず
桁数の不足→9件
二値化の失敗→8件
領域分割の失敗→1件
数字全一致 → 13件
一部数字誤認識 → 6件
TEL文字抽出→5件
電話番号画像認識率(%) オフィシャルゲート収集率(%)
0 83.5
10 85.2
20 86.8
30 88.5
40 90.1
50 91.8
57 92.9
60 93.4
→現状
→電話番号画像
を考慮
- 13.
- 14.
- 15.