Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
EMNLP2014 
Combining Visual and Textual 
Features for Information Extraction 
from Online Flyers 
! 
tokyo metropolitan un...
アブストラクト 
• オンライン広告のテキストとテキストの視覚的な情報の素性を組み合 
わせる 
• 伝統的なテキストのみの情報抽出、固有表現認識は視覚的な情報を組 
み合わせたものより情報を抽出できない 
• オンラインの商業用不動産広告を用...
イントロダクション 
• 情報抽出と固有表現認識は各種のドメインに適用され、評価 
されたが、それは主に新聞記事や、科学雑誌、インフォーマ 
ルなジャンルにおいてであった(Nadeau and Sekine, 2007) 
• 一方テキスト情報...
モチベーション 
• 多くの仲介業者を介した産業(商業用不動産、重工業)は統 
合的な検索用データベースがないので、仲介業者は古い情報 
を提供するデータベースを使って時間を無駄にしている 
• 商業用不動産仲介者はデータベースを更新しようとは...
商業用不動産広告の例 
5
問題設定:12種類の固有表現 
の認識タスク 
6
関連研究 
• 以前の研究ではHTMLスタイルに基づいた視覚的な 
素性を使っていたが(Burget 2007)、この論文では 
HTMLDOM木に依存するような計算手法を妨げる 
視覚的にリッチなデータセットにチャレンジする 
• 素性として...
データセット 
• 800のランダムに選ばれた広告(315の場所、75の会社、730の仲介者 
に及ぶ) 
• フォーマットとレイアウト、商業用の不動産物件タイプ(オフィス、土 
地など)、取引を示す(投資、リース) 
• 広告はHTMLに変換...
アノテーション例 
9
手法 
• 広告はHTMLパーザーを用いてテキストに変換される 
• The text was tokenized and the task was then 
modeled as a BIO classification task, cla...
テキストベースの素性 
11
視覚的な情報に関する素性 
• フォントサイズ:7種類に正規化 
• 色:100の基本的な色に正規化 
• Y座標:150ピクセル毎に正規化 
12
実験 
• LibSVMライブラリでSVMで分類した 
• 文書の80%は教師データ、20%はテストデータに 
した 
• デフォルトパラメータとして線形カーネルモデルを 
使用した 
• マルチクラス問題はone-vs-othersを用いて二...
結果 
14
結果 
15
結果 
16
結果 
• mentions used to describe confidential 
information rarely occurred in the dataset. 
17
Upcoming SlideShare
Loading in …5
×

EMNLP2014:Combining Visual and Textual Features for Information Extraction from Online Flyers

351 views

Published on

EMNLP 2014 読み会@首都大学東京で紹介した
Combining Visual and Textual Features for Information Extraction from Online Flyers, EMNLP 2014
のスライドです。

Published in: Engineering
  • Be the first to comment

  • Be the first to like this

EMNLP2014:Combining Visual and Textual Features for Information Extraction from Online Flyers

  1. 1. EMNLP2014 Combining Visual and Textual Features for Information Extraction from Online Flyers ! tokyo metropolitan university M2 Ryuichi Tachibana
  2. 2. アブストラクト • オンライン広告のテキストとテキストの視覚的な情報の素性を組み合 わせる • 伝統的なテキストのみの情報抽出、固有表現認識は視覚的な情報を組 み合わせたものより情報を抽出できない • オンラインの商業用不動産広告を用いて教師あり学習を行う • テキストの視覚的な情報とテキストの素性の組み合わせを用いて12種 類の固有表現を認識するタスクにおいてSVM分類器の性能を評価した • 色、サイズ、位置のような情報の追加は分類器の性能を向上させた 2
  3. 3. イントロダクション • 情報抽出と固有表現認識は各種のドメインに適用され、評価 されたが、それは主に新聞記事や、科学雑誌、インフォーマ ルなジャンルにおいてであった(Nadeau and Sekine, 2007) • 一方テキスト情報は視覚的に豊かなフォーマット、例えば HTMLとPDFによって示される • 本論文では教師あり学習のアプローチを提案し、テキストの 視覚的な情報とテキストの素性の組み合わせを用いて、固有 表現を認識するタスクを行った 3
  4. 4. モチベーション • 多くの仲介業者を介した産業(商業用不動産、重工業)は統 合的な検索用データベースがないので、仲介業者は古い情報 を提供するデータベースを使って時間を無駄にしている • 商業用不動産仲介者はデータベースを更新しようとはしない が、全ての関連したリスト化された情報を含む広告を作る • 私たちの目的はその広告を利用して体系立ったリスト情報を 抽出する 4
  5. 5. 商業用不動産広告の例 5
  6. 6. 問題設定:12種類の固有表現 の認識タスク 6
  7. 7. 関連研究 • 以前の研究ではHTMLスタイルに基づいた視覚的な 素性を使っていたが(Burget 2007)、この論文では HTMLDOM木に依存するような計算手法を妨げる 視覚的にリッチなデータセットにチャレンジする • 素性として色を使って、それを人間がおおよそ知覚 できるように正規化する 7
  8. 8. データセット • 800のランダムに選ばれた広告(315の場所、75の会社、730の仲介者 に及ぶ) • フォーマットとレイアウト、商業用の不動産物件タイプ(オフィス、土 地など)、取引を示す(投資、リース) • 広告はHTMLに変換される • そのHTMLを二人でアノテーションする • 二人のアノテーション一致率は91%だった • 一番一致率が低かったのはSpace SizeとSpace Typeだった 8
  9. 9. アノテーション例 9
  10. 10. 手法 • 広告はHTMLパーザーを用いてテキストに変換される • The text was tokenized and the task was then modeled as a BIO classification task, classifiers identify the Beginning, the Inside, and Outside of the text segments. 10
  11. 11. テキストベースの素性 11
  12. 12. 視覚的な情報に関する素性 • フォントサイズ:7種類に正規化 • 色:100の基本的な色に正規化 • Y座標:150ピクセル毎に正規化 12
  13. 13. 実験 • LibSVMライブラリでSVMで分類した • 文書の80%は教師データ、20%はテストデータに した • デフォルトパラメータとして線形カーネルモデルを 使用した • マルチクラス問題はone-vs-othersを用いて二値分 類問題に変換した 13
  14. 14. 結果 14
  15. 15. 結果 15
  16. 16. 結果 16
  17. 17. 結果 • mentions used to describe confidential information rarely occurred in the dataset. 17

×