情報抽出入門〜非構造化データを構造化させる技術〜

情報抽出⼊入⾨門
〜～⾮非構造化データを構造化させる技術〜～
2013/05/16 PFIセミナー
株式会社プリファードインフラストラクチャー
海野裕也 (@unnonouno)

⾃自⼰己紹介
l  海野裕也 (@unnonouno)
l  Jubatusチームリーダー
l  分散オンライン機械学習基盤
l  2011年年4⽉月からPFIにJOIN
専⾨門
l  ⾃自然⾔言語処理理
l  テキストマイニング

宣伝
l  明後⽇日 5/18（⼟土）にTwitter研究会@フューチャーアー
キテクトで発表します
l  6/2（⽇日）にJubatus Casual Talks #1を開催します
l  すでに定員に達してしまいましたが、増員あるカモ
l  発表者、LTも募集中
3

アジェンダ
l  ⾃自⼰己紹介
l  情報抽出と⾮非構造化データ解析
l  情報抽出技術編
l  情報抽出応⽤用編
4

情報抽出と⾮非構造化データ解析
5

情報抽出とは？
l  びっくりするくらい説明が少ない・・・

例例で解説
l  例例えばメールの⽂文⾯面から、スケジュール登録に必要な情報を探しだ
して情報を整理理してほしい
7
来週の⽊木曜⽇日から、ビッグサイトでクラウ
ドエクスポがあるので、そのための資料料作
りをします。皆様参加してください。
構造化できそうな情報が地の⽂文に埋め
込まれている

Microsoft Academic Searchで探すと・・・
l  論論⽂文数がどんどん減っている・・
8

海野の情報抽出に関する理理解
l  情報は必ず⽣生のデータのどこかに埋まっている
l  埋まっている情報を掘り起こして、加⼯工しやすいように
整理理する技術
9
⽣生のデータの中に埋め込まれた情報を掘り出す技術

あらゆる⾮非構造化データに同じ問題が潜んでいる
10
画像
⼈人
⽝犬
音声
行動ログ
P F I
18:03 カメラのサイト
18:04 レンズのサイト
18:05 カメラのサイト
18:06 価格情報サイト
18:09 ニュースサイト
製品⽐比較中

広い意味でみると、⾮非構造化データから情報を抜き
出す技術
l  ⾮非構造化データ＝情報が「構造化されていない」データ
l  「ない」のではなくて「されていない」
l  隠れた構造（情報）が埋まっている
l  埋もれた情報を掘り出さないことには分析できない
11

今⽇日は⼀一貫して⾃自然⽂文からの情報抽出の話をします
l  今⽇日は⾃自然⽂文から情報抽出の話をします
l  画像や⾳音声、またそれらの名寄せなどの話はしません
12

応⽤用例例1：イベント情報抽出
l  カレンダー情報の整理理など
l  古典的な問題設定
13
来週の⽊木曜⽇日から、ビッグサイトでクラウ
ドエクスポがあるので、そのための資料料作
りをします。

応⽤用例例2：商品情報抽出
l  構造化されていないテキストから、商品の属性情報を抽出して整理理
する
l  商品ごとのどのような属性があるかも同時に抽出するような研究も
有る
l  実際に楽天やeBay、Googleなどの研究が多数
14
属性名属性値
品名シメイ
種類ビール
⾊色ホワイト
値段 650円

応⽤用例例3：バイオ論論⽂文の情報整理理
l  論論⽂文中の遺伝⼦子、タンパク質、化合物の関係・情報を抽出して整理理
しないと論論⽂文を読み切切れない
l  protein-protein interaction
l  辻井研が⻑⾧長年年研究していた⼤大きなテーマ
15

整理理が出来ればできることが広がる
l  データ分析基盤とつなげる
l  テキストマイニング
l  俗に「前処理理」と呼ばれる処理理は情報抽出に対応する
l  情報検索索基盤とつなげる
l  メタデータの抽出
l  抽出した情報をまとめあげる
l  オントロジーや辞書の⾃自動整理理
l  知⾒見見の発⾒見見
16

表層から意味の世界へ
l  テキスト（表層）から概念念（意味）へのマッピングを⾏行行なっている
ともとれる
l  テキストにかぎらず、画像、⾳音声なども概念念にマッピング出来れば、
概念念の世界でJOINができる
※但し、⾃自然⾔言語処理理で意味処理理というともっと広い
17
King of Pop
Michael Jackson

情報抽出　技術編
18

情報抽出技術の3つの側⾯面
⼤大雑把には3つの操作が必要
1.  情報の抜き出し
2.  情報の正規化
3.  情報間の関係の整理理
19

情報抽出の３要素
20
2013年年5⽉月8⽇日〜～10⽇日東京
ビックサイトにて⾏行行われる第
４回クラウドコンピューティ
ングEXPOにおいて、ネオジャ
パン様のブースをお借りし
Sedue for BigDataを出展致し
ます。
2013/5/8 2013/5/10
東京ビックサイト
第4回クラウド・コン
ピューティングEXPO
項⽬目名項⽬目
開始⽇日 2013/5/8
終了了⽇日 2013/5/10
場所東京ビックサイト
イベント
名
第4回クラウドコン
ピューティングEXPO
1. 情報の抜き出し
2. 情報の正規化
3. 関係整理理
※同時に解いても良いし、この順に解かな
ければならないわけではない

1. 情報の抜き出し
l  俗に固有表現抽出（Named Entity Recognition; NER）
と呼ばれる
l  定式化すると、シーケンスからのサブシーケンスの抽出
とそれの分類
21

分類と抽出はここが違う
l  分類
l  ⼊入⼒力力は⽂文書，画像，⾳音声など任意
l  出⼒力力はラベル
l  抽出
l  ⼊入⼒力力は⽂文（シーケンス）
l  出⼒力力は⽂文中の区間と付加情報
スパム？
⼈人名
評判

分類と抽出はここが同じ
l  ⽂文書の解析という意味では同じ
l  ⼊入⼒力力は⽂文書データ、出⼒力力は解析結果
l  結果だけ⾒見見れば同じように⾒見見える
l  機械学習やルールを使うという意味では同じ
l  ルールベースも機械学習も使う⽅方法はある
l  問題設定としては、前者は分類問題、後者はシーケンシャルラ
ベリングなどを応⽤用するのが⼀一般的

BIO法
l  NER問題を系列列ラベリング問題に変換する⽅方法
l  抽出対象の系列列に対して部分列列のどの部分かでラベルを
割り当てる
l  部分列列の開始点をB (Begin)
l  部分列列の開始点以外をI (Inside)
l  部分列列以外をO (Outside)
l  BIOのタグを推定して、BIIII… の部分が⽬目的の部分列列と
判断する
24
今⽇日は１６⽇日だ
B
I
I
O
O
O
O

系列列ラベリング問題
l  系列列に割り当てるラベルを当てる問題
l  普通の分類問題は出⼒力力候補がN個だが、系列列ラベリング
だとNL個
l  もちろん、それぞれを独⽴立立に解いてもよい
25
⼈人⼈人⼈人⼈人⼈人
系列ラベリング問題
入力
普通の分類問題
⼈人
出力
男男⼥女女⼥女女男男
ここを当てたい

各ラベルを独⽴立立に求めるよりも同時に求める⽅方がよ
い直感的な理理由
l  構造の情報を使った⽅方が簡単に当てられるはず！
l  例例）同性は隣隣り同⼠士に座りやすいと仮定・・・
l  例例）名詞の前には形容詞が来やすい26
男⼥女女？⼥女女男
両隣隣が⼥女女だから⼥女女な気がする・・・

隠れマルコフモデル (Hidden Markov Model; HMM)
l  隠れ状態の列列と観測列列に分けてモデル化する
l  隠れ状態は左隣隣の隠れ状態のみに依存する（マルコフ性）
l  観測列列は隠れ状態のみに依存する
l  系列列ラベリングの⽂文脈では隠れ状態列列が出⼒力力列列
27
男男⼥女女⼥女女男
こちらを当てたい
こちらが入力
隠れ状態列
観測列
P(男|男)
P(女|男)

条件付き確率率率場 (Conditional Random Field; CRF)
[Lafferty2001]
l  ラベルの同時確率率率を直接モデル化する
l  P(y|x) ∝ exp(∑i f(i)・w)
l  特に⼊入⼒力力が系列列の時をlinear chain CRFと呼ぶ
l  ⾃自然⾔言語処理理の⽂文脈で出てくるとほとんどがこれのこと
28
男男⼥女女⼥女女男
隣接ラベルのみに特徴関数fiが設定されている

2. 情報の正規化
l  同じ意味の事柄を異異なる表現で表記する
l  「同じ」の基準はニーズによって変わる
l  表記が異異なる原因は様々である
l  本質的に由来の異異なる場合以外で、機械的に判定しやす
いものも有るため、これを整理理する
29

同義表現の⽣生成仮定で複数存在する
1.  表記揺れ
2.  略略語
3.  翻字
4.  修飾
5.  表現の異異なり
30
スペリングの問題
本質的な意味の問題
これは私による整理理で、
もっと他の現象もあるかも

表記揺れ
l  同⼀一⾔言語、同⼀一アルファベットでも、同じ発⾳音の単語の
表記に⾃自由度度がある
l  スペルミスもこれの⼀一種とみなしても良良さそう
l  例例
l  サーバ vs サーバー
l  バイオリン vs ヴァイオリン
l  color vs colour
31

SimString [岡崎 10]
l  閾値 t 以上の類似疎ベクトルを⾼高速に探索索するアルゴリズム
l  疎ベクトルの類似度度が t 以上になるためには、t に応じた個数以上
の共通⾮非ゼロ要素がなければならない
l  この性質を使って候補を絞り込む
注意：⼀一般の類似ベクトル検索索に使おうとすると、閾値を設定できな
い（ふうつうは上位N件）ため、うまく使えなさそう
32
$ simstring -u -d web1tja/unigrams.db -t 0.7 -s cosine
スパゲッティー
スパゲッティ
スパゲッテー
スパゲティー
スパッティー
…

翻字 (Transliteration)
l  例例
l  岩⽥田 vs Iwata
l  中国語の翻字は意味としても通じるように作るのがオ
シャレらしい
33
翻字（ほんじ、英: transliteration）とは、言語学に
おいて特定の言語を記した文字表記を別の文字によ
る表記に移すことをいう。翻字は印刷物の発行する
際などに技術的な問題や読者の便宜のために行われ
る。

Transliteration Alignment [Pervouchine09]
l  翻字は基本的に同じ⾳音の変換
l  ⽂文字と⽂文字の対応をとるアライメント問題とみなせる
l  アライメント：統計的機械翻訳などで利利⽤用される、単語間の対
応関係
※他の⼿手法もあります
34
[Li09]

翻字をつかったサービスの例例
l  外国⼈人の名前の翻字を⾃自動⽣生成してステッカーやTシャツを作る
サービス
l  http://shoname.jp/
l  先⽇日エキスポに⾏行行ったら出展していた
35

略略語 (Abbreviation)
l  ⻑⾧長い単語を、アルファベット上の規則で省省略略した単語
l  略略語の⽣生成仮定でも複数の種類がある
l  頭字語 (Acronym): 頭⽂文字をつなげて別の単語を作る
l  ASEAN, APEC, LINUX
l  複数の単語の⼀一部を結合
l  パソコン、ブログ、キムタク
l  単⼀一の単語を省省略略
l  チョコ、ブクロ
36

修飾
l  無視してもよい様な修飾表現を排除したい
l  修飾されている以上、何かしら意味の変化がある
l  同⼀一視したい基準は、アプリケーションやお客さん依存
l  例例
l  岩⽥田 vs 岩⽥田さん
l  例例えばこの例例でも、丁寧に話される場合とそうでない場
合の差を⾒見見ようとすると、「さん」の有無が重要な要素
になってしまう
37

表現の異異なり
l  表記上の差、修飾語の差を超えた変化があるが、意味的
に同⼀一視したい
l  ⼀一般的に同義語というと、このレベルのことを想定する
l  どれを同⼀一視したいかは極めて分野依存
l  例例
l  ⾞車車 vs ⾃自動⾞車車
l  マイケル・ジャクソン vs キングオブポップ
38

Distributional Hypothesis
l  前後の⽂文脈（前後の単語、動詞、修飾語）をベクトル表
現して、類似⽂文脈を持つ単語を同⼀一の意味だと推定する
l  同義語の発⾒見見に限らず、例例えば訳語の⾃自動抽出など、同
じ意味を持つ表現を探すときによく使われる
39
同じ⽂文脈で出やすい単語は同じ意味を持ちやすい

そうは簡単に⾏行行かない・・・
「前後⽂文脈」が⾃自明には定義できないため、同義語を超え
て関連語がたくさん⾒見見つかってしまう
l  「Mac」は「Apple」と共起しやすい
l  「Apple」は「iPhone」と共起しやすい
l  ということは、「Mac」と「iPhone」は同義語・・・
だ？
40

3. 情報間の関係の整理理
l  エンティティー間の関係を当てる問題を、関係抽出
(Relation Extraction) という
l  欲しい情報のテンプレートを埋める問題を、Template
Fillingという
41

関係抽出の解き⽅方
l  エンティティー間の関係の有無を分類問題として解く
l  シンプルな分類問題として解く
l  構⽂文情報などをカーネルを使ってうまく特徴化する
l  もちろんルールで⾏行行う⽅方法や、ルールを機械学習的に発⾒見見する
ような⽅方法もある
l  抽出されたエンティティーの間に書かれた情報が特に重
要になる
l  X is located in the Y
42

関係レベルになると構⽂文情報をうまく使いたい
l  関係代名詞などの複雑な構⽂文になると、関係のあるエン
ティティー間に別の句句が⼊入り込む
l  ⽂文の構造を利利⽤用して関係を判断する必要が出てくる
43
[Sarawagi08]

情報抽出　応⽤用編
44

多段階の処理理を⾏行行うフレームワークが欲しい
l  ⾼高次の情報処理理になればなるほど、処理理が多段階になる
l  多段の処理理のフレームワークがほしい
l  最終的なエラーの原因解析が難しくなる
形態素解析構⽂文解析 NER
正規化関係抽出

テキストマイニング
l  情報抽出＋データマイング＋情報検索索
＝テキストマイニング
l  世の中のテキストマイニングエンジンは、程度度の差こそ
あれ概ね3つの技術の融合
46

正解情報はより複雑なので、正解づくりのUIが必要
l  カテゴリ分類程度度だとテキストエディタでも良良いが、複雑な情報抽
出や関係抽出になると正解の編集が⼤大変
47
ANNIE
http://www.aktors.org/technologies/annie/

Zoguma

さらに外部の知識識とつなげる
l  外部の知識識やリソースとヒモ付ける
l  オントロジーとつなげれば概念念の関係を辿れる
l  別のデータとつなげる別のアプリケーションを作れる
l  ⼤大規模なオントロジーを構築するにはコストが⾼高い
48

外部の情報との連携の例例：地図情報との連携
l  http://areadas.jp/
l  テキスト中のキーワードの発⾒見見と地図情報との
ヒモ付
49

まとめ
l  情報抽出は⾮非構造のデータを整理理する技術
l  ほとんどの⾮非構造データに類似の問題が有る
l  ⼀一般的にはテキストデータに対する処理理
l  情報抽出の3つの処理理がある
l  情報を抜き出す
l  情報を正規化する
l  情報間の関係を整理理する
l  コア以外の技術で考えないといけないことが多数
l  情報抽出を応⽤用したアプリケーション
l  正解データを作るためのUI
50

参考⽂文献
l  S. Sarawagi.
Information Extraction.
Foundations and Treands in Databases, Vol. 1, No. 3 (2007) pp. 261-377,
2008.
l  J. Lafferty, A. McCallum, F. Pereira.
Conditional Random Fields: Probabilistic Models for Segmenting and
Labeling Sequence Data.
ICML2001.
l  岡崎直観, 辻井潤⼀一.
⾼高速な類似⽂文字列列検索索アルゴリズム.
情報処理理学会創⽴立立50周年年記念念全国⼤大会, 1C-1, 2010.
l  V. Pervouchine, H. Li, B. Lin.
Transliteration Alignment.
ACL&IJCNLP 2009, pp. 136-144, 2009.
51

情報抽出入門 〜非構造化データを構造化させる技術〜

More Related Content

What's hot

Viewers also liked

Similar to 情報抽出入門 〜非構造化データを構造化させる技術〜

More from Yuya Unno