Web本文抽出 using crf

Web本文抽出 using CRF

2010/7/4
中谷秀洋＠サイボウズ・ラボ

本文抽出 for Project Gutenberg
• Project Gutenberg (http://gutenberg.org/)
– 著作権フリーテキストのデータベース
• 英語が主だが、最近は他の言語もぼちぼち
– コーパスの宝庫
• DVDのisoイメージがtorrentで配布されている
• テキストの前後にヘッダ・フッタが
– 分量多め＆規則性無し。カオス！
– サボると頻出語の上位に“Gutenberg”

パターン１

それっぽいセパレータ

ここから本文

パターン２


ここから本文

パターン３

ここから本文かと思いきや

本当はここから本文

正規表現による切り出し

http://d.hatena.ne.jp/n_shuyo/20081118/gutenberg

本文抽出 for Web
• ExtractContent for Ruby
– Webページの本文抽出を行うRubyモジュール
• http://rubyforge.org/projects/extractcontent/
• http://labs.cybozu.co.jp/blog/nakatani/2007/09/web_1.html
– HTML::ExtractContent
• Perl への移植＆改良 by はてな
• Webページカテゴライズのために開発
– Pathtraq (http://pathtraq.com/)
• みんなのアクセスログで作るランキングサービス
– カテゴライズはナイーブベイズで
– 分類アルゴリズムより
本文抽出の方が精度への影響が大きい

本文抽出の方が
精度への影響が大きい

ノイズの少ない
コーパス重要

ExtractContentのアルゴリズム概略
• html をブロックに分割
• ブロックごとにスコアを計算
– 句読点が多い
– 非リンクテキストが長い
– 本文っぽくないフレーズが含まれている
• 連続するブロックを「大ブロック」にまとめる
– スコアの高いものをつなげていく
– スコアが低いとつながる確率は減衰していく
• スコアが最大となる「大ブロック」が本文

• 「ヒューリスティック」と言えば聞こえがいいが
– 思いつきのアイデア＋感覚による調整

ExtractContentのコード(抜粋)
module ExtractContent
# Default option parameters.
@default = {
:threshold => 100,
:min_length => 80,
:decay_factor => 0.73,
:continuous_factor => 1.62,
:punctuation_weight => 10,
:
# スコア算出
c = (notlinked.length + notlinked.scan(punctu..
factor *= decay_factor
not_body_rate = block.scan(waste_expressions)..
c *= (0.72 ** not_body_rate) if not_body_rate>0
c1 = c * continuous
:

ExtractContentの課題
• 本文おまけ問題
– 本文とその他の要素(関連記事リンク、コメント)が
<br> 区切りで続く場合に、それらを分離できない
• 現行の方式で <br> でも区切ると、１つのブロック長が短く&
本文ブロック数が増えすぎてスコアの評価がうまくいかない
• 本文がない問題
– 「本文がない/極端に短い」ページで、出来るだけ長
いテキスト(≠本文)を抽出してしまう
– サイドバーに長文のレビューや自己紹介が書かれてい
て、そっちを抜いてしまうケースも。
• アプリごとに違うよ問題
– 「本文」として求める範囲がアプリによって違う
• 分類ではコメント不要。全文検索では必要。

ExtractContentのアルゴリズム概略(再)
• html をブロックに分割
• ブロックごとにスコアを計算
– 句読点が多い
– 非リンクテキストが長い ←素性
– 本文っぽくないフレーズが含まれている
• 連続するブロックを「大ブロック」にまとめる
– スコアの高いものをつなげていく
– スコアが低いとつながる確率は減衰 ←転移確率
• スコアが最大となる「大ブロック」が【本文】
←ラベル
どうみても「系列ラベリング」の問題

系列ラベリング
• 系列に対してラベルを付与する
– 観測変数と隠れ変数が１対１に対応
• 様々な問題を解くための定式化の一つ
– 形態素解析
• 品詞推定隠れ変数
• 分かち書き
代名詞動詞不定冠詞名詞
– 係り受け
– 音声認識 I am a pen
– DNA解析観測変数

隠れマルコフモデル
– HMM(Hidden Markov Model)
– Pettern Recognition and Machine Learning 13章
• 代表的な系列タギング手法の一つ
• 隠れ変数は(１次の)マルコフ連鎖をなす
– 観測変数は対応する隠れ変数にのみ依存
– 観測変数間の条件付独立を仮定しない
• 高速な計算方法がある
– Baum-Welch/Viterbi
• 教師無し
��1 ��2 ��3 ��
• 生成モデル
��1 ��2 ��3 ��

�� +1 �� と�� から ��(��, ��)と��(��|��)を求める

HMM の問題点
• 未知の観測値を扱うことが出来ない
– p(X|Y) が値を持たないと計算できない
• 非独立/同時に起きうる素性を扱うことが出来ない
– 「テキストが長い」と「句読点が多い」は同時に起きやすい
– 「<table>タグを含む」と「<ul>タグを含む」は非独立
• 大域的な最適性を得られない可能性がある
– 分岐の少ない経路が選ばれやすい
• Label bias と Length bias
– 同じラベルを持つ系列の続く確率が指数的に減衰するため
、「長い本文」が選ばれにくい
• 局所的な条件付き確率の積によって尤度を求めるため

[Kudo+ 2004] より

CRF(条件付き乱数場)
» CRF (Conditional Random Fields)[Lafferty+ 2001]
• 系列ラベリングのための識別モデル
– 無向グラフ/マルコフ確率場 [PRML ８章]
– クリークに対しバイナリ素性 �� (��−1 , �� , ��)を定義
• 例：「�� が大文字で始まる」かつ「�� が名詞」なら1
– �� ∝ exp ��
�� −1 , �� , �� より��の推定を行う
• 高速に計算するアルゴリズムがある(Forward/Backward)
• HMMより最適な系列を得やすい
• Mecabで利用 Linear-chain CRF

��0 ��1 ��2 ��3 �� +1

��
素性からエネルギー関数を定義、��(��|��)を直接計算する

HMM と CRF の相違点
Hidden Markov Model Conditional Random Fields
状態空間モデルマルコフ確率場
(有向グラフィカルモデル) (無向グラフィカルモデル)
生成モデル識別モデル
教師無し教師有り
��(�� |�� )で記述できる素性バイナリ素性を自由に設計
��(��, ��)から��(��|��)を計算 ��(��|��)を直接計算
計算量はどちらも O(素性数×状態数^2×系列長) だが、
CRFは素性数が爆発する傾向あり(bigramの素性=状態数^2)
• Vapnikの原理：ある問題を解くとき，その問題よりも難しい問題
を途中段階で解いてはならない
• "When solving a problem of interest, do not solve a more general problem as an
intermediate step. Try to get the answer that you really need but not a more general one."
• http://en.wikipedia.org/wiki/Transduction_(machine_learning)

CRFのPython実装
» http://github.com/shuyo/iir/blob/master/sequence/crf.py
• Linear-chain CRF の学習&ラベリング実装
– １つの素性に１つの観測値
• 簡略化というより
実装開始時の誤解から……
• [Lafferty+ 2001]のグラフが右図だった……
– scipy の BFGS を使ってパラメータを推論
• [Lafferty+ 2001] Forward/Backward
• [Sutton+ 2006] gradient
• L2正則化
– numpy/scipyにできる限り処理させる
• ラベル数=11、素性数=700、学習データの系列長=2500でパ
ラメータ推論に4分
• 系列長=300のラベリングに4秒
• スクリプト言語のわりには？
• 実用より、「読める実装」としての値打ち？？
– CRF処理部は 200行弱

まずは
Project Gutenbergで
試してみよう

Project Gutenberg本文抽出 using CRF
• 系列ラベリングの問題に定式化
– テキストの空行でパラグラフに分割
– パラグラフの系列に対し、３種類のラベル H(ヘッダ)、
B(本文)、F(フッタ)を付与する
• 素性設計(素性数: 188)
– 特徴的なキーワードが含まれているか
• Project, Gutenberg, David Reed, など
– 使われている文字種
• 大文字、数値、記号
– 先頭、末尾
• “*” が続いている、インデントされている
– 行数
• ３行以上ある、２行以上の空行で区切られている
• 学習データ=7(系列長=3300)
• http://github.com/shuyo/iir/blob/master/sequence/pg.py

実行例(パターン３)
• 正しく抽出(先頭が付与されたラベル)
H Project Gutenberg's Etext of Shakespeare's First Folio/35 Plays
H Copyright laws are changing all over the world, be sure to check
H Please take a look at the important information in this header.
不規則な本文開始位置を
: ( 66 paragraphs) 正しく判定
H If you find any scanning errors, out and out typos, punctuation
H David Reed
H Project Gutenberg's Etext of Shakespeare's First Folio/35 Plays
B To the Reader.
B This Figure, that thou here feest put, It was for gentle Shakesp
B B.I. 長い系列でも
: ( 27143 paragraphs) 正しくラベリング
B Cym. Laud we the Gods, And let our crooked Smoakes climbe to
B Exeunt.
B FINIS. THE TRAGEDIE OF CYMBELINE.
F End of Project Gutenberg's Etext of Shakespeare's First Folio/35

CRFで
Webページ本文抽出

Web本文抽出 using CRF
• 系列ラベリングの問題に定式化
– htmlを閉じタグおよび<br>で分割、ブロックの系列を得る
– ブロックの系列に９種類のラベル付けを行う
• head, header, menu, title, body, comment, linklist, cm, footer
• 素性設計(647個)
– タグ(a/p/div/...)
– キーワード(Copyright/会社概要/利用規約/など)
– 句読点、日付、アフィリエイトリンク
– テキスト長、リンクされているテキスト長
• 学習データ=15(系列長=2500)
• 素性設計以外にヒューリスティックな工夫はしない
– script/style タグの除去のみ例外として行っている
– Google AdSense Section Targetは無視
• 本文抽出における魔法のアイテム
• http://github.com/shuyo/iir/blob/master/extractcontent/webextract.py

実行例(本文おまけ～Yahoo! Sports)
[head] <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "
[header] <body class="yj950-2"> <div id="wrapper"> 
[header] <div class="yjmth"> <div class="yjmthproplogoarea"><a href=htt
[header] <div class="yjmthloginarea"><strong><a href="https://login.yaho
: ( 29 blocks)
[header] <li title="ニュース" class="active_click"><a href="/news">
[header] <li title="コラム" class="end"><a href="/column/">コラム</
[header]  <div id="contents-header"> <div id="cat-pa
[title]  <div id="contents-body"> <span class="yj-guid"
[title] <em>サンケイスポーツ - 2009/7/9 7:52</em> </div>
[body]  <div class="Article clearfix"> <table
[body] <p> （セ・リーグ、巨人３ｘ-２横浜、１１
[body] 一塁ベースを回っても、坂本は下を向いたま
: ( 5 blocks) 関連記事へのリンクを
[body] 「チームにとっても彼にとっても大きな本塁 linklist として正しく分類
[body] 現役時代に何度もスランプを味わった原監督
[body] 【関連記事】<br />
[linklist] ・<a href="http://www.sanspo.com/baseball/news/090709/bsa09070
: ( 3 blocks)
[linklist]   <div class="Kejiban"> <im

実行例(はてなダイアリー)
[head] <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN">
[header] <body> <div id="simple-header"> <a href="http://www.hatena.
: ( 9 paragraphs)
[header] <p class="sectionheader"><span class="sectioncategory"><a hre
コメントを分離
[body] <p><a class="keyword" href="http://d.hatena.ne.jp/keyword/Py
アプリごとに必要なラベルを
[body] <p>でも以下のように書くと、<a class="keyword" hr
[body] <pre class="syntax-highlight"> <span class="synComment"># A, B,
: ( 2 paragraphs)
[body] <pre class="syntax-highlight"> labels = ["<span class="syn
[body] <p>そのせいで以下のようなハマりパターンも
[body] <pre class="syntax-highlight"> <span class="synStatement">def</
[comment] <p class="sectionfooter"><a href="/n_shuyo/20100629/python">
[comment]  </div>
[comment] <form id="comment-form" method="post" action="/n_shuyo/comment
: ( 14 paragraphs)
[comment] <div class="refererlist"> <div class="caption">
[comment] <div class="refererlist"> <div class="caption"><a
[linklist] <ul> <li><a href="http://d.ha
[linklist] <div class="refererlist"> <div class="caption
: ( 121 paragraphs)

実行例(Yahoo! Japan トップ)
[head] <!DOCTYPE HTML PUBLIC "-//W3C//DTD HTML 4.01 Transitional//EN" "
[menu] <body> <div id="wrapper"> <div id="header"> <div id="masthead"
[menu] <ul id="mhicon"> <li id="mhi1st"><a title="Yahoo! BB" href="r/m
記事見出しや抜粋を
[menu] <li id="mhi2nd"><a title="オークション" href="r/mauc">オ
: ( 30 paragraphs)
linklist として正しく分類
[menu] <li id="clr5"><a href="r/header/color/5/*-http://www.yahoo.co.
[menu] <li id="clr6"><a href="r/header/color/6/*-http://www.yahoo.co.
[menu] <p class="help"><a href="r/mht">ヘルプ</a></p></div> </div> <
[linklist] <hr class="separate"> <div id="contents"> <div id="toptxt"> <u
[linklist] <li id="toptxt2"><a href=s/69879>全国約1000件の花火大莨
[linklist] <li id="toptxt3"><a href=s/69950>新機能は？「ポケモン
: ( 150 paragraphs)
[linklist] <li><a title="Yahoo!ノートパッド" class="second" href="r/p
[linklist] <li><a title="Yahoo!ブリーフケース" class="third" href="r
[linklist] <div id="pbindexbg"><div id="pbindex"> <div id="pbcalendar"><di
[footer] </tr> <tr> <td><a href="f/pbox/clndr/06/27/*-http://calendar.ya
[footer] <td><a href="f/pbox/clndr/06/28/*-http://calendar.yahoo.co.jp/?
[footer] <td><a href="f/pbox/clndr/06/29/*-http://calendar.yahoo.co.jp/?
: ( 101 paragraphs)
[footer] <li><a href="r/fdi">免責事項</a></li></ul>
[footer] <address>Copyright (C) 2010 Yahoo Japan Corporation. All Rights
[footer] </body> <!--http://ard.yahoo.co.jp/SIG=15blcke9p/M=300330001.

実行例(しょこたんブログ)
[head] <!DOCTYPE html PUBLIC "-//W3C//DTD XHTML 1.0 Transitional//EN" "
[menu] <body id="mainIndex">  <ul id="amebaBar"> <li id
[menu] <li><a href="http://pigg.ameba.jp/" title="ピグ">ピグ</a></
[menu] <li class="last"><a href="http://blog.ameba.jp/ucs/entry/srvent
: ( 167 paragraphs)
[menu] <p><a href="http://blog.ameba.jp/reader.do?bnm=nakagawa-shoko">
[menu]  <div class="page articlePaging"> <a ti
手強すなよ……
[menu]  <div class="entry new"> <div class="ent
[cm]  <h3 class="title"></div>
[cm]  </div> </div>
[cm]  </div>
[linklist]  <div id="sub_b">  <!--
[linklist] “中川翔子物語～空色ﾃﾞｲｽﾞ～”連載中<br
[linklist] 原明日美（著）<br>
: ( 53 paragraphs)
[linklist] <li><a href="http://ameblo.jp/nakagawa-shoko/theme-10014191488.

CRFについて雑感
• CRFはおもしろい！
– 非独立な素性を好きに設計できる
• 効果を見込めそうな素性を適当に放り込める
– 不必要な素性を選んでしまっても性能悪化しにくい
• 職人技がなくても、それなりのものが作れる
– 期待していたより精度が高い
• おもしろいものがいろいろ作れそう！！！

• CRFはまだちょっと難しい
– こなれた解説がまだない
• エンジニアにはハードルが高い
– ライブラリはあるが研究用？
• アプリからはまだ使いにくい

今回試した範囲での「感想」ですので、あしからず。

CLEANEVAL: 本文抽出コンテスト
» http://cleaneval.sigwac.org.uk/

• 2007年に行われたWebページcleaning
(本文抽出)のコンテスト
– 英語と中国語の開発用データセット(約60件ずつ)
は現在もサイトで配布されている
• テスト用データセットは約650件ずつあるらしいが、
配布されていない？
• あまり変な(=普通な)データはなさそう。
– 開発データセット120件中、「本文なし」は１件だけ
– ファイルサイズの最大は150KB
– 結果：
• 中国語は参加1組。精度は18%……
• 英語は9組。精度の最高値は84%

先行研究
• [Marek+ 2007] Web Page Cleaning with
Conditional Random Fields
– CLEANEVALで精度が一番高かったチーム
– 今回紹介したのとだいたい同じ内容？
• 4日前に存在に気づいた。あえてまだ読んでない
– 評価はCLEANEVALのデータセット(英語)に対
してのみ
• 他の言語でもうまくいくの？
• 現実には1MB超えるhtmlとかざらにあるんだけど
• 研究者にそこらへんのモチベーションはない
– できることはわかってるけどやってない
• 「2chまとめ系ブログの本文抽出」で論文書けないし
– エンジニアががんばる！

機械学習をはじめたいエンジニアへ
• 「機械学習はじめよう」
– gihyo.jpにて大絶賛(?)連載中！
• http://gihyo.jp/dev/serial/01/machine-learning
– 機械学習を知らない人、勉強してみたい人向け
• チュートリアルではなく結構硬派に
• 数式ばんばん
– 実際に勉強し始めたらつまずきそうなところ
• 独立とか、近似とか
• 事前分布とか、事後分布とか
– 次回第２回は 7/10 ごろ掲載予定
• 機械学習を初めてまだ1年のにわかですが、
応援・ご教授いただけると嬉しいです

References
• [Lafferty+ 2001] Conditional Random Fields: Probabilistic
Models for Segmenting and Labeling Sequence Data
• [Sutton+ 2006] An Introduction to Conditional Random
Fields for Relational Learning
• [Kudo+ 2004] Conditional Random Fieldsを用いた日本語
形態素解析
• [Marek+ 2007] Web Page Cleaning with Conditional
Random Fields

• 岡野原さんの「機械学習による自然言語処理チュート
リアル～PerceptronからCRFまで～」
– http://hillbig.cocolog-nifty.com/do/2008/08/post_040f.html

Web本文抽出 using crf

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Viewers also liked

Viewers also liked (20)

Similar to Web本文抽出 using crf

Similar to Web本文抽出 using crf (20)

More from Shuyo Nakatani

More from Shuyo Nakatani (20)

Recently uploaded

Recently uploaded (15)

Web本文抽出 using crf