Recommended
PDF
20080823-TransformingPlainTextToHtml
PDF
PDF
PDF
PDF
LUCENE-5252 NGramSynonymTokenizer
PDF
PDF
PDF
PDF
PDF
PDF
PDF
KEY
Webapp startup example_to_dolist
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PPT
PDF
芸術情報演習デザイン(web) 第2回:HTML入門
PDF
PDF
PDF
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
PDF
HTML5Conference2012 LT ピンチとチャンス
PPTX
PDF
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
PPTX
Solr から使う OpenNLP の日本語固有表現抽出
More Related Content
PDF
20080823-TransformingPlainTextToHtml
PDF
PDF
PDF
PDF
LUCENE-5252 NGramSynonymTokenizer
PDF
PDF
PDF
Similar to Html noise reduction
PDF
PDF
PDF
PDF
KEY
Webapp startup example_to_dolist
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PDF
PPT
PDF
芸術情報演習デザイン(web) 第2回:HTML入門
PDF
PDF
PDF
HTML5を用いたセマンティックな文書作成【TechBuzz】第8回HTML5開発技術勉強会 〜先行事例紹介/交流会〜
PDF
HTML5Conference2012 LT ピンチとチャンス
PPTX
More from Koji Sekiguchi
PDF
20221209-ApacheSolrによるはじめてのセマンティックサーチ.pdf
PPTX
Solr から使う OpenNLP の日本語固有表現抽出
PPTX
NLP4L - 情報検索における性能改善のためのコーパスの活用とランキング学習
PPTX
WikipediaからのSolr用類義語辞書の自動生成
PPTX
OpenNLP - MEM and Perceptron
PPTX
Luceneインデックスの共起単語分析とSolrによる共起単語サジェスチョン
PPTX
PPTX
系列パターンマイニングを用いた単語パターン学習とWikipediaからの組織名抽出
PPTX
PPTX
PPTX
Visualize terms network in Lucene index
PDF
PDF
Learning-to-Rank meetup Vol. 1
PDF
コーパス学習による Apache Solr の徹底活用
PPTX
PDF
An Introduction to NLP4L (Scala by the Bay / Big Data Scala 2015)
PDF
PPT
Pre rondhuit-naming-story
PPTX
Lucene 6819-good-bye-index-time-boost
PDF
Similarity functions in Lucene 4.0
Recently uploaded
PDF
基礎から学ぶ PostgreSQL の性能監視 (PostgreSQL Conference Japan 2025 発表資料)
PDF
安価な ロジック・アナライザを アナライズ(?),Analyze report of some cheap logic analyzers
PDF
visionOS TC「新しいマイホームで過ごすApple Vision Proとの新生活」
PPTX
PDF
第25回FA設備技術勉強会_自宅で勉強するROS・フィジカルAIアイテム.pdf
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):東京大学情報基盤センター テーマ1/2/3「Society5.0の実現を目指す『計算・データ・学習...
Html noise reduction 1. 2. 背景/目的
• HTMLにおける「ノイズ」
• 広告
• メニュー
• フッター/ヘッダー
• 用途
• 検索エンジン
• コーパスとしてのHTMLコンテンツの利用
• ファイルサイズの削減
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 2
3. 「ノイズ」の同定
• 2つ以上の同類(*1)のHTMLページを集め、類似
のブロックをノイズとみなし、除去する
:他のページに類似の
ブロックがある
:他のページに類似の
ブロックがない
• ブロックはベクトル化し、ブロック同士の類似度は
コサイン類似度を用いる
(*1)同類のHTMLページとは、同一ドメイン下のWebサイトをクロールして収集したHTMLページを指す。同一ドメイン
下のWebサイトのHTMLページは、単一のテンプレートを使って作成されていることが多く、レイアウトが同じであるため
類似のブロックが多く見つかりやすい。
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 3
4. ブロック
• W3Cの定めたHTMLタグ
• ブロックレベル要素:<DIV>, <P>, <H1>など
• インライン要素:<FONT>, <STRONG>, <A>など
• ブロック=ブロックレベル要素+α
• HTMLページを下位ノードにブロック要素が存在し
ないように分割
BODY
DIV DIV DIV
P IMG IMG IMG A SCRIPT
TEXT TEXT CODE
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 4
5. 6. ブロックのベクトル化
• ブロックのベクトル素性
• ブロック内の各タグ:出現回数
• 各テキスト:正規化した文字の出現回数
• 属性title、altの各テキスト:正規化した文字の出現回数
A 1
• 例 P 1
ど 1
<P>どうも<A href="i.html">僕</A>です</P>
B=
う 1
も 1
で 1
• NekoHTMLの利用
す 1
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 6
7. まとめ
• 2つ以上の同類のHTMLページが必要
• 単純なアルゴリズム
• 多少の違いは吸収
• 検索エンジンのインデックス作成の前処理
• テキストコーパスとして有益な部分の抽出
• ディスク/メモリ消費量の削減に寄与
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 7
8. 参考文献
• 教師情報を必要としないニュースページ群からのコ
ンテンツ自動抽出吉田、山本日本データベース学会
論文誌 Vol.8 No.1 2009年6月
• HTML 4.01 Specification W3C Recommendation 24
December 1999 7.5.3 Block-level and inline
elements
http://www.w3.org/TR/html401/struct/global.html#h-
7.5.3
• NekoHTML http://nekohtml.sourceforge.net/
Copyright (c) 2012 RONDHUIT Co.,Ltd. All Rights Reserved. 8