• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Wikipedia解析
 

Wikipedia解析

on

  • 3,976 views

 

Statistics

Views

Total Views
3,976
Views on SlideShare
1,523
Embed Views
2,453

Actions

Likes
2
Downloads
0
Comments
0

12 Embeds 2,453

http://uzabase.blogspot.jp 2374
http://uzabase.blogspot.com 46
http://uzabase.blogspot.sg 11
http://www.uzabase.blogspot.jp 8
http://uzabase.blogspot.tw 3
http://feedly.com 2
http://uzabase.blogspot.com.au 2
http://uzabase.blogspot.hk 2
http://www.google.co.jp 2
http://translate.googleusercontent.com 1
http://uzabase.blogspot.fr 1
https://twitter.com 1
More...

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Wikipedia解析 Wikipedia解析 Presentation Transcript

    • Wikipedia解析
    • Wikipediaとは  誰もが無料で自由に編集に参加できるインターネット百科事典  コンテンツはXMLファイルとしても提供されている  http://dumps.wikimedia.org/Uzabase 22
    • Wikipediaダンプの配信仕方  下記のウェブサイトからダウンロード可能  http://dumps.wikimedia.org/  各ダンプは月に1~3回生成される  すべてのダンプはXML形式Uzabase 33
    • 記事の例 <page> <title>ピザ</title> <id>28082</id> <revision> <id>46484702</id> <parentid>46484672</parentid> <timestamp>2013-03-03T20:53:16Z</timestamp> <contributor> <username>Nipisiquit</username> <id>62077</id> </contributor> <text xml:space="preserve"> [[ファイル:Supreme pizza.jpg|thumb|250px| アメリカ風ピザ]] ピザ(イタリア語の pizza ({{IPA- it|ˈpiʦ:a}}) に由来する「ピッツァ」の表記も用いられる)は、 [[小麦 粉]]、水、塩、イースト、砂糖、少量の[[オリーブ油]] をこねた後Uzabase に発酵させて作った生地を丸く薄くのばし、その上に具 44
    • Wikipediaダンプの種類  記事、テンプレート、メタページの最新版のみ jawiki-20130307-pages-articles.xml.bz2 1.7GB enwiki-20130304-pages-articles1-27.xml.bz2 9.2GB  全ページの最新版のみ jawiki-20130307-pages-meta-current.xml.bz2 2.0GB enwiki-20130304-pages-meta-current1-27.xml.bz2 17.9GB  全ページの全ての版 jawiki-20130307-pages-meta-history.xml.bz2 31.0GB enwiki-20130304-pages-meta-current1-27.xml.bz2 500GBUzabase 55
    • Wikipediaダンプの特徴  コンテンツ(データ量)が多い  非構造化と構造化テキストデータが両方入っている  自由に使えるUzabase 66
    • Wikipediaダンプはなぜ必要?  コーパス(⇒大量のテキストデータ)が必要な技術はたくさんある  音声認識、自動翻訳、解体素解析、日本語入力システム、 検索エンジン、など  有名なコーパス  日本語 – 毎日新聞、日経新聞、京都大学テキストコーパス、BCCWJ  英語 – British National Corpus、Brown Corpus、 Google Web N-Gram CorpusUzabase 77
    • Wikipediaダンプの解析  非構造化データ  記事の本文やタイトルなどの抽出、プレーンテキストへの変換 、など – gwtwiki – WikipedaExtractor  構造化データ  DBpediaUzabase 88
    • gwtwiki  Javaライブラリ  wikitextをHTMLやプレーンテキストなどに変換できる  Wikipediaダンプを簡単に解析できる IArticleFilter handler = new ArticleFilter(); WikiXMLParser wxp = new WikiXMLParser( “/path/to/dump.xml.bz2”, handler); wxp.parse(); public class ArticleFilter implements IArticleFilter { public void process(WikiArticle page, Siteinfo siteinfo) { String title = page.getTitle(); String bodyText = page.getText(); ... } }Uzabase 99
    • gwtwiki  Javaライブラリ  wikitextをHTMLやプレーンテキストなどに変換できる  Wikipediaダンプを簡単に解析できる WikiModel wikiModel = new WikiModel("http://www.mywiki.com/wiki/${image}", "http://www.mywiki.com/wiki/${title}"); String plainStr = wikiModel.render( new PlainTextConverter(), bodyText);Uzabase 10 10
    • WikipediaExtractor  http://medialab.di.unipi.it/wiki/Wikipedia_Extractor  Wikipediaダンプをプレーンテキストに変換するPythonスクリプト <text xml:space="preserve"> [[ファイル:Supreme pizza.jpg|thumb|250px| アメリカ風ピザ]] ピザ(イタリア語の pizza ({{IPA-it|ˈ piʦ:a}}) に由来する「ピッツァ」の表記も用いられる)は、[[小 麦 粉]]、水、塩、イースト、砂糖、少量の[[オリーブ油]]をこね た後 に発酵させて作った生地を丸く薄くのばし、その上に具を乗せ、 [[オーブン]]や専用の[[竃]]などで焼いた食品である。 ... ピザ(イタリア語の pizza (イタリア語発音: [ˈpiʦ:a])に由来する 「ピッツァ」の表記も用いられる)は、小麦粉、水、塩、イースト、砂 糖、少量のオリーブ油をこねた後に発酵させて作った生地を丸く薄くのUzabase ばし、その上に具を乗せ、オーブンや専用の竃などで焼いた食品である。11 11
    • WikipediaExtractor  http://medialab.di.unipi.it/wiki/Wikipedia_Extractor  Wikipediaダンプをプレーンテキストに変換するPythonスクリプト WikiExtractor.py [options] -c, --compress : compress output files using bzip -b, --bytes= n[KM] : put specified bytes per output file (default 500K) -B, --base= URL : base URL for the Wikipedia pages -o, --output= dir : place output files in specified directory (default current) -l, --link : preserve links --help : display this help and exit > bzcat jawiki-latest-pages-articles.xml.bz2 | WikiExtractor.py -o extractedUzabase 12 12
    • 構造化データ  InfoboxUzabase 13 13
    • 構造化データ  InfoboxUzabase 14 14
    • 構造化データ  InfoboxUzabase 15 15
    • 構造化データ  InfoboxUzabase 16 16
    • DBpedia  http://dbpedia.org/  Wikipediaから構造化データを抽出するプロジェクト  100以上の言語が対応されている  しかし、カバー率はそれぞれ違う  N-Triples形式で配信されるUzabase 17 17
    • DBpediaの例 <http://dbpedia.org/resource/Toyota> <http://dbpedia.org/property/companyType> "Public" . <http://dbpedia.org/resource/Toyota> <http://dbpedia.org/property/industry> <http://dbpedia.org/resource/Automotive_industry> . <http://dbpedia.org/resource/Toyota> <http://dbpedia.org/ontology/foundingDate> "1937-08-28" . <http://dbpedia.org/resource/Toyota> <http://dbpedia.org/ontology/foundedBy> <http://dbpedia.org/resource/Kiichiro_Toyoda> .Uzabase 18 18
    • DBpediaへのクエリ  SPARQLでクエリすることができる  http://dbpedia.org/snorql/  例  1900年以前にベルリンで生まれた人 PREFIX dbo: <http://dbpedia.org/ontology/> SELECT ?name ?birth ?death ?person WHERE { ?person dbo:birthPlace :Berlin . ?person dbo:birthDate ?birth . ?person foaf:name ?name . ?person dbo:deathDate ?death . FILTER (?birth < "1900-01-01"^^xsd:date) . } ORDER BY ?nameUzabase 19 19