DBpedia Japanese                        加藤文彦   第5回LinkedData勉強会, 2012-07-24
http://ja.dbpedia.org
http://ja.dbpedia.org/resource/東京
経緯• 2012-05-09 URI版公開• 2012-06-30 IRI版公開 • xx.dbpedia.orgは今後IRIに移行 • URI <-> IRIはowl:sameAs ?
http://wiki.dbpedia.org/Internationalization/Chapters
DBpediaのIRI設計                                     HTML表現   http://ja.dbpedia.org/page/東京都       "東京都"のIRIhttp://ja.dbpedia...
HTML表現                      http://ja.dbpedia.org/page/東京都       "東京都"のIRIhttp://ja.dbpedia.org/resource/東京都              ...
HTML表現                      http://ja.dbpedia.org/page/東京都       "東京都"のIRIhttp://ja.dbpedia.org/resource/東京都              ...
東京都のデータSELECT DISTINCT *WHERE {  <http://ja.dbpedia.org/resource/東京都> ?p ?o .}
生月日が1月1日SELECT DISTINCT ?label ?birthYearwhere {  ?s <http://ja.dbpedia.org/property/生日> 1 ;    <http://ja.dbpedia.org/pro...
地域限定マスコットSELECT DISTINCT ?mascot ?nameWHERE {  ?areamascots skos:broader <http://ja.dbpedia.org/resource/Category:地域限定のマスコ...
既知の問題•    regexで日本語使うときには"i"が必要      •   Virtuosoのバグと言っていいかもSELECT DISTINCT *WHERE {  <http://ja.dbpedia.org/resource/東京都>...
DBpediaの処理Wikipedia Dump                                           データ抽出                                        DBpedia Ex...
DBpedia Extraction Framework• 言語: Scala• WikipediaダンプからRDFデータ抽出 • 主にInfoboxから • 本文概要や画像等も • DBpedia Mappings•   http://wik...
ja.dbpedia.org• サーバ: Virtuoso • SPARQL Endpoint• 拡張パッケージ: dbpedia_dav.vad • ウェブサイト • content-negotiation
VirtuosoのIRI処理• まともになったのが6.1.4以降らしい• 現在develop/6 branchを使用している • まだ不具合多そう
既知のIRIバグ• /pageが色々とおかしい... • プロパティのリンク • head内のリンク • div.footer内のリンク• dbpedia_dav.vadのバグかどうかまだわ かっていない
DBpedia Mappings•   語彙へのマッピング    •   項目名そのままでは表記揺れ,多言語横断,単語間関係等の問題•   Wikiで誰でも編集可•   DBpedia Ontology Schema    •   クラス,プロ...
マッピングのはじめ方1. Mappings Wikiにアカウント作成 • http://mappings.dbpedia.org/     index.php/Main_Page2. dbpedia-discussionリストに登録 •   h...
http://mappings.dbpedia.org/index.php/Mapping_ja
まとめ• データ使って下さい• 協力者歓迎 • マッピング作業者 • Virtuosoハッカー
DBpedia Japanese
DBpedia Japanese
Upcoming SlideShare
Loading in …5
×

DBpedia Japanese

5,355 views

Published on

2012-07-24 第5回LinkedData勉強会での資料.DBpedia Japaneseについて

Published in: Technology, Education
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
5,355
On SlideShare
0
From Embeds
0
Number of Embeds
1,891
Actions
Shares
0
Downloads
16
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

DBpedia Japanese

  1. 1. DBpedia Japanese 加藤文彦 第5回LinkedData勉強会, 2012-07-24
  2. 2. http://ja.dbpedia.org
  3. 3. http://ja.dbpedia.org/resource/東京
  4. 4. 経緯• 2012-05-09 URI版公開• 2012-06-30 IRI版公開 • xx.dbpedia.orgは今後IRIに移行 • URI <-> IRIはowl:sameAs ?
  5. 5. http://wiki.dbpedia.org/Internationalization/Chapters
  6. 6. DBpediaのIRI設計 HTML表現 http://ja.dbpedia.org/page/東京都 "東京都"のIRIhttp://ja.dbpedia.org/resource/東京都 http://ja.dbpedia.org/data/東京都 データ表現 cf. http://www.w3.org/TR/cooluris/
  7. 7. HTML表現 http://ja.dbpedia.org/page/東京都 "東京都"のIRIhttp://ja.dbpedia.org/resource/東京都 http://ja.dbpedia.org/data/東京都 データ表現 % curl -IH Accept: text/html http://ja.dbpedia.org/resource/東京都 HTTP/1.1 303 See Other Server: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: close Content-Type: text/html; charset=UTF-8 Date: Fri, 20 Jul 2012 06:24:29 GMT Accept-Ranges: bytes Link: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate" Location: http://ja.dbpedia.org/page/東京都 Content-Length: 0
  8. 8. HTML表現 http://ja.dbpedia.org/page/東京都 "東京都"のIRIhttp://ja.dbpedia.org/resource/東京都 http://ja.dbpedia.org/data/東京都 データ表現 % curl -IH Accept: text/n3 http://ja.dbpedia.org/resource/東京 HTTP/1.1 303 See Other Server: Virtuoso/06.01.3127 (Linux) x86_64-pc-linux-gnu Connection: close Date: Fri, 20 Jul 2012 06:37:56 GMT Accept-Ranges: bytes TCN: choice Vary: negotiate,accept Content-Location: /data/東京都.n3 Content-Type: text/n3; qs=0.8 Link: <http://mementoarchive.lanl.gov/dbpedia/timegate/http://ja.dbpedia.org/resource/東京都>; rel="timegate" Location: http://ja.dbpedia.org/data/東京都.n3 Content-Length: 0
  9. 9. 東京都のデータSELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o .}
  10. 10. 生月日が1月1日SELECT DISTINCT ?label ?birthYearwhere { ?s <http://ja.dbpedia.org/property/生日> 1 ; <http://ja.dbpedia.org/property/生月> 1 ; <http://ja.dbpedia.org/property/生年> ?birthYear ; rdfs:label ?label .}ORDER BY ?birthYear
  11. 11. 地域限定マスコットSELECT DISTINCT ?mascot ?nameWHERE { ?areamascots skos:broader <http://ja.dbpedia.org/resource/Category:地域限定のマスコット> ; rdfs:label ?areaname . ?mascot dbpedia-owl:wikiPageWikiLink ?areamascots ; rdfs:label ?name.}
  12. 12. 既知の問題• regexで日本語使うときには"i"が必要 • Virtuosoのバグと言っていいかもSELECT DISTINCT *WHERE { <http://ja.dbpedia.org/resource/東京都> ?p ?o . FILTER regex(str(?o), "東京", "i")}
  13. 13. DBpediaの処理Wikipedia Dump データ抽出 DBpedia Extraction Framework データインポート mappings.dbpedia.org ja.dbpedia.org
  14. 14. DBpedia Extraction Framework• 言語: Scala• WikipediaダンプからRDFデータ抽出 • 主にInfoboxから • 本文概要や画像等も • DBpedia Mappings• http://wiki.dbpedia.org/Documentation
  15. 15. ja.dbpedia.org• サーバ: Virtuoso • SPARQL Endpoint• 拡張パッケージ: dbpedia_dav.vad • ウェブサイト • content-negotiation
  16. 16. VirtuosoのIRI処理• まともになったのが6.1.4以降らしい• 現在develop/6 branchを使用している • まだ不具合多そう
  17. 17. 既知のIRIバグ• /pageが色々とおかしい... • プロパティのリンク • head内のリンク • div.footer内のリンク• dbpedia_dav.vadのバグかどうかまだわ かっていない
  18. 18. DBpedia Mappings• 語彙へのマッピング • 項目名そのままでは表記揺れ,多言語横断,単語間関係等の問題• Wikiで誰でも編集可• DBpedia Ontology Schema • クラス,プロパティ,データ型の定義 • http://mappings.dbpedia.org/server/ontology/• DBpedia infobox/table Mappings • テンプレートをクラスに • テンプレート内の項目名をプロパティに
  19. 19. マッピングのはじめ方1. Mappings Wikiにアカウント作成 • http://mappings.dbpedia.org/ index.php/Main_Page2. dbpedia-discussionリストに登録 • https://lists.sourceforge.net/lists/ listinfo/dbpedia-discussion3. dbpedia-discussion にマッピング権限を要求
  20. 20. http://mappings.dbpedia.org/index.php/Mapping_ja
  21. 21. まとめ• データ使って下さい• 協力者歓迎 • マッピング作業者 • Virtuosoハッカー

×