Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

DBpedia Japanese 運営の現状

3,045 views

Published on

2015-07-09 に行われた 第36回 SWO研究会 - DBpedia シンポジウム での発表
https://sites.google.com/site/sigswo15/papers/36program

Published in: Technology
  • Be the first to comment

DBpedia Japanese 運営の現状

  1. 1. DBpedia Japanese 運営の現状 情報・システム研究機構 加藤 文彦 2015-07-09 第36回SWO研究会 DBpediaシンポジウム
  2. 2. DBpedia • プロジェクト: 研究,コミュニティ • データセット: RDF,オントロジー • サービス: Linked Data,SPARQL 2
  3. 3. プロジェクト
  4. 4. DBpediaプロジェクト • 2007年に最初の公開 • 現在 • 125言語のデータセット • ドイツあたり中心にヨーロッパの人達ががんばっている • ソースコードはGitHubに移行: https://github.com/dbpedia • メーリングリストはSourceforgeのまま: http:// sourceforge.net/p/dbpedia/mailman/ 4
  5. 5. DBpedia i18n chapters • 各言語のサービスをサブドメインで提供 • http://xx.dbpedia.org • 現在18言語 • 自主的に手を上げた誰かがホスト • データセットは本家のものか独自生成 5
  6. 6. DBpedia Japanese • i18n chapterの1つ • 日本語リソースのハブ • LOD促進 • http://ja.dbpedia.org • LODACプロジェクトの一部 6
  7. 7. DBpedia Japanese沿革 • 2012-05-09 最初のURI版公開 • 2012-06-30 IRI版公開 • [ 不定期更新 ] • 2013-06-17 日本語Wikipediaオントロジー,WordNet-jaへのリン ク • 2015-01-14 現状の最新版 (20141230版) • 2015-07-08 J-GLOBAL knowledgeへのリンク (NEW!) 7
  8. 8. データセット
  9. 9. DIEF: DBpedia Information Extraction Framework • データ抽出するための ソフトウェア • Wikipediaが主な対象, 部分的にWikidataや Wikimedia commonsも • 各言語特有の抽出器や解 析器の設定が可能 https://github.com/dbpedia/extraction-framework 9
  10. 10. Infobox抽出のイメージ テンプレート オントロジーマッピング データ抽出 データ抽出での利用 10
  11. 11. DBpedia全体の処理 ref:  D.  Kontokostas  et  al.  "Internationalization  of  Linked  Data.  The  case  of  the  Greek  DBpedia  edition."                Journal  of  Web  Semantics:  Science,  Services  and  Agents  on  the  World  Wide  Web,  vol.  15,  No.3,  Sep.  2012,  pp.51-­‐61 11
  12. 12. dbp-­‐owl:AdministraOveRegion dbp:サイボーグ009 dbp-­‐owl:   ComicsCreator dbp:宮城県 dbp:石ノ森章太郎 rdfs:label rdf:type rdfs:label dbp-­‐prop:生年 dbp-­‐owl:notableWork dbp-­‐owl:award dbp-­‐owl:birthPlace rdf:type サイボーグ009 宮城県 foaf:Person 1938 石ノ森章太郎 rdf:type rdfs:label dbp:村井嘉浩 dbp-­‐owl:leaderName グラフ例 dbp:手塚治虫 文化賞 dbp-­‐owl:Cartoon rdf:type 12
  13. 13. http://mappings.dbpedia.org/index.php/Mapping_ja13
  14. 14. 14
  15. 15. http://mappings.dbpedia.org/server/statistics/ja/15
  16. 16. 16
  17. 17. {{TemplateMapping   |  mapToClass  =  ComicsCreator   |  mappings  =     {{PropertyMapping  |  templateProperty  =  名前 |  ontologyProperty  =  foaf:name  }}     {{PropertyMapping  |  templateProperty  =  本名 |  ontologyProperty  =  foaf:name  }}     {{PropertyMapping  |  templateProperty  =  生年 |  ontologyProperty  =  birthYear  }}     {{PropertyMapping  |  templateProperty  =  生地 |  ontologyProperty  =  birthPlace  }}     {{PropertyMapping  |  templateProperty  =  没年 |  ontologyProperty  =  deathYear  }}     {{PropertyMapping  |  templateProperty  =  没地 |  ontologyProperty  =  deathPlace  }}     {{PropertyMapping  |  templateProperty  =  国籍 |  ontologyProperty  =  nationality  }}     {{PropertyMapping  |  templateProperty  =  受賞 |  ontologyProperty  =  award  }}     {{PropertyMapping  |  templateProperty  =  公式サイト |  ontologyProperty  =  foaf:homepage  }}     {{PropertyMapping  |  templateProperty  =  画像 |  ontologyProperty  =  foaf:depiction  }}     {{PropertyMapping  |  templateProperty  =  ジャンル |  ontologyProperty  =  genre    }}     {{PropertyMapping  |  templateProperty  =  画像サイズ |  ontologyProperty  =  imageSize  }}     {{PropertyMapping  |  templateProperty  =  職業 |  ontologyProperty  =  occupation  }}     {{PropertyMapping  |  templateProperty  =  代表作 |  ontologyProperty  =  notableWork  }}   }} 17
  18. 18. 18
  19. 19. 19
  20. 20. 2つの日本語データセット • DBpedia • 最新のDIEF + マッピングを利用 • 更新遅い: 前回は2014-05-03 • DBpedia Japanese • マッピングは最新だがDIEFは最新ではない • 日本語用の抽出器・解析器設定 • 更新そこそこ (といいつつ今年は半年やっていない) 20
  21. 21. データセットの問題 • 最新のDIEFへの追従 • DIEF日本語設定 • 上流にコミットすべき • 検証不足で躊躇っていたが運用して日が経ったので一旦取り込んでもらう? • まだ設定できていない項目あり • Wikipedia: データがない・間違っている • DBpedia マッピング: 全然追加・更新されていない • DBpedia オントロジー: 日本語特有のクラスを追加すべきか? 21
  22. 22. データ拡充の試み • DBpedia マッピングの増加 • マッピングパーティ • WikipediaエントリやInfoboxの増加 • Wikipedia Town 22
  23. 23. マッピングパーティ • マッピング作業をハンズオンで • Wikipediaテンプレート選定 • 語彙マッピング • 開催 • 2012年8月: 10人 • 2013年3月: 25人 (SIGSWO大島) 23
  24. 24. ウィキペディアタウン 24
  25. 25. ≒ 街歩きワークショップ + ウィキペディア編集 25
  26. 26. 10都道府県 計25回 (2015-07-01現在) 2013-03-23 横浜でスタート 京都各所で計7 回(最多) 2ヶ所目は 二子玉川 https://ja.wikipedia.org/wiki/プロジェクト:アウトリーチ/ウィキペディアタウン/アーカイブ 26
  27. 27. https://ja.wikipedia.org/wiki/ウィキペディアタウン 27
  28. 28. 28
  29. 29. 29
  30. 30. 図書館員 市民 ファシリテーター ウィキペディアン 編集 リファレンス提供 レクチャー・サポート 選定対象についてリファレンス 対象選定・企画 必要であれば交渉 訪問 / 撮影 サポートのお願い (現地スタッフ)(ガイド) 開催支援 養成講座 30
  31. 31. 外部リンク問題 • どうやって外部リンクを増やすか • Silk等で自動生成する • リンクしているものをもらう • 本家がやろうとしている手段 • GitHub: https://github.com/dbpedia/links • ライセンス: PD 31
  32. 32. サービス
  33. 33. http://wiki.dbpedia.org/about/about-dbpedia/architecture 33
  34. 34. dbpedia-vad-i18n • Virtuosoのモジュール • DBpedia用設定 • Linked Data公開 • DBpedia Japanese用にfork • 国際化等の修正は上流へ フィードバック https://github.com/dbpedia/dbpedia-vad-i18n https://github.com/fumi/dbpedia-vad-i18n 34
  35. 35. サーバ運営 • マシン1台,VM2個 • 表に出ているのはVM1個だけ • もう片方で作業・更新で切替 • VM128GB, Virtuoso 64GBの設定: 物理メモリ消費24GBくらい • Virtuoso develop/7 branch • データ更新 • 不定期半手動 • Wikipediaダンプが更新されると自動取得後生成 • データチェックして切替 35
  36. 36. サービスの問題 • dbpedia vad • 上流コードの取り込み • ビューの大幅リニューアル • サーバ運営体制 • 片手間で面倒見ている状態 • 色々自動化したい • スケールアウト • せめてVM数台で捌ける体制にならないか • できればクラウドに載せたいが... 36
  37. 37. ライブ版 • 英語とドイツ語で試験運用 • Wikipediaの変更分を即時取り込むことが可能 • ウィキペディアタウンやった後すぐ使えたりしたら便利 • 問題点(伝聞) • 設定が結構面倒 • トリプル量が通常版より少ない? 37
  38. 38. 日本語Linked Data Cloud
  39. 39. 活用事例知りたい問題 • データリンク例 • アプリ例 • 研究利用例 • どうやって集めるか 39
  40. 40. 日本語Linked Data Cloud図 • 27データセット • 本家よりも緩い条件 • 日本にいる人・組織 • 日本語ラベルを含む • 1000トリプル以上 • dereference/データダン プ/SPARQL Endpoint • LODクラウドかJLDCへ のリンク http://linkedopendata.jp/?p=486 40
  41. 41. LOD cloud criteria 27 → 14 DBpedia Japanese Japanese Wikipedia Ontology LSJ NDL Authorities LCVIAF DBpedia LODAC Museum save MLAK Freebase Yokohama Art LOD PinQA SOCIA Biomass pedia LODAC Species Kyoto Manga Museum WordNet-ja Aozora Bunko CiNii KAKEN GeoLOD Earthquake Archives Fukushima Geonames RIHN LOD Cloud Open license Fumihiro Kato, 2014-03-10 Publication Life Science Cross-domain Media Government GeographicIndustry User generated content LSD i-Scover Allie Senkyo Statdb Michishi ru N-ken LOD Open DATA METI DBpedia Japanese Japanese Wikipedia Ontology NDL Authorities LCVIAF DBpedia LODAC Museum Freebase SOCIA LODAC Species GeoLOD Earthquake Archives Fukushima Geonames RIHN LOD Cloud Open license Fumihiro Kato, 2014-03-10 Publication Life Science Cross-domain Media Government GeographicIndustry User generated content LSD Allie N-ken LOD Open DATA METIi-Scover 41
  42. 42. JLDC作成のプロセス • 結構手間がかかっている • データセットの調査 • Google Spreadsheetで管理 • トリプル数 • 外部リンク数 • データ提供方法: 参照解決可能,SPARQL,ダンプ • 描画: OmniGraffleで手動 42
  43. 43. JLDC作成改善案 • データセットの情報提供 • 自サイトでVoID提供 • datahub.ioにLODクラウドの手順で登録 • JLDC用のVoIDをGitHub管理してプルリクエスト? • 描画 • 自動で最新のを描画する何か • JLDCのVoID生成 or 直接管理 43
  44. 44. 現状の問題まとめ • データセット更新 • サービス運営 • 活用事例収集 • JLDC図 44
  45. 45. One more thing … 45
  46. 46. SPARQLの本を有志で出す予定 • 今原稿まとめ中... • 夏に出るといいが • サンプルがDBpediaとDBpedia Japanese • ぜひ買ってください 46

×