LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」

9,621 views

Published on

Linked Open Data(LOD)の技術解説講義シリーズの第1回です。今回は、LODのあらましで、今後の講義へのイントロダクションになっています。

Published in: Technology
0 Comments
18 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
9,621
On SlideShare
0
From Embeds
0
Number of Embeds
4,590
Actions
Shares
0
Downloads
131
Comments
0
Likes
18
Embeds 0
No embeds

No notes for slide

LODI/Linked Open Data連続講義 第1回 「オープンデータからLinked Open Dataへ」

  1. 1. 1 オープンデータからLinked Open Dataへ 武田英明 takeda@nii.ac.jp @takechan2000 リンクト・オープン・データ・イニシアティブ LODI/Linked Open Data初心者向け連続講座第1回 2014年5月26日 さくらWORKS<関内>
  2. 2. 2 LODI/Linked Open Data初心者向け連続講座 講義の構成(1)オープンデータ からLinked Open Dataへ (2)情報の構造化 (3)RDF入門 (4)スキーマとURI (5)LODの作り方・使 い方 (6)LODシステム実 践紹介 LODの枠組み全体を紹介 技術的な基礎知識 LODに関わる個々 の技術の紹介 実例の紹介
  3. 3. 3 今後の予定 第2回 6/2(月)▼情報の構造化(大向一輝) • LODへの最初の一歩として、情報を秩序立てて整理し、使い勝手を高める「構造化」について考えます。 図書館の情報や統計データを取り上げ、人にとっての構造化、コンピュータにとっての構造化の違いや シンタックス・セマンティクスといった概念を紹介します。 第3回 6/9(月)▼RDF入門(小出誠二) • RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源(resource)についての データ(メタデータ)を記述するために定められたものですが,今日ではリンクト・オープンデータ(Linked Open Data,LOD)を理解して使いこなすうえで,必須のものとなっています.ひろく一般のRDFの初心者 を対象に,RDFの基礎から始めてさらに実務に進む手引きとなるように,最近のRDFに関する進歩も取り 入れつつ講義します. 第4回 6/23(月)▼スキーマとURI(加藤文彦) • 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙を共通 にしたり,逆に違いを明確にしたりする必要があります.RDFにおいてそれらを実現する仕組みであるス キーマとURIについて紹介します. 第5回 6/26(木)▼LODの作り方・使い方(松村冬子) • これまで学んできたLODやRDFを実践的に作り,使う方法について講義します.日頃,データ管理によく 用いられる表形式のデータを無料ツールを使ってLODに変換する方法や,公開されているLODから SPARQLと呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきます. 第6回 7/7(月)▼LODシステム実践紹介(小林巌生) • LODを採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ・アート・LODでは、 公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムをLODで統合し、データの共 有を実現しています。SPARQLエンドポイントを活用したアプリの開発などデータの応用例も広がってい ます。かなざわ育なび.netでは市役所内の複数の原課によってそれぞれ管理されていたデータをLODに よって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域でのLODの実践につい て今後の展望についても紹介します。
  4. 4. 4 あらまし • オープンデータとは • Linked Data/Linked Open Data(LOD)とは • Linked Dataを作る、公開する • Linked Dataを使う
  5. 5. 5 オープンデータ
  6. 6. 6
  7. 7. 7 オープンデータとは • データを公開するということ? • 情報公開とは違うの?
  8. 8. 8 オープンデータとは • オープンデータとは、誰でも自由に使えて再 利用もでき、かつ再配布できるようなデータで ある。課すべき決まりは、たかだか「作者のク レジットを残す」あるいは「同じ条件で配布す る」程度である。 http://opendatahandbook.org/ja/what-is-open-data/ • “A piece of data or content is open if anyone is free to use, reuse, and redistribute it — subject only, at most, to the requirement to attribute and/or share- alike.” http://opendefinition.org/
  9. 9. 9 オープンデータとは • 利用できる、そしてアクセスできる – データ全体を丸ごと使えないといけないし、再作成に必要以上 のコストがかかってはいけない。望ましいのは、インターネット 経由でダウンロードできるようにすることだ。また、データは使 いやすく変更可能な形式で存在しなければならない。 • 再利用と再配布ができる – データを提供するにあたって、再利用や再配布を許可しなけ ればならない。また、他のデータセットと組み合わせて使うこと も許可しなければならない。 • 誰でも使える – 誰もが利用、再利用、再配布をできなければならない。データ の使い道、人種、所属団体などによる差別をしてはいけない。 たとえば「非営利目的での利用に限る」などという制限をすると 商用での利用を制限してしまうし「教育目的での利用に限る」 などの制限も許されない。 http://opendatahandbook.org/ja/what-is-open-data/
  10. 10. 10 データは情報流通社会の資源 自由に利用 自由に再加工 自由に再配布 石黒毅雄さん
  11. 11. 11 オープンデータに必要なもの • オープンライセンス • 機械可読フォーマット
  12. 12. 12 オープンライセンス • 情報を最小限の制約以外で自由に使うことを 許すライセンス CC0 権利放棄 CC BY 表示 CC BY-SA 表示 - 継承 CC BY-NC 表示 – 非営利 CC BY-ND 表示 – 改変禁止 CC BY-NC-SA 表示 -非営利-継承 CC BY-NC-ND 表示 -非営利-改変禁止 全ての権利の主張 CCライセンス いくつかの権利の主張 オープンライセンス
  13. 13. 13 機械可読フォーマット • 再利用性を高める – 内容を切ったり、はったりできること • 機械(コンピュータ)が内容を処理できる形式 が望ましい – 特定のプログラムで処理できる – オープンなフォーマットで公開 – Webのようにつながる
  14. 14. 14 東日本大震災の教訓 ~東京電力計画データの例~ 1.東京電力が計画停電の予定をPDFで公開
  15. 15. 15 東日本大震災の教訓 ~東京電力計画データの例~ 2.誰かがcsvに変換して公開 http://code.xenophy.com/?p=1323
  16. 16. 16 東日本大震災の教訓 ~東京電力計画データの例~ 3.誰かがアプリケーションにして公開
  17. 17. 17 オープンデータへの5つのステップ どんなフォーマットでよいからオープンラインセスでデー タ公開 例:PDF, jpg コンピュータが処理可能なフォーマットで公開 例:xls, doc オープンに利用できるフォーマットで公開 例:csv RDF(とSPARQL)でデータ公開 例:RDFa, RDFストア 他へのリンクを入 れたデータを公開
  18. 18. 18 オープンデータによる情報流通 • これまでの公共情報の流通 公共機関など 市民 情報提供 必要なデータを 必要な方法で 請求、要望 様々な要望 に応えるの は大変 我々の要望 に応えてく れないなあ
  19. 19. 19 オープンデータによる情報流通 公共機関など 市民 要求、要望 のシェア サードバーティ=市民、プログラマー、企業 データの み公開 欲しい方式 (形式、アプリ)へ
  20. 20. 20 公開データ 公開アプリケーション
  21. 21. 21http://fukuno.jig.jp/2012/wcconcierge(c)taisukef CED
  22. 22. 22 オープンデータへの5つのステップ どんなフォーマットでよいからオープンラインセスでデー タ公開 例:PDF, jpg コンピュータが処理可能なフォーマットで公開 例:xls, doc オープンに利用できるフォーマットで公開 例:csv RDF(とSPARQL)でデータ公開 例:RDFa, RDFストア 他へのリンクを入 れたデータを公開
  23. 23. 23 データの公開、共有 Linked Data Linked Open Data (LOD)
  24. 24. 24 文書のWeb
  25. 25. 25 データのWeb このデータに 対応する別の データ このデータに 別のデータと 同じ この属性の意 味は? 異なるデータ源のデータが相互に結びつく
  26. 26. 26 沢山のデータがあっても、つながっていない…
  27. 27. 27 Linked Open Data (LOD) • オープンでリンクできるデータ – 今のWebが“文書のWeb” 、LODは“データのWeb” • Linked Dataの4原則 – 事物をURIを使って名前付けしよう – 事物の参照がHTTP URIでできるようにしよう – URIを参照したときに関連情報が手に入るようにしよ う – 外部へのリンクも含めよう (必ずしもオープンとは限らない⇒Linked Data)
  28. 28. 28 Linked Dataの記述のしかた • RDF(+RDFS, OWL)の利用 – 簡便な記述方法:<主語> <述語> <目的語> . <http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person . <http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “武田英明” . <http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” . <http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://southampton.rkbexplorer.com/id/person07113> . http://www-kasm.nii.ac.jp/ ~takeda#me http://southampton.rkbexplorer.com /id/person07113 foaf:knows foaf:Person rdfs:type “武田英明” “male” foaf:name foaf:gender
  29. 29. 29 “1955-06-08” Linked Dataの記述 http://www-kasm.nii.ac.jp/ ~takeda#me http://southampton.rkbexplorer.com/ id/person-07113 foaf:knows foaf:Person rdfs:type foaf:name foaf:gender <http://dbpedia.org/resource/Tim_Berners-Lee> owl:sameAs dbpprop:birthDatedbpprop:birthPlacedbpprop:name dbpedia:Computer_scientist dbpprop:occupation “武田英明” “male” “London, England”“Sir Tim Berners-Lee”
  30. 30. 30 LOD Cloud (Linking Open Data)
  31. 31. 31 http://en.wikipedia.org/wiki/Tokyo
  32. 32. 32 http://dbpedia.org/page/To
  33. 33. 33 日本のLinked Data Cloud
  34. 34. 34
  35. 35. 35
  36. 36. 36 dbp:サイボーグ009 dbp-owl: ComicsCreator dbp:石ノ森章太郎 rdfs:label rdf:type rdfs:label dbp-prop:生年 dbp-owl:notableWork dbp-owl:award dbp-owl:birthPlace rdf:type サイボーグ009 宮城県 1938 rdf:type rdfs:label dbp-owl:leaderName dbp:手塚治虫 文化賞 dbp-owl:Comics rdf:type 石ノ森章太郎 foaf:Person dbp:宮城県 dbp-owl:AdministrativeRegion dbp:いがらしみきお
  37. 37. 37
  38. 38. 38 Linked Dataをどうやって作るか? • データの書くフォーマットを決める⇒スキーマ設計 – 既存のスキーマを探す – そのまま使う/選択する/追加する – スキーマを公開する • データをスキーマに則って書き出す – 一つ一つを手で書く – データを一括してRDFに変換する/変換プログラム – 公開する • ダンプファイル • SPARQL Endpoint • dereferenceable
  39. 39. 39 スキーマの設計とは 作品タイトル:タピスリーの裸婦 作者:藤田嗣治 制作年:1923 ジャンル:絵画油彩その他 サイズ:126.0x96.0 収蔵館:京都国立近代美術館 … 作品タイトル:タピスリーの裸婦 作者:藤田嗣治 制作年:1923 ジャンル:絵画油彩その他 サイズ:126.0x96.0 収蔵館:京都国立近代美術館 … 作品タイトル:タピスリーの裸婦 作者:藤田嗣治 制作年:1923 ジャンル:絵画油彩その他 サイズ:126.0x96.0 収蔵館:京都国立近代美術館 … lodac:Work Property(一部項目省略) 資料分類 lodac:genre 文化財 lodac:culturalAssets 制作者 dc:creator / dc11:creator 国籍 crm:P7_took_place_at 作品名 dc:title / skos:prefLabel 作品名読み dc:title @ja-hrkt / skos:altLabel 作品名英語 dc:title @en / skos:altLabel 銘文 crm:P62I_is_depicted_by 印章 crm:P65_shows_visual_item 員数 crm:P57_has_number_of_parts コレクション dc:isPartOf 制作年 dc:created 推定始年 lodac:estimatedStartYear 材質 dc:medium / crm:P45_consists_of 1.どんな単位で情報をまとめるか 2.どんな項目があるのか 3.項目の値は文字や数字、それとも他の情報へのリンク?(リテラルあるいはリソース) 1.この項目は既存のスキーマにあるか。 あるなら使おう 2.ないなら自分で定義しよう Dublin Core (dc) SKOS Simple Knowledge Organization System (skos) CDOC-CRM
  40. 40. 40 データのつながりを作る 下村観山@ja foaf:name SHOMOMURA, Kanzan@en foaf:name lodac:creates crm:P98I_was_born 1873 作者のスキーマ 木の間の秋@ja dc:title Autumn Among Trees@en dc:title 1907 dc:created 作品のスキーマ 作品のリソース skos:prefLabel 収蔵館のスキーマ 1952 dc:created 東京国立近代美術館 dc:references DBpedia (Wikipedia) 外部のリソース crm:P55_has_c urrent_location 収蔵館の リソース 作品のリソース dc:creator
  41. 41. 41 データを作る • 既存のデータを一括して変換する – csvから変換する • Open refine • Linkdata.org • RDBからその都度変換する – D2R • 公開も同時
  42. 42. 42 RDF refine • Open refine – テーブル型のデータの洗練、変換ツール • RDF refine – Open refineの拡張 – RDFSの設定とそれに基づくRDF出力
  43. 43. 43
  44. 44. 44
  45. 45. 45 Linkdata.org • 理研が開発 • csvを読み込んで簡単にRDF化
  46. 46. 46 D2R • RDBからマッピングを通じ てRDFを出力 • マッピングファイル – 例 @prefix geo: <http://www.w3.org/2003/01/geo/wgs84_pos#> . map:posts_lat a d2rq:PropertyBridge; d2rq:belongsToClassMap map:posts; d2rq:property geo:lat; d2rq:propertyDefinitionLabel "posts lat"; d2rq:sqlExpression "posts.lat / (60.0 * 60.0 * 1000.0)"; d2rq:datatype xsd:double; . From http://qiita.com/sawamur@github/items/02b3ddfa3187df300342
  47. 47. 47 データを公開する • ダンプファイル – RDFデータをファイルとして置く。 • SPARQL Endpoint – データベースから自由にほしいデータを抜き出す • Dereferenceable – 個別のURI(IRI)にアクセスすると、それに関連した RDFを返す(それを主語とするRDFとか)
  48. 48. 48 SPARQL • RDFデータ問い合わせ言語 • SQLに似た構造 PREFIX foaf: <http://xmlns.com/foaf/0.1/> SELECT ?name WHERE { ?person foaf:name ?name . } クエリの変数 クエリのパターン (Turtle 形式) クエリのフォーム RDF Store (RDF Database) SPAQL Query SPARQL Query Language for RDF W3C Recommendation 15 January 2008 http://www.w3.org/TR/rdf-sparql-query/
  49. 49. 49 Linked Dataをどうやって使うのか Things Things Things Things Things Linked Data ブラウザ Linked Data サーチエンジン Linked Data マッシュアップ SPARQL RDF Store
  50. 50. 50 Tabulator
  51. 51. 51 http://sindice.co
  52. 52. 52
  53. 53. 53 施 設 ユーザ Yokohama Art Spot RDF ストア SPARQL エンドポイント RDF ストア SPARQL エンドポイント LODAC Museum 横浜LOD 作品 所蔵館 アーティスト アーティス ト 施設 イベント Yokohama Art Spot の構成 全体マップ表示における処理 施設 イベント HTML JavaScript Python SPARQLWrapper OWLIM SE ARC2 RDF ストア SPARQL エンドポイント PinQA 質問 回答 ユーザ SPARQL JSON D2R スポット
  54. 54. 54 施設情報ページにおける情報取得と表示 標準化された形式で記述 ユーザに適した表示が 簡単に実現可能 利用
  55. 55. 55 育なび.net
  56. 56. 56 育なび.netのシステム 育なび.net 保育園 データ 保育所 空き状況 データ 医療機関 データ 防災・減災 データ 他 元データはExcel RDFに変換 RDFストア データ格納 SPARQLを発行 レスポンス Webサーバ ブラウザ
  57. 57. 57 育なび.net 公園データ 広域避難場所データ 駐車場データ 健康遊具データ
  58. 58. 58 まとめ • オープンデータの5つのステップ – オープンライセンス – 機械可読フォーマット – データ供給者⇔サードパーティー⇔データ利用 者 • Linked Open Data (LOD) – “データのWeb”、つながるデータ • データの再利用性を高める – LODの作り方 • スキーマ設計、データ生成、データ公開 – LODの使い方 • SPARQL、マッシュアップ
  59. 59. 59 LODI/Linked Open Data初心者向け連続講座 講義の構成 (1)オープンデータ からLinked Open Dataへ (2)情報の構造化 (3)RDF入門 (4)スキーマとURI (5)LODの作り方・使 い方 (6)LODシステム実 践紹介 LODの枠組み全体を紹介 技術的な基礎知識 LODに関わる個々 の技術の紹介 実例の紹介
  60. 60. 60 今後の予定 第2回 6/2(月)▼情報の構造化(大向一輝) • LODへの最初の一歩として、情報を秩序立てて整理し、使い勝手を高める「構造化」について考えます。 図書館の情報や統計データを取り上げ、人にとっての構造化、コンピュータにとっての構造化の違いや シンタックス・セマンティクスといった概念を紹介します。 第3回 6/9(月)▼RDF入門(小出誠二) • RDF (Resource Description Framework) は,もともとはウェブ上に存在する資源(resource)についての データ(メタデータ)を記述するために定められたものですが,今日ではリンクト・オープンデータ(Linked Open Data,LOD)を理解して使いこなすうえで,必須のものとなっています.ひろく一般のRDFの初心者 を対象に,RDFの基礎から始めてさらに実務に進む手引きとなるように,最近のRDFに関する進歩も取り 入れつつ講義します. 第4回 6/23(月)▼スキーマとURI(加藤文彦) • 再利用しやすいデータを作成して共有するためには,データの構造やデータの中で使われる語彙を共通 にしたり,逆に違いを明確にしたりする必要があります.RDFにおいてそれらを実現する仕組みであるス キーマとURIについて紹介します. 第5回 6/26(木)▼LODの作り方・使い方(松村冬子) • これまで学んできたLODやRDFを実践的に作り,使う方法について講義します.日頃,データ管理によく 用いられる表形式のデータを無料ツールを使ってLODに変換する方法や,公開されているLODから SPARQLと呼ばれる問合せ言語を使って,欲しいデータを引き出す方法について学んでいきます. 第6回 7/7(月)▼LODシステム実践紹介(小林巌生) • LODを採用したシステム設計について実際の二つの例をもとに解説します。ヨコハマ・アート・LODでは、 公益財団法人横浜市芸術文化振興財団が管理する複数のウェブシステムをLODで統合し、データの共 有を実現しています。SPARQLエンドポイントを活用したアプリの開発などデータの応用例も広がってい ます。かなざわ育なび.netでは市役所内の複数の原課によってそれぞれ管理されていたデータをLODに よって統合して子育て世帯向けの情報提供サービスを実現しました。また、地域でのLODの実践につい て今後の展望についても紹介します。

×