LODAC プロジェクト 中間発表会 資料
Upcoming SlideShare
Loading in...5
×
 

LODAC プロジェクト 中間発表会 資料

on

  • 1,635 views

 

Statistics

Views

Total Views
1,635
Views on SlideShare
1,633
Embed Views
2

Actions

Likes
2
Downloads
9
Comments
0

1 Embed 2

https://twitter.com 2

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

CC Attribution License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

LODAC プロジェクト 中間発表会 資料 LODAC プロジェクト 中間発表会 資料 Presentation Transcript

  • Linked Open Data for ACademiaLODAC Project-学術リソースのためのオープン・ソーシャル・セマンティックWeb基盤の構築 -武田英明takeda@nii.ac.jp国立情報学研究所Linked Dataでつくる新しいデータの世界情報・システム研究機構 新領域融合研究センター「異分野共有資源共有・協働基盤の構築」プロジェクト 中間報告会2012年12月10日
  • Linked Open Data for ACademia本プロジェクトの狙い• Linked Dataによるデータ共有を実現する仕組みを確立する–実践による探求:実際にデータをつくる• サービス化、サービス提供• 経験の蓄積と方法論化• 問題の洗い出しと解決
  • Linked Open Data for ACademiaLinked Data• Tim Berners-Leeが提唱する新しいデータ共有の仕組み– これまでのWeb:文書のWeb (Web of Documents)– Linked Data: データのWeb (Web of Data)• 孤立したデータの島から世界でつながるデータのcloudへ
  • Linked Open Data for ACademia文書のWeb
  • Linked Open Data for ACademiaデータのWebこのデータに対応する別のデータこのデータに別のデータと同じこの属性の意味は?異なるデータ源のデータが相互に結びつく
  • Linked Open Data for ACademiaLinked Dataの記述のしかた• RDF(+RDFS, OWL)の利用– 簡便な記述方法:<主語> <述語> <目的語> .<http://www-kasm.nii.ac.jp/~takeda#me> rdfs:type foaf:Person .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:name “武田英明” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:gender “male” .<http://www-kasm.nii.ac.jp/~takeda#me> foaf:knows <http://foaf.me/danbri#me> .<http://www-kasm.nii.ac.jp/~takeda#me><http://foaf.me/danbri#me>foaf:knowsfoaf:Personrdfs:type“武田英明” “male”foaf:name foaf:gender
  • Linked Open Data for ACademiaLinked Open Data (LOD)• オープンでリンクできるデータ– 今のWebが“文書のWeb” 、LODは“データのWeb”• Linked Dataの5原則– 事柄の名前にURIを使うこと– 名前の参照がHTTP URIでできること– URIを参照したときに関連情報が手に入るように理解可能なデータを提供– 外部へのリンクも含めよう(必ずしもオープンとは限らない⇒Linked Data)
  • Linked Open Data for ACademiaLOD Cloud: 相互リンクがある200以上のデータセット世界におけるLODへの取り組み
  • Linked Open Data for ACademiaBio2rdf
  • Linked Open Data for ACademia本プロジェクトの成果• 美術館・博物館データのLOD化による統合(LODAC MUSEUM)• 生物種データのLOD化による統合(LODAC SPECIES)• 関係するデータ、ソフトウエアの構築– 地理データ (LODAC LOCATION)– DBpedia Japanese– CKAN日本語化
  • Linked Open Data for ACademia本プロジェクトでの構築したDBLODAC SPECIES: 種名をベースに多様なDBをリンクで接続博物館標本DB種情報DBTaxonName DBGBIF BioSci.DB個別研究DB名前数: 113118トリプル数:14,532,449Data from Source BIntegrated datadc:references dc:referencesdc:references dc:referencesdc:references dc:referencesdc:creatordc:creatorcrm:P55_has_current_locationcrm:P55_has_current_locationcrm:P55_has_current_locationdc:creatorData from Source AWorkMuseumCreatorMinimum Data to identify entitiesRaw Data for entities Raw Data for entitiesLODAC Museum: 博物館・美術館のデータのLOD検索拡張アプリCKAN (日本語):データセット登録レジストリDBPedia JapaneseLODAC Location:位置情報統合
  • Linked Open Data for ACademiaLinked Dataに基づくデータ処理• 収集:RDB等からの変換、Webスクレイピング• 洗練:スキーマ定義、スキーマに基づく変換• 統合:スキーママッピング、IDマッピング• 公開:RDFデータ公開、SPARQLエンドポイ収集 洗練 統合 公開 利用RDFほとんどの処理はRDFで行われる
  • Linked Open Data for ACademiaLODAC Museum• Linked Dataによるデータ処理のテストベッド• 美術館・博物館情報の特徴– 分散性:国内だけでも6,000– 大規模性:それぞれが102~104のデータ– スキーマの統一性と多様性:一定の標準+α– 統合可能性:作者、作品、場所、モチーフなど– リンク性:様々な分野の他のデータとのリンクの可能性
  • Linked Open Data for ACademiaLODAC Museum• 国内の美術館の収集公開品に関するDB– 現在• トリプル数:40,059,131– 館数:114• 博物館Webサイトからのコレクション情報• サイエンスミュージアムネットからの標本情報• 作者、施設等によるデータ統合• RDFによるデータ公開• いくつかのアプリケーション
  • Linked Open Data for ACademiaWebサイトから収集した情報のRDF化の効率化属性 属性値{"institution": "iwate_art_museum",“segment": "20110516142455","digest": "c9d1c62a480d8d80005a24583ec1fb12","作品分類": "彫刻等[金属]","tstamp": "20110516052459778","作品名": "三人の妖精(さんにんのようせい)","anchor": "004790001_sakuhin.html","title": "岩手県立美術館 日本語版", ““institutionalId": "004790001_sakuhin",… ・・・"技法/材質": "/ブロンズ/","作家名": "アリスティード・マイヨール“}属性・属性値(JSON)RDF生成RDFsubject:自動生成したURIpredicate:属性にマッピングしたプロパティobject:属性値コレクション全体のプロパティコレクションごとのマッピングルール変換処理とマッピングルールの考案を分離博物館Webサイトスクレイピング(Apache Solr)マッピングルール(JSON){"meta": {"institutionalURI": "http://lod.ac/id/8144","institutionalName": "岩手県立美術館","dc:source": "http://www.ima.or.jp","dc:rights": "岩手県立美術館"},"rules": {"lodac:genre": [ { "name": "作品分類" } ],"dc:title": [{ "name": "作品名",”lang": "ja",・・・],"dc:created": [ { "name": "制作年" } ],"dc11:creator": [ { "name": "作家名", "lang": "ja" } ],......}ルール考案専門知識を有するユーザ<http://lod.ac/ref/821708><http://lod.ac/ns/lodac#genre> "彫刻等[金属]" ;<http://purl.org/dc/elements/1.1/creator> "アリスティード・マイヨール"@ja ;<http://purl.org/dc/terms/created> "1937年" ;<http://purl.org/dc/terms/extent> "高さ158.0" ;<http://purl.org/dc/terms/isReferencedBy> <http://lod.ac/id/821708> ;<http://purl.org/dc/terms/medium> "/ブロンズ/"@ja ;<http://purl.org/dc/terms/rights> "岩手県立美術館" ;収集
  • Linked Open Data for ACademiaメタデータ設計• 基本構造– 作品 – 作者 – 収蔵館• 専門的正確さより相互運用可能性、簡便性を優先– DC> DCTerm> FOAF> iCal >SKOS>NDLSH> RDA> CIDOC CRM– できるだけフラット構造PREFIX URIcrm http://purl.org/NET/cidoc-crm/core#dc http://purl.org/dc/terms/dc11 http://purl.org/dc/elements/1.1/foaf http://xmlns.com/foaf/0.1/skos http://www.w3.org/2004/02/skos/core#rdfs http://www.w3.org/2000/01/rdf-schema#ical http://www.w3.org/2002/12/cal/ical#rda2 http://RDVocab.info/ElementsGr2lodac http://lod.ac/ns/lodac#lodac:Work Property(一部項目省略)資料分類 lodac:genre文化財 lodac:culturalAssets制作者 dc:creator / dc11:creator国籍 crm:P7_took_place_at作品名 dc:title / skos:prefLabel作品名読み dc:title @ja-hrkt / skos:altLabel作品名英語 dc:title @en / skos:altLabel銘文 crm:P62I_is_depicted_by印章 crm:P65_shows_visual_item員数 crm:P57_has_number_of_partsコレクション dc:isPartOf制作年 dc:created推定始年 lodac:estimatedStartYear材質 dc:medium / crm:P45_consists_ofメタデータ要素作品: 46作者: 23組織: 13書誌: 12洗練
  • Linked Open Data for ACademia統合のポリシー• どうやって異なる情報源の情報を統合するか– 責任の分担• 各情報源はその情報に対する責任– LODACは単にIDを同定して管理。• LODACは統合の部分だけの責任– LODAC IDを各情報源IDに関連づけるData from Source BIntegrated datadc:references dc:referencesdc:references dc:referencesdc:references dc:referencesdc:creatordc:creatorcrm:P55_has_current_location crm:P55_has_current_locationcrm:P55_has_current_location dc:creatorData from Source AWorkMuseumCreator統合
  • Linked Open Data for ACademia例:作者情報の統合• 作者情報統合の手順– 統合元:日本美術シソーラス絵画編– 統合対象:各情報源データ中の作者情報– 統合元:文字列マッチング– 作品情報中の作者と作者ノードを関連づけるLODAC dataLink to WorkDBpediaBasic Informationfor CreatorsLinks統合
  • Linked Open Data for ACademiaデータ統合19情報源 情報種別 データ数国立美術館(西美を除く3館) 作品 25180国立西洋美術館 作品 4373京都国立博物館 作品 5819奈良国立博物館 作品 431福島県立美術館 作品 20栃木県立美術館 作品 32秋田県立近代美術館 作品 22岩手県立美術館 作品 1558徳島県立近代美術館 作品 18482山梨県立美術館 作品 262東京都現代美術館 作品 5416香川県立東山魁夷せとうち美術館 作品 266日本美術シソーラスDB 作品 3800日本美術シソーラスDB 人物 1332日本美術シソーラスDB グループ 289日本美術シソーラスDB 所蔵館情報 648文化遺産オンライン 所蔵館情報 915国指定文化財データベース 作品 10115合計 103096総データ数 特定項目キーの単純文字列統合実験結果統合項目 情報源 データ数 統合数所蔵館名 日本美術シソーラス 648 77文化遺産オンライン 915国宝・重文資料タイトル日本美術シソーラス(作品) 3800 74国指定文化財DB(作品) 10115作者名による資料タイトル日本美術シソーラス(人物) 1332 15020各館(作品) 61861作者名 日本美術シソーラス(人物) 1332 615各館(作品) 61861「国宝・重文」日本美術シソーラスに略称のタイトル表記が多く,単純文字列マッチでは少ない値となった「機械処理による可能性」複合的な項目に対して複数アルゴリズムによる抽出統合
  • Linked Open Data for ACademiaデータ公開• RDF公開– 参照解決可能なかたちでの公開• SPARQLアクセス– SPARQLエンドポイント公開
  • Linked Open Data for ACademiaName of creatorLODAC ID and associated Ref-Resource IDs作者ページの例公開
  • Linked Open Data for ACademia公開
  • Linked Open Data for ACademiaLinked Dataの利用- Yokohama Art Spot -• 博物館情報と横浜の地域情報のLODを連携したWebアプリケーション• 横浜市内のアート関連情報– 施設情報– イベント情報– 収蔵品情報(一部の施設のみ)– Q&A情報LODAC Museum × 横浜LOD ×PinQA(博物館情報)(地域情報)http://lod.ac/apps/yas/利用スポット情報
  • Linked Open Data for ACademia施 設ユーザYokohama Art SpotRDFストアSPARQLエンドポイントRDFストアSPARQLエンドポイントLODAC Museum横浜LOD作品所蔵館アーティストアーティスト施設イベントYokohama Art Spot の構成全体マップ表示における処理施設イベントHTMLJavaScriptPythonSPARQLWrapperOWLIM SEARC2RDFストアSPARQLエンドポイントPinQA質問回答ユーザSPARQLJSOND2Rスポット
  • Linked Open Data for ACademia施設情報ページにおける情報取得と表示•施設名•アクセス•ジャンル•休館日•住所•周辺地図イベント情報(タイムライン表示)イベント情報(リスト表示)すべて横浜LODのデータを使用利用
  • Linked Open Data for ACademia施設情報ページにおける情報取得と表示標準化された形式で記述ユーザに適した表示が簡単に実現可能利用
  • Linked Open Data for ACademia施設情報ページにおける情報取得と表示所蔵品情報(リスト表示)所蔵品の提示・リンクはLODAC Museum から取得横浜LODだけでは不可能な情報探索が実現可能利用
  • Linked Open Data for ACademiaLODAC Species• 生物多様性情報のLinked Data化• 特徴– 分散性:多数のDB• 分子生物学から生態学まで• 個別の種ごと、個別の関心ごと– 大規模性:– スキーマの統一性と多様性• 一定の統一性(学名など)、分野固有データ– 統合可能性:種やタクソンは共有– リンク性:多様な分野とのつながり• 他の科学(極域科学、バイオミメティクス)• 市民科学• 教育
  • Linked Open Data for ACademia生物多様性情報• 種名情報– 生物名の目録の情報• 分布情報– 標本や観察記録などの情報• 種情報– 生物種の特徴を示す情報学名:Papilio xuthus和名:ナミアゲハ界名:動物界門名:節足動物門綱名:昆虫綱目名:鱗翅目科名:アゲハチョウ科標本所蔵館:茨城自然博物館:
  • Linked Open Data for ACademiaPhoto of Papilio xuthus:北九州市立自然史・歴史博物館Papilio xuthus標本種の同定採集者採集場所命名文献言及著者シーケンス著者種情報Papilio上位/下位タクソン文献
  • Linked Open Data for ACademia生物種情報の現状種名情報分子情報Encyclopedia of LifeサイエンスミュージアムネットBOLD目的に応じて収録する種の範囲が異なる(収録ポリシーの違い:広く/深く/特定の目的/…)WikipediaWikispeciesNCBI目的に応じて異なるサイト(それぞれに異なる情報)相互のリンクは必ずしもあるわけではない分布・標本情報種情報GBIFCatalogue of LifeSpecies 2000ITIS (Integrated TaxonomicInformation System)
  • Linked Open Data for ACademia公開されている生物多様性情報• GBIF:The Global Biodiversity Information Facility– 地球規模生物多様性情報機構– 種名・分布情報• EoL:Encyclopedia of Life– 種情報• CoL:Catalogue of Life– 種名情報– 分類群に関する情報• BOLD:Barcode of Life Data Systems– DNA・標本情報• サイエンスミュージアムネット(S-Net)– 標本情報– GBIF と連携– 国立科学博物館が運営
  • Linked Open Data for ACademiaLODAC Species• データベース:辞書、専門図鑑、標本データ• 統合的データモデルの構築とデータ統合– “名前による緩やかな統合”• インターフェース– HTML• 個別の標本情報を閲覧• 関連する情報をリンク経由で閲覧– SPARQL endpoint• ある種に関する標本情報の取得など柔軟な検索• アプリケーション– タクソンを使った検索支援• CiNiiにおける文献検索• DBCLSにおけるデータベースメタデータ検索支援– GISを使った可視化
  • Linked Open Data for ACademiaLODAC Species• 統合データベース– 図鑑等の文献• 生物学辞書(BDLS): DBCLSが多数の図鑑等から作成したもの– 生物標本情報• サイエンスミュージアムネット(国立科学博物館/JBIF)– 専門家が管理しているDB• 日本産蝶類和名学名便覧(日本昆虫学会/JBIF)• 南極昭和基地周辺の蘚苔類・地衣類・種子植物の標本データ(極地研)– 蘚苔類 (例: http://lod.ac/id/2571912 )– 地衣類(Lichens) (例: http://lod.ac/id/2631214 )• 動物標本データベース (例: http://lod.ac/id/2628412 )収集
  • Linked Open Data for ACademia統合のアプローチ• 種名・分類体系のグラフ• 緩やかに関係を辿れるように• リンクのルーティングChineseSwallowtailPapilio xuthusLinnaeus, 1767ナミアゲハPapilioPapilio xuthusTaxonspeciestypehttp://eol.org/....http://www.catalogueoflife.org/...http://ja.wikipedia.org/....http://www.ncbi.nlm.nih.gov/...タクソン名のネットワーク統合
  • Linked Open Data for ACademia統合データモデルSpecimenrdf:typespeciesinstitutionNamecollectedDatecollectionLocalitycrm:has_current_locationBryophytesTaxonNameScientificNameCommonName TaxonRankspeciesrdfs:subClassOfrdfs:subClassOfrdf:typerdf:typehasCommonNamehasScientificName hasSuperTaxonrdf:typehasTaxonRankrdf:typehasTaxonRankrdf:typeButterflyBDLSdcterms:sourcedcterms:publisher: Named Graph: owl:Class統合
  • Linked Open Data for ACademia統合結果• トリプル数– 14,532,449• Taxon names– 443,248• Scientific name– 226,141• Common name– 219,865• hasScientificName property node– 87,160• hasCommonName property node– 84,610統合
  • Linked Open Data for ACademiaLODAC MuseumLODAC SpeciesS-Net表示例http://lod.ac/ref/1674506公開
  • Linked Open Data for ACademia検索支援公開http://lod.ac/apps/lsdcs
  • Linked Open Data for ACademiaGISインタフェース公開http://dl.dropbox.com/u/22017402/nipr_map.html
  • Linked Open Data for ACademia知見• データベース統合における分野依存性、非依存性の発見– 多くの共通性:• 名前による統合の有効性と限界• ID付与方針– 個別性• 学名の扱い、名前のない個物の扱い• 統合データベースの有効性– 新たなるデータの価値への誘導
  • Linked Open Data for ACademia今後の展開
  • Linked Open Data for ACademia共有収集利用 創造公開データ中心科学のためのオープン・データ・ライフサイクル基盤の研究開発• データ・ライフサイクル– データの生産(創造)から共有、再利用までの循環が重要– このサイクルをいかにシームレス、ボーダレスに実現するか• オープン・データ・ライフスタイル基盤構築の技術チャレンジ– 利用• 情報抽出技術– 創造• オントロジー構築技術• データ統合技術– 公開・共有• Web技術– 技術統合化・目標- 領域内データ共有の加速- 横断的研究の促進新たな発見、組み合わせ- Citizen Scienceへのアプローチ
  • Linked Open Data for ACademiaオープン・データ・サイクル基盤構築の実現に向けてのアプローチ研究データ研究プログラム研究データ研究プログラム研究データ研究プログラム地層ハブデータGISハブデータXハブデータ公開技術情報抽出統合技術情報組織化個別研究個別研究個別研究データ・サイクル基盤• Linked Dataに基づくプラットフォーム– Web技術のデータへの適用• “文書のWeb”から”データのWeb”へ• 公開・共有の基盤技術• オープンデータのデファクト– セマンティックWebの技術の利用• 技術的蓄積• 情報抽出、オントロジー推論
  • Linked Open Data for ACademiahttp://lod.ac