データ共有基盤の構築に向けて
武田英明
takeda@nii.ac.jp
ORCID: 0000-0002-2909-7163
国立情報学研究所
科学情報学研究会, 2015年3月25日,東京理科大学森戸記念館
• 「論文」の未来 〜人間可読から機械可読へ〜
• 研究データ流通を支える情報基盤とは
• 「論文」の未来 〜人間可読から機械可読へ〜
• 研究データ流通を支える情報基盤とは
デジタル化以前の研究者
論文
データ
対象
文献調査 論文執筆
研究と執筆
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
010
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
010
現在の研究者
論文
データ
対象
文献調査 論文執筆
データ利用 データ公開
研究と執筆とデータ生成
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
0100101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111
1000111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101
0111110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010
101010
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
010
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
010
0101101110101101111100011110000110101010101111100011110000110101010101110101101111100011110000110101010101110101101110101101111100
0111100001101010101011111000111100001101010101011101011011111000111100001101010101011101011011101011011111000111100001101010101011
1110001111000011010101010111010110111110001111000011010101010111111000011010101011111110011100001101010101001101010101000011010101
0111000111100001101010101011101011011111000111100001101010101011111100001101010101111111001110000110101010100110101010100001101010
1010
今後の研究者
論文
データ
対象
データ利用 データ公開
論文・データの一体化
研究成果=データ生成
研究=データのサプライチェーン
研究成果のデータ化
研究成果としてのデータ公開
論文のデータ化
• 研究成果データとの一体化
• データ付録
• データ論文
• 論文自体がデータとして扱われる
• 大量論文のデジタル処理
• 人間のための論文からコンピュータのための論文へ
データのライフサイクルとデータ共有・公開
• データのライフライクルのステージによって異なるツールの役割
• データ共有:作成ツールとの連携、認証
• データ公開:検索、データ交換
• データ・アーカイブ:マイグレーション
• 基本的枠組みは共通
データ 共有作成 公開 保存
研究のフェーズ 研究中 成果公表
関与者
研究機関
研究者・研究グループ
リポジトリ
研究データ流通を支える情報基盤のレイヤー
識別子(ID)
コンテンツ
フォーマット
メタデータ
メタデータ・スキーマ
レイヤー間の有機的連携
レイヤーの相互運用性
メタデータ記述言語、メタデータ収集・検索、メタデータ変換
スキーマ記述言語、スキーマの収集・共有、スキーマ変換
システム開発、コミュニティ
管理組織・体制、ID連携
リポジトリ
研究データ流通を支える情報基盤のレイヤー
識別子(ID)
コンテンツ
フォーマット
メタデータ
メタデータ・スキーマ
DOI ORCID
FundRe
f
DataCite CrossRef JaLC Dublin Core DCAT CKAN Linked Data
組織 スキーマ システム 技術
協調と競争
Dspace Fedora Weko
メタデータ記述言語、メタデータ収集・検索、メタデータ変換
スキーマ記述言語、スキーマの収集・共有、スキーマ変換
システム開発、コミュニティ
管理組織・体制、ID連携
リポジトリ
研究データ流通を支える情報基盤のレイヤー
識別子(ID)
コンテンツ
フォーマット
メタデータ
メタデータ・スキーマ
DOI
DataCite Metadata Schema
JaLC Metadata Schema
JaLC DataCite
DOIの役割
• 解決可能(resolvable)、持続的(persistent)、相互運用
可能な(interoperable)リンクを提供
• 解決可能:標準化したID構文+handle systemによるマッ
ピング
• 持続的:
• 技術的インフラ:レジストリDBの運用、
• 社会的インフラ:登録機関(RA)への義務
• 相互運用可能:データモデル
DOI (Digital Object Identifier)
• 識別子(DOI name)からデジタルオブジェクトが存在する
URIに変換するサービス
• International DOI Foundation(IDF)が運営するサービス
(1998年~)
• 元々は出版社が識別子を共有するにつくった制度であ
るが、現在はより広範に様々なデジタルオブジェクトの
識別子を提供する制度に。
• 分散管理
• IDFは登録業務を行う団体(Registration Agency, RA)に委譲
• CrossRefは一つのRA
DOI (Digital Object Identifier)
• 識別子(DOI name)からデジタルオブジェクトが存在する
URIに変換するサービス
doi: 10.1007/978-3-642-
21616-9_30
http://www.springerlink.com/
content/xkj2386758245u85/
DOI URL
http://doi.org/10.1007/978-3-
642-21616-9_30
http://www.springerlink.com/
content/xkj2386758245u85/
URIとしてのDOI URL
DOI/CrossRefのメリット
• 論文著者
• 自論文が読まれやすく・引用されやすくなる
• 論文読者
• 確実に論文の本文テキストにたどり着ける
• 引用文献の本文テキストにたどり着ける[CrossRef]
• 出版社
• 確実に自社サイトに誘導できる
• 引用文献の同定が楽になる[CrossRef]
• 資金提供者、大学管理者
• 業績確認のために論文の有無が簡単にわかる
DOI運営の構造
• International DOI Foundation (IDF), 登録機関(Registration Agency, RA)、DOI付与
組織、の3層構造
• RAはIDFに対してレジストリDB登録、レジストリDB運営、会費などで貢献
• RAは自身の顧客(会員、契約者)にDOI登録サービスの提供
• DOI付与組織は自分のコンテンツに対してDOIを発行し、自身の契約するRAを通
じてDOI登録
DOI付与組織
RAs
IDF
CrossRef
出版社 出版社 出版社 出版社
DataCite
大学 図書館研究機関
JaLC
出版社 大学 学会
IDF Registration Agencies
• CrossRef
• 学術的な専門的な研究コンテンツ
• 雑誌論文、図書、学会予稿など
• 引用リンク、検索可能なメタデータデータベース
• mEDRA
• インターネット上の文書のための永続的引用システム
• 知的所有実体(intellectual property entities)相互の関
係トラッキング
• タイムスタンプや電子署名の認定
• OPOCE (Office des publications EU)
• EU 配下組織の出版物のためのDOI 管理を通じ、EU
の公式パブリッシャーとして機能
• China National Knowledge Infrastructure (CNKI)
• 中国の政治・経済・人文科学・科学技術などの情報。
• DataCite
• データセットに関する学術基盤構築。ベストプ
ラクティスの共有、
• 識別や名前解決の課題などへの取り組み
• EIDR
• 映画、テレビ番組、商業音声/映像資料への
レジストリ
• Wanfang Data Co., Ltd.
• 中国語雑誌のリンキングサービス構築と、中
国の科学データ管理
• Airiti, Inc
• 繁体中国語資料へのDOI
• ISTIC (The Institute of Scientific
and Technical Information of China)
• 中国語学術雑誌・中国の科学データ。
• Japan Link Center (JaLC)
CrossRef
• STM出版における引用関係を管理する仕組み
• 1999年~
• DOIのRA
• 世界70カ国に会員を持ち、現在登録されているDOIの大部分が
CrossRefのDOI。
• 機能:
• DOIのメタデータ(書誌データ、引用関係)の管理
• DOI登録
• メタデータを用いたサービス
• 書誌検索、引用検索
• Reverse look up:メタデータを検索して対応するDOIを返す
• この機能を用いて、出版社は個々の引用文献にDOIを付与
DataCite
• データを参照するための仕組み
• データセットにDOIをつける
Japan Link Center (JaLC)
• 平成24年3月に世界で第9番目に国際DOI財団(International DOI
Foundation, IDF) から、DOI登録機関(RA)の認定を受けた。
• 同年5月に4国内学術機関による共同で運営を開始
• 科学技術振興機構 (JST)
• 国立情報学研究所(NII)
• 国立国会図書館(NDL)
• 物質・材料研究機構 (NIMS)
JaLC会員と対象コンテンツ
• 出版社
• 学術出版(雑誌論文、書籍)
• 学会
• 学術出版(雑誌論文、書籍)
• 大学、研究機関
• 博士論文
• 大学出版物(紀要、テクニカルレポートなど)
• 機関リポジトリコンテンツ(教員出版物、OA公開物など)
• 研究データ
• 国立国会図書館
• 自館出版物、パブリックドメイン出版物、博士論文
• アグリゲータ:プラットフォーム提供者やハーベスターなど(JST、NIIなど)
• 準会員の支援
CrossRefの主たる対象
JaLC DOIの目指す方向
• 研究者の業績が全てカバーできるDOI
• 多様な研究論文
• 雑誌論文
• 紀要論文
• 書籍
• 博士論文
• 報告書
• テクニカルレポート
• ...
• データベース、データセット
• ソフトウエア
• 教育用コンテンツ
• ...
メタデータ・スキーマ
ジャーナル・アーティクル
書籍
データ
教育用コンテンツ
汎用
DOI登録の流れ
IDF
JaLC正会員
JaLC正会員
JaLC正会員
JaLC正会員
JaLC準会員JaLC準会員 JaLC準会員JaLC準会員
英文雑誌など会
員が希望するもの 研究データなど
JaLCメタデータDB
LHS
IDF RAs
JaLC会員
(DOI発行者)
【DOIとJaLCメタデータ】
【DOIとDOIメタデータ】
【DOIとCrossRefメタデータ】 【DOIとDataCiteメタデータ】
研究データへのDOI登録実験プロジェクト
• 2014年10月〜2015年9月
• 目的
• 日本における研究データへのDOI登録の仕組みを本プロジェクトへの
参加機関とともに新たに構築する
• 研究データへのDOIの持続性、対象の粒度、DOIの活用などを検討する
• 運用方法の検討やDOI登録のテストを実施し、今後の安定運用に
つなげる
• ゴール
• 研究データへのDOI登録のポリシーを策定する
• 新JaLCシステムにおいて適切な運用フローを確立する。フロー確立に
当たっては、DOI登録のテストを行って確認をとる
参加機関
機関 DOI登録対象とするデータの概要
科学技術振興機構 生命科学分野
国立極地研究所
地球科学・環境分野
(北極域、南極域における実験及び観測データ)
国立情報学研究所(地球環境情報統融合
プログラム(DIAS-P))
地球科学データ(地上観測データ,衛星観測データ、
気象予測モデル,気候変動予測モデル、その他社会データ)
国立情報学研究所
機関リポジトリの保有する研究データ等
(テキスト、画像、音声)
産業技術総合研究所 地質および材料系
情報通信研究機構
超高層物理学分野(地磁気データ、電離層データ、オーロラ画像
データ、衛星データ)
千葉大学附属図書館
一般的な研究データ、外部資金の助成による研究成果、
観測データ等のアーカイブ
物質・材料研究機構 <計画変更により再検討中>
理化学研究所
脳科学総合研究センター神経情報基盤センター 脳・神経科学分野
検討中の課題
a) 運用フロー
• 取りまとめ機関の位置付け
• データのライフサイクルと担当者・担当機関
• DOI登録の対象データ
• Prefixの割り当て方針
b) アクセスの持続性の保証
c) DOI登録対象の粒度
d) DOIのランディングページの要件の検討
e) 研究データの特性に応じた取り扱い
a) DOI登録後データ追加がある場合
b) データ量が多い場合
f) 研究データに登録したDOIの活用
27
データのライフサイクルと担当者・担当機関
識別子(ID)
メタデータ
コンテンツ
登録
作成 登録 修正
保存作成 公開 修正 破棄
データのライフサイクルと担当者・担当機関
識別子(ID)
メタデータ
コンテンツ
登録
作成 登録 修正
保存作成 公開 修正 破棄
研究者
図書館
これまでの機関リポジトリ
データのライフサイクルと担当者・担当機関
識別子(ID)
メタデータ
コンテンツ
登録
作成 登録 修正
保存作成 公開 修正 破棄
研究者
図書館
データリポジトリ
プロジェクト
研究機関
作成 登録 修正
JaLCメタデータ
ドメインメタデータ
研究者の識別子
• 人の識別子 ⊂ デジタルオブジェクトの識別子
• 人 ≠ デジタルオブジェクト
• 実体としての「研究者」の多面性
• 論文、書籍の著者
• 研究プロジェクトの参加者
• 大学・研究機関のメンバー
• …
• 研究者の識別子への要求仕様
• ユニーク性
• 多面性
ORCID
(Open Researcher and Contributor Identifier)
• 著者や研究寄与者を一意に同定するための識別子
• NPO 2011年~
• 出版社、大学、助成機関などのメンバーからなる
• サービス開始:2012年10月~
• 利用法:
• 論文投稿時
• 論文の著者欄
• 大学の業績管理
• …
ORCIDのメリット
大学
我が組織(学科、個別の研究者)の昨年の研究業績は?
うちからはどんなオープンアクセス論文をだしているのか?
我々の強い研究分野、弱い研究分野は?
学会
うちの会員の昨年の研究業績は?
うちの会員はどんなプロジェクトや研究助成、賞をとって
いるのだろう?
どのくらい会員同士の共同研究はあるのだろう?
研究助成機関
助成金応募者の著作論文は?
助成の結果として出版された論文は?
研究プロジェクトによってどんなデータセットが公開された?
出版社
ジャーナル投稿システムで効率的に著者と
査読者を補足したい
既出版論文を含めてもっと著者のことが知りたい
この著者と共同研究しうる査読者は?
研究者
過去5年に私が出版したものは?
興味あるこの論文の著者の他の論文は?
研究協力者をみつけるには?46533489
リポジトリ
助成機関出版社
学会
大学等研究機関
他の個人ID
メタデータ・スキーマ
• メタデータを記述する枠組み
• 相互運用性と分野固有性のトレードオフ
• 汎用的なスキーマと分野特有のスキーマ
• メタデータの多様性を活用する仕組み:Linked Data
いくつかの汎用的スキーマ
(Simple) Dublin Core
• 図書館コミュニティから
• DCMI (Dublin Core Metadata Initiative)による管理
• (Simple) Dublin Core
• たった15要素
• Simple is best
• 値域制約はない
• http://purl.org/dc/elements/1.1/
• 15 elements
• Title
• Creator
• Subject
• Description
• Publisher
• Contributor
• Date
• Type
• Format
• Identifier
• Source
• Language
• Relation
• Coverage
• Rights
39
dc terms
• Qualified Dublin Core
• 定義域と値域
• より精緻な語彙
• simple dcの拡張
Properties abstract , accessRights , accrualMethod , accrualPeriodicity , accrualPolicy , alternative , audience , available , bibliographicCitation ,conformsTo , contributor , c
overage , created , creator , date , dateAccepted , dateCopyrighted , dateSubmitted , description ,educationLevel , extent , format , hasFormat , hasPart , hasVer
sion , identifier , instructionalMethod , isFormatOf , isPartOf , isReferencedBy ,isReplacedBy , isRequiredBy , issued , isVersionOf , language , license , mediator ,
medium , modified , provenance , publisher , references ,relation , replaces , requires , rights , rightsHolder , source , spatial , subject , tableOfContents , tempor
al , title , type , valid
Properties in the
/elements/1.1/namespace
contributor , coverage , creator , date , description , format , identifier , language , publisher , relation , rights , source , subject , title , type
Vocabulary Encoding Schemes DCMIType , DDC , IMT , LCC , LCSH , MESH , NLM , TGN , UDC
Syntax Encoding Schemes Box , ISO3166 , ISO639-2 , ISO639-3 , Period , Point , RFC1766 , RFC3066 , RFC4646 , RFC5646 , URI , W3CDTF
Classes Agent , AgentClass , BibliographicResource , FileFormat , Frequency , Jurisdiction , LicenseDocument , LinguisticSystem , Location ,LocationPeriodOrJurisdiction ,
MediaType , MediaTypeOrExtent , MethodOfAccrual , MethodOfInstruction , PeriodOfTime , PhysicalMedium ,PhysicalResource , Policy , ProvenanceStatement
, RightsStatement , SizeOrDuration , Standard
DCMI Type Vocabulary Collection , Dataset , Event , Image , InteractiveResource , MovingImage , PhysicalObject , Service , Software , Sound , StillImage , Text
Terms related to the DCMI Abstract
Model
memberOf , VocabularyEncodingScheme 40
The Friend of a Friend (FOAF)
• 人と人の関係のメタデータ
• 自主的なプロジェクト
@prefix rdf: <http://www.w3.org/1999/02/22-rdf-syntax-ns#> .
@prefix foaf: <http://xmlns.com/foaf/0.1/> .
@prefix rdfs: <http://www.w3.org/2000/01/rdf-schema#> .
<#JW>
a foaf:Person ;
foaf:name "Jimmy Wales" ;
foaf:mbox <mailto:jwales@bomis.com> ;
foaf:homepage <http://www.jimmywales.com/> ;
foaf:nick "Jimbo" ;
foaf:depiction <http://www.jimmywales.com/aus_img_small.jpg> ;
foaf:interest <http://www.wikimedia.org> ;
foaf:knows [
a foaf:Person ;
foaf:name "Angela Beesley"
] .
<http://www.wikimedia.org>
rdfs:label "Wikipedia" .
Classes:
| Agent | Document | Group | Image | LabelProperty | OnlineAccount |
OnlineChatAccount | OnlineEcommerceAccount | OnlineGamingAccount |
Organization | Person | PersonalProfileDocument | Project |
Properties:
| account | accountName | accountServiceHomepage | age | aimChatID |
based_near | birthday | currentProject | depiction | depicts | dnaChecksum |
familyName | family_name | firstName | focus | fundedBy | geekcode |
gender | givenName | givenname | holdsAccount | homepage | icqChatID |
img | interest | isPrimaryTopicOf | jabberID | knows | lastName | logo | made
| maker | mbox | mbox_sha1sum | member | membershipClass | msnChatID
| myersBriggs | name | nick | openid | page | pastProject | phone | plan |
primaryTopic | publications | schoolHomepage | sha1 | skypeID | status |
surname | theme | thumbnail | tipjar | title | topic | topic_interest | weblog |
workInfoHomepage | workplaceHomepage | yahooChatID |
41
SKOS (Simple Knowledge Organization
System)
• タキソノミーに関するメタデータ
• 概念の階層的構造
• 件名標目のようなタキソノミーにために設計
• 上位下位関係はクラス・サブクラス関係とは一致しない
• W3C Recommendation 18 August 2009
42
• SKOS Core (hierarchical concept
structure)
• skos:semanticRelation
• skos:broaderTransitive
• skos:narrowerTransitive
• skos:broader
• skos:narrower
• skos:related
• skos:preflabel
• skos:altlabel
• skos:hiddenlabel
共通語彙基盤(IMI)とは
• 情報を正しく効率的に交換、活用していくために、人名、住所、物等、
データを体系的、かつ、構造的に定義するための仕組み。
43
検索
オープンデータ
システム連携
三鷹市立第四小学校
ic:建物_所在
ic:場所_地名
ic:場所_地理識別子
ic:場所_住所
ic:住所_住所
東京都三鷹市下連雀1
丁目25−1
ic:住所_構造化住所
ic:構造化住所_国
ic:構造化住所_都道府県 東京都
ic:構造化住所_市区町村 三鷹市
ic:構造化住所_町名 下連雀
ic:構造化住所_街区符号 1
ic:構造化住所_住居番号 25
ic:構造化住所_地番 1
ic:構造化住所_方書
ic:方書_方書
ic:方書_ビル名
ic:方書_部屋番号
ic:構造化住所_郵便番号 181-0013
ic:構造化住所_住所ID
ic:構造化住所_住所コード
ic:場所_経緯度座標
ic:経緯度座標系_測地系コード
ic:経緯度座標系_緯度
ic:緯度_度
ic:緯度_分
ic:緯度_秒
ic:経緯度座標系_経度
ic:経度_度
ic:経度_分
ic:経度_秒
ic:場所_UTM座標
ic:UTM座標系_UTM座標
ic:UTM座標系_UTM測地系ID
ic:UTM座標系_東距
ic:UTM座標系_グリッドゾーンID
ic:UTM座標系_グリッドゾーン格子 ID
ic:UTM座標系_北距
ic:場所_MGRS座標
ic:MGRS座標系_MGRS座標
ic:MGRS座標系_MGRS座標格子ID
ic:建物_施設情報
ic:施設_ID
ic:証明_識別ID
ic:証明_証明種類
ic:証明_発行日
ic:証明_失効日
ic:証明_発行者
ic:施設_名称 三鷹市立第四小学校
ic:施設_種別 小学校
ic:施設_商用区分
ic:施設_概要
小・中一貫教育校「連
雀学園」に属する小学
校。
項目名(Type/Sub-properties) 項目名(エントリー名) 英語名 データタイプ データタイプ(英語) cardinality 項目説明 項目説明(英語) サンプル値 Mapping to NIEM Mapping to ISA Joinup
人型 ic:人型 PersonType 人の情報を表現するためのデータ型。 nc:PersonType Person
氏名 ic:人_氏名 PersonName ic:氏名型 ic:PersonNameType 0..1 氏名 Name of a Person - nc:PersonName
性別 ic:人_性別 PersonSex <抽象要素> <abstract element, no type> 0..1 性別 Gender of a Person 1 nc:PersonSex gender
Substitutable Elements: Substitutable Elements:
性別コード ic:人_性別コード + PersonSexCode codes:性別コード型 codes:GenderCodeType 性別コード Gender of a Person 1 nc:PersonSexCode
性別名 ic:人_性別名 + PersonSexText ic:テキスト型 ic:TextType 性別の名称。 Gender of a Person 男 nc:PersonSexText
生年月日 ic:人_生年月日 BirthDate ic:日付型 ic:DateType 0..1 生年月日 Date of Birth of a Person - nc:PersonBirthDate dateOfBirth
死亡年月日 ic:人_死亡年月日 DeathDate ic:日付型 ic:DateType 0..1 死亡年月日 Date of Death of a Person - nc:PersonDeathDate dateOfDeath
現住所 ic:人_現住所 PresentAddress ic:住所型 ic:AddressType 0..1 現住所 - nc:PersonResidenceAssociationTyperesidency
本籍 ic:人_本籍 LegalResidence ic:住所型 ic:AddressType 0..1 本籍 -
国籍 ic:人_国籍 Citizenship <抽象要素> <abstract element, no type> 0..n 国籍
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
- nc:PersonCitizenship citizenship
Substitutable Elements: Substitutable Elements:
国籍名 ic:人_国籍名 + CitizenshipText ic:テキスト型 ic:TextType 国籍の名称。
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
日本国 nc:PersonCitizenshipText
国籍コード ic:人_国籍コード + CitizenshipCode codes:国籍コード型 codes:CitizenshipCodeType 住民基本台帳で利用されている国籍コード。
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
392 nc:PersonCitizenshipFIPS10-4Code
ISO3166Alpha2 ic:人_ISO3166Alpha2 + ISO3166Alpha2 iso_3166:ISO3166Alpha2CodeTypeiso_3166:ISO3166Alpha2CodeType 国名コード。ISO3166Alpha2。2文字コード。
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
nc:PersonCitizenshipISO3166Alpha2Code
ISO3166Alpha3 ic:人_ISO3166Alpha3 + ISO3166Alpha3 iso_3166:ISO3166Alpha3CodeTypeiso_3166:ISO3166Alpha3CodeType 国名コード。ISO3166Alpha3。3文字コード。
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
nc:PersonCitizenshipISO3166Alpha3Code
ISO3166Numeric ic:人_ISO3166Numeric + ISO3166Numeric iso_3166:ISO3166NumericCodeTypeiso_3166:ISO3166NumericCodeType 国名コード。ISO3166Numeric。数字3桁コード。
A county that assigns rights, duties, and privileges to a person because of
the birth or naturalization of the person in that country.
nc:PersonCitizenshipISO3166NumericCode
出生国 ic:人_出生国 BirthCountry ic:場所型 ic:LocationType 0..1 生まれた国。 A location where a person was born. nc:PersonBirthLocation countryOfBirth
出生地 ic:人_出生地 BirthPlace ic:場所型 ic:LocationType 0..1 生まれた場所。 A location where a person was born. nc:PersonBirthLocation placeOfBirth
氏名型 ic:氏名型 PersonNameType 氏名を表現するためのデータ型。 nc:PersonNameType
姓名 ic:氏名_姓名 FullName ic:テキスト型 ic:TextType 0..1 氏名(姓、名)。 Full name of a Person 経済  太郎 nc:PersonFullName fullName
カナ姓名 ic:氏名_カナ姓名 KanaFullName ic:カタカナテキスト型 ic:TextType 0..1 氏名(姓、名)のカナ表記。 Full name in Katakana. ケイザイタロウ
ローマ字姓名 ic:氏名_ローマ字姓名 RomanFullName ic:テキスト型 ic:TextType 0..1 氏名(姓、名)のローマ字表記。 Full name in Roman alphabet. Keizai Taro
姓 ic:氏名_姓 FamilyName ic:テキスト型 ic:TextType 0..1 姓。 Family name of a Person 経済 nc:PersonSurName familyName
カナ姓 ic:氏名_カナ姓 KanaFamilyName ic:カタカナテキスト型 ic:TextType 0..1 姓のカナ表記。 Family name in Katakana. ケイザイ
ローマ字姓 ic:氏名_ローマ字姓 RomanFamilyName ic:テキスト型 ic:TextType 0..1 姓のローマ表記。 Family name in Roman alphabet.
名 ic:氏名_名 GivenName ic:テキスト型 ic:TextType 0..1 名。 Given name of a Person 太郎 nc:PersonGivenName given name
カナ名 ic:氏名_カナ名 KanaGivenName ic:カタカナテキスト型 ic:TextType 0..1 名のカナ表記。 Given name in Katakana. タロウ
ローマ字名 ic:氏名_ローマ字名 RomanGivenName ic:テキスト型 ic:TextType 0..1 名のローマ字表記。 Given name in Roman alphabet.
ミドルネーム ic:氏名_ミドルネーム MiddleName ic:テキスト型 ic:TextType 0..1 ミドルネーム。 Middle name of a person nc:PersonMiddleName alternativeName
カナミドルネーム ic:氏名_カナミドルネーム KanaMiddleName ic:カタカナテキスト型 ic:TextType 0..1 ミドルネームのカナ表記。 Middle name in Katakana.
ローマ字ミドルネーム ic:氏名_ローマ字ミドルネーム RomanMiddleName ic:テキスト型 ic:TextType 0..1 ミドルネームのローマ字表記。 Middle name in Roman alphabet.
旧姓 ic:氏名_旧姓 MaidenName ic:テキスト型 ic:TextType 0..1 旧姓。 Maiden name. nc:PersonMaidenName birthName
カナ旧姓 ic:氏名_カナ旧姓 KanaMaidenName ic:カタカナテキスト型 ic:TextType 0..1 旧姓のカナ表記。 Maiden name in Katakana.
ローマ字旧姓 ic:氏名_ローマ字旧姓 RomanMaidenName ic:テキスト型 ic:TextType 0..1 旧姓のローマ字表記。 Maiden name in Roman alphabet.
語彙(ボキャブラリ)、
情報交換パッケージ(IEP)
Schema.org
検索エンジン大手が整備する
構造化データマークアップの共通仕様
情報交換パッケージに
より、システム間を連携
・高速な情報連携
・設計の効率化
用語の意味を確認し、情報
交換パッケージから、情報
を抽出
・サービス設計の効率化
・安定した情報連携
用語間の整理をしておくこ
とで、検索を効果的に実施
・検索の利便性の向上
・効果的な広報の実施
用語連携インタフェースは、用語の参照辞書を
整備することで、各種データの同一性の確認を
容易にし、その結果として、システム間の連携や
オープンデータの活用を容易にできる。
IMI共通語彙基盤の構造
• 情報交換のための用語連携インタフェースは、社会全体で使われる用語であるコ
ア語彙、共通語彙及びドメイン固有語彙から構成される。
コア
語彙
ドメイン固有語彙
各分野での利用に特化した語彙。
例)農作業、品種 など
市場
住所
病院
駅
災害
復旧費
ドメイン共通語彙
分野固有の語彙の内、他の分野で
も参照する主要な語彙。
例)商店、病院、食品名 など
コア語彙
どの分野でも利用される普遍的な語彙。
例)人、物、場所、施設、日付 など 地理空間
・施設
移動
・交通
農業
財務
ドメイン
固有語彙
ドメイン
共通語彙
既存の業界・企業内語彙
対応表で用語の置き換えをすることを基本とするので、各
組織は既存の用語体系を変更する必要が無い
44
用語の階層構造
• プロパティ用語のデータ型としてクラス用語を指定することができる。
その場合、データ型 であるクラス用語がまたプロパティ用語をもつ
ので、図のような概念的な階層構造をもつ
各国、コミュニティでの公共語彙 Core Data Model
• NIEM 3.0: 米国
• Stelselcatalogus: オランダ
• UN/CEFACT CCL 13B: 国連
• MUG-BII:
• Core Vocabularies RDF Schemas
• OASIS UBL Common Library 2.1
• KoSIT –XOV: ドイツ (Metadata Governance in the German public sector )
• Swedish Company data model
• eIDAS minimum dataset
http://mapping.semic.eu
Linked Open Vocabulary (LOV)
• 語彙流通のためのプラットフォーム
• スキーマの登録
• スキーマの検索
• http://labs.mondeca.com/dataset/lov/
• MetaBridge (日本)
• http://www.metabridge.jp/
47
typ
e
typ
e
type
Image
Title
Yokohama
Museum
Isamu Noguchiisamu@noguchi.jp
1989
近寄るとなぜか覗きたくなって
しまう「真夜中の太陽」越しに
「無言のうちに歩いている」を
見る。いつもと違った作品に出
会えます。
Description
Work
URI
URI
Creator
URI
3-4-1, Minato Mirai,
Nishi-ku, Yokohama
045-221-0300
MuseumPlace
URI
Figures:(c)2006 The Isamu Noguchi Foundation and Garden Museum/ARS,New York/SPDA,Tokyo
Creators and building figures:from wikipedia、Design:Iwao Kobayashi
真夏の太陽
Date
Creator
Is_located_in
Label Address
Phone
Category
Image
Image
NameE-address
wikipedia
Linked Data
• メタデータの記述
方式
• セマンティックWeb
技術の応用
• メタデータの相互
運用性、統合
• スキーマ間の関
係やスキーマ変
換
作者クラス作品クラス 場所クラス
LOD Cloud
49
570 datasets,
Last updated: 2014-08-30
Linking Open Data cloud diagram 2014, by Max Schmachtenberg, Christian Bizer, Anja Jentzsch and Richard Cyganiak. http://lod-cloud.net/
50
まとめ
• 研究成果はいずれ「データ」になる
• 研究データ流通基盤は必須の仕組み
• 研究データ流通はいくつかのレイヤー
• 識別子、メタデータ・スキーマ、メタデータ、コンテンツ、フォーマット、リポジトリ
• DOIは研究データ流通の重要な識別子
• これまでは論文に対する識別子
• これからデータに対する識別子でもある。DataCite
• 国内ではジャパン・リンク・センター(JaLC)がDOI登録機関
• JaLCでは現在、データDOI実験プロジェクト実施中
• 国内では初めて分野を超えた研究データ関連機関の連携プロジェクト
• 沢山のTO DO
• 世界における研究データ流通のそれぞれのレイヤーでの「協調と競争」にいかに加
わっていくか

データ共有基盤の構築に向けて