0
超高層物理学における
データ集約型科学の
第4の科学に関する調査
小山 幸伸 *1, 蔵川 圭 , 佐藤 由佳 , 田中 良
昌,
池田 大輔 , 阿部 修司 , 堀 智昭 , 新堀 淳樹 ,
八木 学 , 上野 悟 , 橋口 典子 , 谷田貝...
The FOURTH PARADIGM
DATA-INTENSIVE SCIENCE DISCOVERY
• Writer: Gordon Bell, Jim
Gray, Peter Fox, etc.
• Oct., 2009 … 4th P...
The FOURTH PARADIGM
DATA-INTENSIVE SCIENCE DISCOVERY

電離圏電気伝導度
モデル詳細
は、 CAWSES-II
にて!
文献事業と、データの融合の、
http://research.micro...
The Loyal Society of London
Philosophical Transactions
4 代 家
綱時代

タイトルに加え、著者
も
センタリングされた!

約350年前に論文スタイルが確
立!
doi:10.1098/...
論文の変革の兆し
• PEPS 誌、 EPS 誌 → オープンアクセス
• PLOS ONE, altmetrics
– 雑誌単位の IF 評価 → 論文単位の評価
• PANGAEA & ELSEVIER
– 地球科学のデータ出版とジャーナル...
持続可能なデータ公開活動の環境構築が、
地球物理の課題
– 観測・データ整備等のデータ公開活動の重要性。

徳
川
家

• 共通認識

• 現状
– 研究者が教育・研究の合間にボランティアで活動。
– データ公開活動そのものは評価の対象でない...
データ公開活動の収益構造の確立
1. DOI をデータセットに付与する。
2. ジャーナルから引用する。
•

データ提供者側
の
DOI と ORCID がポイント … 論文の世界で使われて
いるものと同じ識別子を、データ用に意図的に使う!
...
文献とデータセットの結合
DOI,
ORCID

Literature

Derived &
Recombined Data

DOI,
ORCID

Raw Data
文献とデータセットの
不完全
• 現状の Data Publication & Citation
は、 Journal Publishing 目線。 → 科学
的な REUSE×
• (海外の)図書館業界(教育+研究支
援)
• ビッグディール...
前述の動きに呼応した
IUGONET XML Schema の再定義

学術出版を頂点とした科学データの REUSE の準備をし 10
10
た。
次なる問題点:
Derived & Recombined Data

理論

観測

数値計算
Derived & Recombined Data は、
インターネット上での共有が進んでいない。

Derived & Recombined Data が共有されたとき、学術出
版のパラダイムシフトが起こる。
追記:第2層のイメージ
Wiki
Wiki

Branch

Fork
Fork
Commit ID
Commit ID
Public/
Public/
Private
Private
第1、2層の仲介は
第1、2層の仲介は
Java Web ...
まとめ
• 第 4 の科学に向けた下準備とし
て、 IUGONET   XML Schema を、
• データセットの DOI 、
• 文献の DOI 、
• 著者 ID 、
• ライセンス条項
• と紐づけた。
• Derived & Rec...
研究者の評価指針
• 研究成果 = 論文 (Impact Factor)
※ I/F は本来は雑誌の評価用で、研究者個人の評
価用では無いけど、いちおう数字を足し上げる
ことは可能。
• データを論文に紐付けておけば、データ活動の
貢献も定量化...
追記:第2層のイメージ
Fork
Fork
Wiki
Wiki
Branch
Commit ID
Commit ID
Public/
Public/
Private
Private
第1、2層の仲介は
第1、2層の仲介は
Java Web St...
IUGONET のメタデータ
• Raw Data ファイルと1対1で紐づく粒度で、メ
タデータを記述 (Granule リソースタイプ ) 。
• 知見情報の記述は、現在していない。
(Annotation リソースタイプで記述可能 )
• ...
科学的データの階層
• 3つの階層
– Literature
– Derived and Recombined Data
– Raw Data
• 階層の要素
– 同一の階層の要素は互いに関
係を持つ
– 隣り合う階層を構成する要素
が互いに関...
データレイヤーとの相互展開
出版レイヤー
データレイヤー
中間データ
利用する

研究者
作成する
生データ

19
19
The origin of Journal Publication
• Title: Philosophical
Transactions
• Publisher: Royal
Society of London
• Mar. 6, 1665 ...
データ / メタデータ作成者の収益構
造
DOI
DOI

DOI
DOI
未
未
ORCID
ORCID

ORCID ID を検索キーとした“論文”と“データ / メタデータ”の横断21
検索

21
TimeLine
2013.6

2014.4

JaLC
対象拡大 WG

WDS ?
NiCT

データセット受付ス
タート

財源の議論

地磁気セ
メタデータ試作 (DataCite Schema -> JaLC
Schema)
文献の...
Tim Burners-Lee
• ティム・バーナー
ズ・リーの手のひら
の上に乗っているこ
とを忘れない!
• Internet
• Semantic Web
• Linked Open Data
• 相互運用性
(Interoperabil...
まとめ
• IUGONET プロジェクトの XML  
Schema を実験的に拡張した。
→ データ活動に関する貢献を、論文で使
われているのと同種の識別子 (ORCID,
DOI) を用いて、個人単位で、役割を付与
して、メタデータ化出来る...
Web 上の学術情報の識別子
• オブジェクトの識別子
– DOI (Digital Object Identifier)
• CrossRef (1999 - , PILA)
• DataCite (2009 - , BL and libra...
地磁気センターの仕事

データジャーナルの立ち上がり、ジャーナル掲載を待つのは得策
でない。
1. 地磁気センターニュース
(含:峰山の記事とデータセットの DOI )を
ペーパーと見立てる。
2. KURENAI に登録しオンライン化。
3....
サイテーションメカニズムを利用した
サービス例
• 論文の引用
– Citation Index
– Impact Factor
– H-index

• 論文引用サービス例
–
–
–
–

Web of Science (TR)
Scopu...
OAI-ORE
(Open Archives Initiative – Object Reuse and Exchange)

• Open Archives
Initiative が 2008 年
に公開
• あらゆる学術情報リ
ソースを U...
ORCID
(Open Researcher and Contributor ID)
• 論文著者の名寄せを解決したい
• 学術論文のデータベースでは、 2 つの方法がと
られてきた
– 計算機による名寄せ
• 例

– Scopus Auth...
出版レイヤー
サイテーションメカニズムを構成する世界
論文
引用する

書く
研究者

データ
作成する

30
30
DOI, ORCID と URI
• 学術情報の識別子
– DOI
• prefix / suffix
– ORCID
• 16 digit numbers

• インターネット上の
識別子を
URI(Uniform
Resource Iden...
DOI (Digital Object Identifier)
• インターネット上のオブジェクトへのアク
セス可用性を高品質に担保する仕組みと管
理体制
• 論文ごとに DOI を付与するのが基本
• CrossRef は、ジャーナル論文、本...
データ活動の評価向上
• 月刊 学術の動向、
2012年6月号
• 「科学データの長期保全
とグローバルな共有」

• 声を上げることは重
要。
• しかしながら、デー
タ活動の科学への貢
献度を定量的に示す
ことが必須。

33
インターネット上の学術情報流通の飽
くなき展開
NII のような文献事業からの展開
研究サイクルの加速

IUGONET のような
データサイエンスからの展開

34
34
IUGONET
•

2009年 スタートの基盤整備
事業
• 分野横断型データベース
• データ解析ソフトウェア

•

図書系の DSpace をカスタマイ
ズ

•

2009 年 2 月の時点では、下図
のようにぼんやりしていた。

•...
Upcoming SlideShare
Loading in...5
×

Sgepss2013 koyama

111

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
111
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
1
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Sgepss2013 koyama"

  1. 1. 超高層物理学における データ集約型科学の 第4の科学に関する調査 小山 幸伸 *1, 蔵川 圭 , 佐藤 由佳 , 田中 良 昌, 池田 大輔 , 阿部 修司 , 堀 智昭 , 新堀 淳樹 , 八木 学 , 上野 悟 , 橋口 典子 , 谷田貝 亜紀 代, 能勢 正仁 , 家森 俊彦 京都大学大学院理学研究科 附属地磁気世界資料解析センター *1 1
  2. 2. The FOURTH PARADIGM DATA-INTENSIVE SCIENCE DISCOVERY • Writer: Gordon Bell, Jim Gray, Peter Fox, etc. • Oct., 2009 … 4th Paradigm • Dec., 2009 …   DataCite any other in 2009? • Jul., 2009 …   IUGONET http://research.microsoft.com/enus/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf 2
  3. 3. The FOURTH PARADIGM DATA-INTENSIVE SCIENCE DISCOVERY 電離圏電気伝導度 モデル詳細 は、 CAWSES-II にて! 文献事業と、データの融合の、 http://research.microsoft.com/enus/collaboration/fourthparadigm/4th_paradigm_book_complete_lr.pdf 無骨な現れが IUGONET の 3
  4. 4. The Loyal Society of London Philosophical Transactions 4 代 家 綱時代 タイトルに加え、著者 も センタリングされた! 約350年前に論文スタイルが確 立! doi:10.1098/rstl.1665.0007 R. Boyle doi:10.1098/rstl.1668.0016 G. D. Cassini 4
  5. 5. 論文の変革の兆し • PEPS 誌、 EPS 誌 → オープンアクセス • PLOS ONE, altmetrics – 雑誌単位の IF 評価 → 論文単位の評価 • PANGAEA & ELSEVIER – 地球科学のデータ出版とジャーナル出版の融 合 (DataCite – PANGAEA – ELSEVIER から、 JaLC – IUGONET - JpGU にならない??) 5
  6. 6. 持続可能なデータ公開活動の環境構築が、 地球物理の課題 – 観測・データ整備等のデータ公開活動の重要性。 徳 川 家 • 共通認識 • 現状 – 研究者が教育・研究の合間にボランティアで活動。 – データ公開活動そのものは評価の対象でない。 6
  7. 7. データ公開活動の収益構造の確立 1. DOI をデータセットに付与する。 2. ジャーナルから引用する。 • データ提供者側 の DOI と ORCID がポイント … 論文の世界で使われて いるものと同じ識別子を、データ用に意図的に使う! データ提供者側 データ利用者 資金提供者側 7
  8. 8. 文献とデータセットの結合 DOI, ORCID Literature Derived & Recombined Data DOI, ORCID Raw Data
  9. 9. 文献とデータセットの 不完全 • 現状の Data Publication & Citation は、 Journal Publishing 目線。 → 科学 的な REUSE× • (海外の)図書館業界(教育+研究支 援) • ビッグディール問題の次は、科学データ取り 扱いへ。 → 行き詰まり中 データ提供者側 データ利用者 資金提供者側 9
  10. 10. 前述の動きに呼応した IUGONET XML Schema の再定義 学術出版を頂点とした科学データの REUSE の準備をし 10 10 た。
  11. 11. 次なる問題点: Derived & Recombined Data 理論 観測 数値計算
  12. 12. Derived & Recombined Data は、 インターネット上での共有が進んでいない。 Derived & Recombined Data が共有されたとき、学術出 版のパラダイムシフトが起こる。
  13. 13. 追記:第2層のイメージ Wiki Wiki Branch Fork Fork Commit ID Commit ID Public/ Public/ Private Private 第1、2層の仲介は 第1、2層の仲介は Java Web Start !? Java Web Start !? Github + Dropbox が近い 13 13
  14. 14. まとめ • 第 4 の科学に向けた下準備とし て、 IUGONET   XML Schema を、 • データセットの DOI 、 • 文献の DOI 、 • 著者 ID 、 • ライセンス条項 • と紐づけた。 • Derived & Recombined Data 層にチャレンジ! 14 14
  15. 15. 研究者の評価指針 • 研究成果 = 論文 (Impact Factor) ※ I/F は本来は雑誌の評価用で、研究者個人の評 価用では無いけど、いちおう数字を足し上げる ことは可能。 • データを論文に紐付けておけば、データ活動の 貢献も定量化できる。 ↓ データ活動の収益構造確立 15
  16. 16. 追記:第2層のイメージ Fork Fork Wiki Wiki Branch Commit ID Commit ID Public/ Public/ Private Private 第1、2層の仲介は 第1、2層の仲介は Java Web Start !? Java Web Start !? Github そのもの!? 16 16
  17. 17. IUGONET のメタデータ • Raw Data ファイルと1対1で紐づく粒度で、メ タデータを記述 (Granule リソースタイプ ) 。 • 知見情報の記述は、現在していない。 (Annotation リソースタイプで記述可能 ) • Derived Data に紐づくメタデータは、現在記述 していない。 ( 例外: Dst インデックス等、専門家のコンセ ンサスが得られており、もはや一次データと同 様に取り扱われるもの) ↓ Raw Data -> Derived Data の変換過程 ( メタデー タ ) を、 データ解析ソフトウェアが自動生成する必要あ 17 り!? 17
  18. 18. 科学的データの階層 • 3つの階層 – Literature – Derived and Recombined Data – Raw Data • 階層の要素 – 同一の階層の要素は互いに関 係を持つ – 隣り合う階層を構成する要素 が互いに関係を持つ • ネットが分野をまたいだ要 素の統合と関連を可能にす る Tony Hey, Stewart Tansley, & Kristin Tolle (Eds.). (2009). The Fourth Paradigm: Data-Intensive Scientific Discovery. Microsoft Research. Retrieved from http://research.microsoft.com/enus/collaboration/fourthparadigm/default.aspx 18 18
  19. 19. データレイヤーとの相互展開 出版レイヤー データレイヤー 中間データ 利用する 研究者 作成する 生データ 19 19
  20. 20. The origin of Journal Publication • Title: Philosophical Transactions • Publisher: Royal Society of London • Mar. 6, 1665 – 20
  21. 21. データ / メタデータ作成者の収益構 造 DOI DOI DOI DOI 未 未 ORCID ORCID ORCID ID を検索キーとした“論文”と“データ / メタデータ”の横断21 検索 21
  22. 22. TimeLine 2013.6 2014.4 JaLC 対象拡大 WG WDS ? NiCT データセット受付ス タート 財源の議論 地磁気セ メタデータ試作 (DataCite Schema -> JaLC Schema) 文献の決定 IUGONET IUGONET, ORCID, DataCite, JaLC 連携スキーマ定 義 22
  23. 23. Tim Burners-Lee • ティム・バーナー ズ・リーの手のひら の上に乗っているこ とを忘れない! • Internet • Semantic Web • Linked Open Data • 相互運用性 (Interoperabiligy) を目 23 指し、 Web of Data
  24. 24. まとめ • IUGONET プロジェクトの XML   Schema を実験的に拡張した。 → データ活動に関する貢献を、論文で使 われているのと同種の識別子 (ORCID, DOI) を用いて、個人単位で、役割を付与 して、メタデータ化出来るようになった 。 24
  25. 25. Web 上の学術情報の識別子 • オブジェクトの識別子 – DOI (Digital Object Identifier) • CrossRef (1999 - , PILA) • DataCite (2009 - , BL and library related) • JaLC (Japan Link Center) • 人の識別子 – ORCID (Open Researcher and Contributor Identifier) (2010 - , ORCID. Inc.) – 研究者リゾルバー ID (科研費研究者番号) • NII によるプロトタイプシステム (2008 - , NII) 25 25
  26. 26. 地磁気センターの仕事 データジャーナルの立ち上がり、ジャーナル掲載を待つのは得策 でない。 1. 地磁気センターニュース (含:峰山の記事とデータセットの DOI )を ペーパーと見立てる。 2. KURENAI に登録しオンライン化。 3. JAIRO にメタデータがハーベストされ伝搬。 リン ク 峰山磁場データセット データセットに ID 振っても何も起こらない!書誌とのリンクが 重要! 26 26
  27. 27. サイテーションメカニズムを利用した サービス例 • 論文の引用 – Citation Index – Impact Factor – H-index • 論文引用サービス例 – – – – Web of Science (TR) Scopus (Elsevier) CrossRef (PILA) Google Scholar (Google) • データの引用 • Data Citation Index (TR) • データ引用サービス例 – PANGAEA (Alfred Wegener Institute for Polar and Marine Research, Center for Marine Environmental Sciences, and etc.) – DataCite (BL, and etc.) – Dryad (National Evolutionary Synthesis Center and the University of North Carolina Metadata Research Center) 27 27
  28. 28. OAI-ORE (Open Archives Initiative – Object Reuse and Exchange) • Open Archives Initiative が 2008 年 に公開 • あらゆる学術情報リ ソースを URI で表現 する • 雑誌や論文、論文本 体の包含関係を記述 する http://www.openarchives.org/ore/ • 雑誌における論文の • URI で表現された学術コミュニ ケーション上の概念に対して、 最低限の関連性を規定する。リ ソースには、以下の 4 つの概念 クラスが用意されている。  – – – – • Aggregation ( 集合体 ) AggragatedResources ( 被集合リ ソース ) ResourceMap ( リソースマップ ) Proxy ( プロキシ ) 4 つの概念クラスに分類されたリ ソースに付随して用意された語 彙は以下のとおりである。  – – – – – – – ore:aggregates (~を集める) ore:isAggregatedBy ( ~に集められ る) ore:describes ( ~を記述する ) ore:isDescribedBy ( ~に記述され る) ore:similarTo ( ~に類似である ) ore:proxyFor ( ~のためのプロキシ 28 である ) ore:proxyIn ( ~にあるプロキシであ 28
  29. 29. ORCID (Open Researcher and Contributor ID) • 論文著者の名寄せを解決したい • 学術論文のデータベースでは、 2 つの方法がと られてきた – 計算機による名寄せ • 例 – Scopus Author Identifier (Elsevier 社の Scopus に実装 ) – Distinct Author Identification System (Thomson Reuters 社の Web of Science に実装 ) – 手動で登録 • 例 – ResearcherID (Thomson Reuters 社 ) • ORCID は、学術コミュニケーションに関与する すべてのステークホルダーを包含した、研究者 29 に識別子を付与するコミュニティを形成する 29
  30. 30. 出版レイヤー サイテーションメカニズムを構成する世界 論文 引用する 書く 研究者 データ 作成する 30 30
  31. 31. DOI, ORCID と URI • 学術情報の識別子 – DOI • prefix / suffix – ORCID • 16 digit numbers • インターネット上の 識別子を URI(Uniform Resource Identifier) という • HTTP でアクセスで 10.1007/s00163-004-0050-z 0000-0002-7031-1846 doi:10.1007/s00163-004-0050-z または、 http://dx.doi.org/10.1007/s00163-004-0050-z http://orcid.org/0000-0002-7031-1846 31 31
  32. 32. DOI (Digital Object Identifier) • インターネット上のオブジェクトへのアク セス可用性を高品質に担保する仕組みと管 理体制 • 論文ごとに DOI を付与するのが基本 • CrossRef は、ジャーナル論文、本、プロ シーディングス論文に DOI を付与している • 対象の詳細化 – 論文内の図、表に DOI を付与する – 論文内の章、節に DOI を付与する – 本の章に DOI を付与する • 対象の拡大 32 – 論文に引用される形式のデータセットに DOI を付32 与する
  33. 33. データ活動の評価向上 • 月刊 学術の動向、 2012年6月号 • 「科学データの長期保全 とグローバルな共有」 • 声を上げることは重 要。 • しかしながら、デー タ活動の科学への貢 献度を定量的に示す ことが必須。 33
  34. 34. インターネット上の学術情報流通の飽 くなき展開 NII のような文献事業からの展開 研究サイクルの加速 IUGONET のような データサイエンスからの展開 34 34
  35. 35. IUGONET • 2009年 スタートの基盤整備 事業 • 分野横断型データベース • データ解析ソフトウェア • 図書系の DSpace をカスタマイ ズ • 2009 年 2 月の時点では、下図 のようにぼんやりしていた。 • データを取り扱う基盤整備が主 業務なら、それで評価されるべ 35 き。 http://search.iugonet.org/iugonet/ 35
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×