オープンデータが持つ
「データ開放」の意味を
再考する
(研)農研機構
農業環境変動研究センター
大澤 剛士
<arosawa@affrc.go.jp>
2016/12/21 NISTEP
科学技術・学術政策研究所講演会
(ホライズン・セミナー)
1. 自己紹介&前説
大澤 剛士 (Osawa Takeshi)
農業環境変動研究センター(農環研)
環境情報基盤研究領域 主任研究員
専門は生物多様性情報学
巨大データを使った広域的な生態学研究が主
1.自己紹介
自然史資料を収集し、生物多様性に関する
データベースを整備、利用可能な形で公開する
それらを利用した生態学研究の実施
既存データの再整備、再利用
1.自己紹介
「地球規模生物多様性情報機構」日本ノード委員
インターネットを介して世界中の生物多様性情報を
共有しようという国際的取り組み
1.自己紹介Global Biodiversity Information Facility
(GBIF)
GBIF (http://www.gbif.org/)
JBIF (www.gbif.jp/v2/)
統計情報や過去の報告書を収集し
データの再加工を行って利用性を高める
既存データの再整備、再利用
それらを利用した地理学研究の実施
1.自己紹介
耕作放棄、圃場整備と
絶滅危惧種分布の関係を全国的に評価
絶滅危惧種の分布地図
耕作放棄地の分布地図
Osawa et al. (2013) PLOS One: e79978
Osawa et al. (2016) Land Use Policy 54: 78-84
圃場整備の分布地図
1.自己紹介
・政府(環境省)によるオープンデータ
(絶滅危惧植物の情報)
・自分で作ったオープンデータ
(統計情報から作成した農地地図)
Osawa et al. (2013) PLOS One: e79978
Osawa et al. (2016) Land Use Policy 54: 78-84
1.自己紹介
オープンデータを組み合わせた研究
http://www.data.go.jp/?lang=japanese http://agrimeshopen.web.fc2.com/index.html
オープンデータ推進に興味ありあり
所内でオープンデータ課題を立ち上げ
1.自己紹介
・大澤剛士・岩崎亘典(2016)
「環境科学分野における研究データの
オープンデータ化の現状と課題」環境情報科学 44-4:35-40.
・大澤剛士・神保宇嗣・岩崎亘典(2014)
「「オープンデータ」という考え方と、生物多様性分野への
適用に向けた課題」日本生態学会誌 64(2):153-162.
CKANカタログサイトも作っちゃいました
・オープンデータカタログサイトNIAES VIC
https://niaesvic.dc.affrc.go.jp/
・データ発信・利用に関する所内プロジェクトリーダー
研究ツールとしてのオープンデータに
興味があり、推進したいと考えている
いち研究者です
1.自己紹介
2. 私の立ち位置
2.私の立ち位置
こいつはイカン!
~ここで言う「研究データのオープン化」は、すべてのデータを一律に
オープンにすることを意味しておらず、オープンイノベーションに資する
目的で、必要なデータの共有を現状よりも進めることを意味する。
誰がどう決めるのさ??
2.私の立ち位置
オープンイノベーションに資する
オープンサイエンスのあり方に関する提言より引用
★ オープンイノベーションに資する
★ 必要なデータの共有
特にデータベース化により、リソースを異分野から活用する
研究データ基盤を提供することが、インセンティブの基礎となる。
○ 研究データ基盤を提供することが~
今までずいぶん
やってきませんでしたっけ?
2.私の立ち位置
オープンイノベーションに資する
オープンサイエンスのあり方に関する提言より引用
研究データ
2.私の立ち位置
・研究者が収集、作成したデータ
・専門性が高く、(想定)利用幅は狭い
・データ形式も独自性が高い場合が多い
ガクジュツカイギさん、これを
どうやって選別し、一元化するの?
オープンデータ
オープンサイエンス
2.私の立ち位置
“オープン”の意味は”開放”
目的化や無理な一元化は既に
定義から外れるんじゃない?
何から開放?
2.私の立ち位置
社会に存在する制御メカニズム
著作権、アクセス、用途 etc…
CC-BYでインターネット上に
置くことで基本的にクリアされる
よくも悪くも自由な状態にすればよいのでは
専門家が“選別”して
専門家が作る”研究基盤”に入れて
データを“開放”する
2.私の立ち位置
ギャグですか(汗)
2.私の立ち位置
ODに興味を持つ研究者として
考えを述べたいと思います!
3. 「開放」から生まれる
「再利用」を考える
「利用」と「再利用」の違い?
3.再利用とは?
考えてみると難しい
私が考える再利用
再利用:データ提供者と別人が
利活用すること
提供者の想定する目的外
での利用だと、なおよろしい
3.再利用とは?
再利用がもたらすこと
データは利用されることによって
その価値が向上する!
生物学の
データです
生物学
化学で
使いました
化学生物学
3.再利用とは?
再利用を担保するもの
「開放」されているからこそ
実現できる!
用途、目的を制限しないこと
3.再利用とは?
「開放」されたデータの再利用
この具体例を示すことで
データ開放の意義をアピール
目的外、想定外利用の実現
3.再利用とは?
4. 事例紹介
分類学データを保全科学に
市民データを都市生態学に
4.事例紹介
 標本情報を活用したハビタット抽出
Osawa T. et al.(2014)
「New approach for evaluating habitat stability using scarce records
for both historical and contemporary specimens:
A case study using Carabidae specimen records」
Entomological Science 17: 425-431.
4.事例紹介
散発的な標本データの目的外利用
・過去の賢人が収集した昆虫標本
・昆虫分類学者が研究データとして整備・公開
・それを私(第三者)が活用
過去の観察データ 現在の観察データ
モニタリングデータがあれば
環境の変化を評価できる!
ハビタット維持
ハビタット損失/質の低下
4.事例紹介
?
? ?
?
“今”のデータはがんばれば入手できるが
“過去”のデータは無理!
過去の観察データ 現在の観察データ
4.事例紹介
限られたデータ(標本)を最大限活用して
生物環境(ハビタット)を評価できないか?
① 散在する標本データを一元化
② 在/不在ではなく、在/在に注目
ポイント
研究の狙い
4.事例紹介
在/在に注目
ハビタットの変化は評価できなくても
安定的な場所なら見つけることができる!
過去の観察データ 現在の観察データ
4.事例紹介
戦前
1945-49
1950-59
1960-70
ラベルや目録を読み解き
標本から過去の分布データを作成
4.事例紹介
2004-
実際に採集/標本を借用
標本から現在の分布データを作成
4.事例紹介
現在の分布
過去の分布
過去も現在も対象種が存在する場所は
どんな場所なのかを解析
4.事例紹介
過去の分布
対象種の生態特性から見て妥当
ハビタットの安定条件を示唆
現在の分布
4.事例紹介
4.事例紹介
・過去の賢人が収集した昆虫標本
・昆虫分類学者が研究データとして整備・公開
・それを私(第三者)が活用
⇒データの価値が向上
昆虫分類学の
データです
昆虫分類学
保全科学で
使いました
保全科学昆虫分類学
 市民調査データを使った都市生態学
Osawa T.(2015)
「Importance of farmland in urbanized areas as a landscape
component for barn swallows (Hirundo rustica) nesting on
concrete buildings」
Environmental Management 55: 1160-1167
4.事例紹介
イベント的な市民データの目的外利用
・124名の市民が収集したツバメ営巣データ
・学芸員さんが整理、ネットで公開
・それを私(第三者)が活用
駅のツバメ調査
一種のイベント的に実施された
近畿2府4県(約1500駅)
駅のツバメ営巣調査
4.事例紹介
http://www.mus-nh.city.osaka.jp/wada/StudySite/kansai-eki-tubame.html
4.事例紹介
2013年大阪バードフェスタで展示
●これを研究データとして再整備
・駅名から緯度経度を付与
・ツバメ営巣のある/なしデータに変換
・GIS(地図)データ化
4.事例紹介
●土地被覆データ(国土交通省)を使って
営巣条件を検討
ピンク:都市域
黄土色:道路
緑:農地
青:河川
営巣している駅の立地条件を
周囲の土地利用から定量化
4.事例紹介
国土数値情報(http://nlftp.mlit.go.jp/ksj/)
●駅周辺の土地被覆を定量
・ 都市面積
・ 農業面積
・ 河川総延長
・ 道路総延長
それぞれを計算
5,000m
・500~2500m(500mきざみ)
4.事例紹介
営巣している駅の立地条件を
周囲の土地利用から定量化
4.事例紹介
周辺の農地面積、河川延長が長く
市街地面積、道路密度が小さい
●ツバメの巣がある駅の立地条件
駅であれば何でもいいわけではない
都市部であっても、周囲に緑地、河川が必要
4.事例紹介
アマチュアの
データです
生き物とのふれあい
プロが研究で
使いました
アカデミックな価値生き物とのふれあい
・124名の市民が収集したツバメ営巣データ
・学芸員さんが整理、ネットで公開
・それを私(第三者)が活用
⇒データの価値が向上
4.事例紹介
オープンデータは「再利用」
だけでなく「再配布」も自由
4.事例紹介
● ゴミムシデータは出版済み
吉武ほか(2011)「農業環境技術研究所所蔵の土生昶申コレクション 」
農業環境技術研究所報告28:1- 327.
研究データとして利用可能
4.事例紹介
市民データを研究データに整備し、
それを「再配布」
=オープンデータのライフサイクル
● ツバメデータはデータペーパー化
大澤剛士・和田岳(2016)「市民参加による広域を対象とした生物調査の可能性-
近畿2府4県における駅のツバメ営巣調査結果およびデータ公開-」Bird Research R1-R8.
http://ci.nii.ac.jp/naid/130005152479
http://www.gbif.org/dataset/2488cd13-4f80-479c-ae54-257de312054e
5. まとめ
5.まとめ
オープンデータ
オープンサイエンス
“オープン”の意味は
”制御メカニズムからの開放”
5.まとめ
1.開放されているから
2.新しい利用が生まれ、
3.データの価値が向上する
“開放”されていないと
逆の流れになる
Take Home Message
「制限からの開放」が
オープンデータの本質
オープンサイエンスへの道筋
宣伝
今日の話は2017年4月発行の「情報管理」に
掲載される予定です。
個別的な質問や別刷り請求等は
<arosawa[at]affrc.go.jp>
名前で検索してもらえば、webページも
あります。

2016/12/21NISTEPホライズン・セミナースライド