Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題

1,846 views

Published on

Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題

2017.08.27
政策研究大学院大学
科学技術イノベーション政策研究センター
原泰史
ya-hara@grips.ac.jp

Published in: Education
  • Be the first to comment

Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題

  1. 1. Copyright ⓒ2017 CREATIONLINE, INC. All Rights Reserved Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題 2017.08.27 政策研究大学院大学 科学技術イノベーション政策研究センター 原泰史 ya-hara@grips.ac.jp
  2. 2. 自己紹介 • 原 泰史 (はら やすし) • 政策研究大学院大学科学技術イノベーション政策研究センター専門職 • 科学技術学術政策研究所(NISTEP) 第一研究グループ客員研究員 • 一橋大学マネジメントイノベーション研究センター協力研究員 • 学歴 • 1998-2004 豊田工業高等専門学校情報工学科 • 2004-2006 神戸大学経済学部 • 2006-2009 一橋大学経済学研究科 • 2009-2012 一橋大学商学研究科 • 職歴 • 2002-2009 株式会社クララオンライン • 2009-2012 日本学術振興会特別研究員DC1 • 2012-2014 一橋大学イノベーション研究センター • 2015-2017 政策研究大学院大学科学技術イノベーション政策研究セン ター • 2015-2017 科学技術学術政策研究所(NISTEP) 第一研究グループ • 2018-2019 パリ高等研究院ミシュランフェロー • 2013- 公益社団法人日本フィランソロピー協会 • 2013-2014 神奈川大学経済学部非常勤講師 • 2014- 東洋大学経済学部非常勤講師 • 2017- 横浜市立大学非常勤講師 • 最近のしごと 2017/8/23 2
  3. 3. SPIAS in a nutshell 2017/8/23 3 1. JST/CRDS 科学技術俯瞰報告書 ⇒ m*n ページの紙媒体だと 読みにくいので Web 形式に 2. ファンディング情報 KAKEN, JST, NEDO etc… ⇒ 個別にググるのは大変なの でひとまとめに 3. 特許/論文データ(J-global) KAKEN, JST, NEDO etc… ⇒ ファンディングと接合させるの も面倒なのでひとまとめに 4. プレスリリース(nikkei) 日経プレスリリース ⇒ Funding から製品に至るまで の流れを可視化させたいので結 合 • 科学領域ごとに、ファンドから製品 化までの複雑(怪奇)なパスをなる だけ可視化してみる!
  4. 4. そもそも.... 日本の科学技術、どんどん悪くなってる....!? 出典: NISTEP 2017 「科学研究のベンチマーキング」
  5. 5. でもでもな問題点 では、科学技術の分析をしようにも.... データが整備されていない (そもそも紙がほとんど) データを出してくれない (政府や関連機関) データを分析できるひとがいない (シンクタンク?) SciREX 「政策のための科学」事業 (2009-) ・科学技術イノベーション政策の立案プロセスに研究成果やエビデンスを活 用できる状態を作り出す   ・大学、研究機関が参加 http://scirex.grips.ac.jp/
  6. 6. ビッグデータの利活用の促進 ■ 上流工程の強化+下流工程の強化が必要 ◆ 上流工程:データの収集・整備体制の強化 ◆ 下流工程:データの可視化・分析ツールの強化 • BI(ビジネス・インテリジェンス)ツール 6 ビッグデータ データベース 可視化 分析 仮説 検証 現状は? 事象間の 関係は? 政策の効 果は? 上流工程 下流工程 仮説形成支援ツール 仮説検証支援ツール (BIツール) ユーザーニーズ (政策ニーズ) SPIAS(SciREX政策形成インテリジェント支援システム)の開発 整理 連結 統合 統計 データ 統計 データ
  7. 7. SPIAS: SciREX Policymaking Intelligent Assistance System • 科学技術に係る各種データを相互に接続し、 得られた知見を可視化することで、研究者や政策立 案者がオープンに利活用できるプラットフォーム(環 境)が不可欠 エビデンスに基づく科学技術イノベーション政策の形成 • Data does not reflect the domain of interest, it is need ontological level representation (Daraio et al. 2016). • それぞれのデータベースの相互接続性が確保されていない (分析単位レベ ルでの一意なIDマッチングを行う保証がデータベース間で担保されていない) • 科学的発見→イノベーション→商品化に至るプロセスを通して確認できるシス テムがない(イノベーションのインパクトが測れない しかし現実は… 2017/8/23 7 Source: http://www.slideshare.net/OpenSciencePlatform/linking- heterogeneous-scholarly-data-sources-in-an-interoperabl e-setting-the-case-of-sapientia-the-ontology-of-multidim ensional-researchdaraio
  8. 8. 我々はSPIASで何を作ろうとしているのか ■ 政府研究開発投資データ、論文データ、特許データ、プレスリリースデータを相互に紐づけるこ とで、「研究投資額から、その実用化による経済波及効果」までを見通すミクロレベルでの政策 の影響評価に資するデータベースの作成および、それを用いた因果関係の分析を行いたい。 フェーズ1: 研究開発投資から経済波及効果までを一気通貫で分析したい ■ 関連するデータを相互に結びつけることで、研究開発がイノベーションへとつながる道筋を明 らかにし、政府研究開発の投資効果をシュミレーションする経済モデルの精緻化を可能にし たい フェーズ2: 政府研究開発投資効果を予測する経済モデルの精緻化に貢献したい 8 「関連するデータを体系的に紐づけ」、 「経済モデル作成の基礎的エビデンスを蓄積する」ことを、  SPIASによって可能に
  9. 9. イノベーション研究における活用例 • 科学論文・特許の生産性が高いスター研究者・スター発明者について • 「研究リソース(資金や研究人材)」があれば「研究生産性」が高くなるのか? • 「研究生産性」が高いから「研究リソース」が集まるのか? • それは研究分野の立ち上がり期と成熟期で異なるのだろうか? • 利用データ:競争的資金、論文、特許、研究者の所属機関 • 先行研究では、特許あるいは論文データのみの解析に終始 2017/8/23 9 フェーズ1での活用例:スターサイエンティストが形成されるプロセスの解析 フェーズ2での活用例: 科学技術の進歩が生産性に与える影響のミクロデータに基づくマクロ的測定 • IoT/ICT の進化、ナノテクノロジーなどバイオエコノミーについて ⇒生産プロセスを変え、産業構造や就労構造を劇的に変化させる可能性 • しかしその変化が、産業間でどのように波及するのか?、生産プロセスのどこに作用する のか? 十分な研究蓄積は行われていない • 利用データ: 競争的資金、論文、特許、プレスリリース、POSデータ • 競争的資金が製品化されるまでのプロセスを定量的に分析可能
  10. 10. シナリオ1: SPIASがない場合 2017/8/23 10 新しいXX分野の 状況を調べよう! 2.各種DB(論文,特許,その他)を検索 1-1.関連しそうな キーワードを考える 3.結果を記録 2., 3.の作業を DBの数だけ繰り返し 4.集計したりグラフにしたり (複雑な分析までは手が出ない) 1-2.関連しそうな DB自体を探す 適切なDBやキーワードを知らない 使いこなせないコトも! 非常に手間・時間がかかる 棒・折れ線・円グラフ程度 クロス集計などは面倒 キーワードに合致するものだけが 抽出対象  めんどくさい・時間が 無いから この程度でやめよう 分析開始! XX時間後…
  11. 11. シナリオ2: SPIASがある場合 2017/8/23 11 新しいXX分野の 状況を調べよう! 1.関連しそうな 文書などを用意 2.考察に集中! (分析はマウス操作程度で容易) やったぜ! SPIAS 連携する各種DBか ら関連情報を横断検 索 異種データ間の関係 を分析してデータ接合 観点の切替も容易な インタラクティブな可視化で 各種の分析をサポート ※ 分析開始! 数分〜数十分後 ユーザは各自の要求・観点から 本質的な作業のみに集中して作業可能 異種データの結合と,分析の試行反復を通じ, 新たな知見の獲得も促進 SPIAS イノベーションの 構造解明など (高度利用の例※)
  12. 12. 12 SPIASが実現すること 1.研究者/行政官の科学技術イノベーションの情報探索に係る リードタイムを減らす 2.ビッグデータを用いた解析/研究を可能にする 3.研究者/行政官の新たなアイデアを創発させる
  13. 13. SPIAS データ概要 • 科学技術分野データ • データセット • JST/CRDS 技術俯瞰報告書 • 提供: 科学技術振興機構研究開発戦略センター • “研究開発戦略立案の基礎として、科学技術分野における研究 開発の現状の全体像を把握し、分野ごとに今後のあるべき方 向性を展望” • ファンドデータ • データセット • 日本の研究.com • 提供: 株式会社バイオインパクト • 各ファンディングエージェンジーのファンド情報(ファンド細目, 金額, 対象の研究者) を網羅 • 科研費データ • 提供: 科学技術振興機構 • 科研費に係る情報(ファンド細目, 対象研究者, プロジェクトメン バー) を採録 • 今後,JSTのFMDBを用いれば、ファンドと Scopus (EID), Web of Science (UID), J-global (J-global ID) の文献ベー スでのマッチングが可能 • 特許・論文データ • データセット • JST J-global • 提供: 科学技術振興機構 • 特許データ • 出願人, 発明者, IPC, 概要 • 引用特許、被引用特許情報 • 論文データ • 著者 • 前方引用, 後方引用 • ジャーナル名 • 研究者/発明者情報は名寄せ済み . ID情報で接合可能 • 科学技術分野との接合には、語句のベクトル情報を活用 する • 既存の論文データベースの科学技術分類 (ex. Web of Knowledge Category) では新規の科学分類を正しく認識で きない、あるいは誤った分類を行っている可能性 (Dong et al. 2005) があるため • 製品データ • データセット • 日経プレスリリース • 提供: 日本経済新聞 • タイトル、本文 • カテゴリ • 発表日時 2017/8/23 13
  14. 14. SPIAS 研究開発体制とユーザネットワーク 2017/8/23 14 JST NISTE P GRIPS SciREX センター 科研費データ・ 論文DB 検索/可視化技術経済シミュレーション 技術/政策俯瞰 CRDS 情報 企画部 主な想定ユーザー 層 各省庁(文部科学省、内閣府、 経済産業省等)の若手/中堅行政官 ファンディング エージェンシー URA 研究者 (科学技術イノ ベーション 政策、経済学等)
  15. 15. SPIAS データ構造 (ベータ版) 2017/8/23 15 論文 特許 競争的資金情報 (科研費) 科学技術分類 科研費<->特許, 論文マッチング テーブル ID 情報を用いたマッチング 語句のベクトル情報を用いたマッチング ニュース リリース
  16. 16. SPIAS : 機能および活用例(1) 16 ■機能  科学技術領域毎に, ◆ 関連する競争的資金の研究課題 ◆ 関連研究者 ◆ 事業区分別研究費 ◆ 事業区分別研究課題数 ◆ 研究機関分別研究費 ◆ 研究機関別研究課題数 …などの情報を取得可能 ■手法 ◆ JST/CRDSが提供する科学技術俯瞰領域に 記載された用語・キーワードに基づき,関連す る語が多数含まれる研究課題の内容を取得 ■行政での活用例 ◆ 政府でSIP等のプログラムの立ち上げをする 際に、重点的に投資する分野を検討する材料
  17. 17. SPIAS : 機能および活用例(2) ■機能 ファンディングエージェンシーごとの ◆ (a.) 研究課題数 ◆ (b.) 研究総額        …を確認できる ■行政での活用例 ◆ どのファンディングエージェンシーがどの 研究分野に強みを持つのかを踏まえ、政 策を考えることができる。 ◆ 新たなファンディングエージェンシーの必 要性について検討できる。 17
  18. 18. SPIAS デモ
  19. 19. 実績 19 企業との共同研究 ・三菱電機株式会社 プレゼンテーション ・URA セミナー (2017/5/11 於: 電気通信大学)  ・JST広報カフェ (2017/4/14 於: JST) ・産学連携学会 (2017年6月) ・国際産業連関表学会 (IIOA学会 於: アメリカ合衆国)
  20. 20. 研究者/行政官/ファンディングエージェンシーへの追加ヒヤリングより 20 研究者としてこういうデータセットの ニーズはある。研究者と行政官が必 要とするインターフェースは異なる。 前者は(統計分析ソフトやRに導入で きる)Raw Data、後者はBIツールに よるグラフ作成などが必要. (GRIPS 研究者) 研究者はその研究領域の専 門家なので、常にこのような情 報はアップデートしているは ず。そのため、新規領域に新 規参入する際使ってみたい。 (腎臓内科学教授) アメリカもここまで包括的な データベースはないはず。SE 不足の日本で実現できるかわ からないが、構想はよい。(産 婦人科、臨床遺伝専門医 准 教授) 審議会メンバーの選択, 新た な科学技術領域を育成する プログラムを策定するための エビデンスとして活用出来る. 現バージョンでも活用できると 思う. (文科省・行政官) 政策レベルでいうと、国プロ 系の研究開発や、個別の産 業政策の検討に応用できる。 スターサイエンティストの研究 にも活用可能か。インプット= アウトプット間の接合手法を 明確化する必要があり。 (東大・研究者) 予算要求や国会対応では、 都度NISTEP やCRDS に 聞きまわるか、Google 検 索して情報を集約している. こうしたものがワンストップ で整備されることは便 利.(文科省・行政官) 戦略事業で得られた成果の うち、社会への展開が期待 されるテーマを選び出す。 どの研究課題を社会への 展開のために加速させるべ きか、などの判断に用いる ことに期待できる(JST)
  21. 21. SPIAS 今後の課題 21 ユースケース拡大 データベース拡大 機能向上 多様な試用者からの意見を集め る方向 ⇒(セミ)オープン・データ化 大学研究者が研究成果や研究ツー ルを持ち寄ることを期待 民間企業の利用者や民間データの 利用も視野に入れたい データセットを公開( Public)と非公 開(Private)に区分管理する機構を 組み込む 参照できる対象を増やしていく 政策担当者が必要とするデータに ついて調査・整理 海外情報(論文・特許等)のリンク 国の研究状況がエビデンスによって 俯瞰できることが重要 関連機関のノウハウを積極的に 利用して機能・性能を高める すでにSPIASでは固有名詞辞書 (JST)のほか、テキストマイニング技 術(NISTEP)を利用 今後、各所で開発された辞書やシ ソーラスなどを活用して、多種類の データセットを横断的に検索できる ようにしたい 政策シナリオ作成の支援 ● 投資対GDP効果を測る経済シミュレータをSPIASと一体化する ● いくつかの政策シナリオを立案し、比較検討できるツール作りをめざす
  22. 22. SPIAS マイルストーン(政策形成支援プラットフォームへ) 22 ~2015FY 2016FY 2017FY 2018FY 2019FY~ ケーススタディ(医療サービス、IoT技術) にもとづく経済モデル作成 SPIAS-I データプラットフォーム調査 SPIAS 実験版 データプラットフォーム経済モデル+ 2.施策案の将来 効果を試算 1.投資対効果の過去事例を検 索・学習する機能 データベース拡大 ユースケース拡大 機能・性能向上 SPIAS-β(試行版) “投資データからアウトカムまで” 政策シナリオ 形成支援機能 経済モデル&シミュレータ (多部門経済一般的相互依存モデル) 政策形成支援プラットフォームへ
  23. 23. 今後の研究開発の方向性 ■ 可視化結果・集計加工データの提供方法の検討 ◆ Web ブラウザ, API, Bulk Download ■ 収録すべきデータの選定および集約 ◆ SciREX事業により生み出されたデータセットの集約 ◆ 政府系データベース(科学技術基本調査 etc…) の集約 ■ クローズドデータの扱い ◆ オープンデータとユーザーが所持しているプライベートデータの統合 ◆ ユーザーごとのアクセス権の柔軟な制御 ■ バックエンドシステムの検討 ◆ プライベートクラウド環境の構築 ◆ 研究者/行政官がスタンドアロンPC/単一サーバでは実現できない潤沢な計算環境を活用できる 体制の必要性 ◆ NoSQLデータベース管理技術の採用 • ⇒ 続いての木内さんプレゼンへ... 23
  24. 24. spias@nistep.go.jp ya-hara@grips.ac.jp 24

×