機械学習を用いた
科学技術イノベーション政策における論点の抽出:
一線級の研究者・有識者を対象とした大規模意識調査の自由記述を用いたチャレンジ
2017年10月29日
文部科学省 科学技術・学術政策研究所
伊神 正貫, 村上 昭義
研究・イノベーション学会 2A06
2
科学技術の状況に係る総合的意識調査(NISTEP定点調査)
産学官の一線級の研究者や有識者への継続的な意識調査を通じて、
我が国の科学技術やイノベーションの状況変化を定性的に把握する調査
→ 毎年1回、同一集団に同じアンケート調査を継続実施
→ 過去10年間(第1期、第2期)調査実施、2016年度から第3期調査を開始
※ 科学技術やイノベーションの活動の中でも、特に国の科学技術予算をもとに実
施されている活動について質問。
※ 科学技術やイノベーションの状況において、システムに関係する項目(第5期科
学技術基本計画では主に第4章と第5章に該当)をモニタリング。
大学・公的研究
機関グループ
約2,100名
イノベーション
俯瞰グループ
約700名
① 大学・公的研究
機関における
研究人材
④ 産学官連携とイノ
ベーション政策
② 研究環境及び
研究資金
⑤ 大学改革と機能
強化
⑥ 社会との関係と
推進機能の強化
③ 学術研究・基礎
研究と研究費マ
ネジメント
若手研究者、研究者を目指す若手人材、女性研
究者、外国人研究者、業績評価
パート 中分類(赤色は新規、緑は大幅見直し)
研究環境、研究施設・設備、知的基盤・情報基盤
及び研究成果やデータの公開・共有、科学技術予
算等
産学官の知識移転や新たな価値創出、知的財産
マネジメント、地方創生、科学技術イノベーション
人材の育成、イノベーションシステムの構築
学術研究・基礎研究
研究費マネジメント
大学経営、学長のリーダーシップ
社会との関係、科学技術外交、
政策形成への助言、司令塔機能等
条件:現場(部局や組織)の状況を回答
条件:日本全体を俯瞰した状況を回答
(分析の視点)大学の規模別、分野別、職位別の
認識の違い等
(分析の視点)大学・公的研究機関の現場の研究者
とイノベーション俯瞰グループの認識の違い等
実線: 主に回答するパート
点線: 部分的に回答するパート
NEW
主観的な意見の集約
(「不十分」⇔「十分」の6点尺度の選択形式)
はじめに
3
NISTEP定点調査2016の自由記述
93.6%
という高い回答率。
約55万字
もの現場の声。
回答率 自由記述回答
2冊
の報告書を5月に公表。
報告書
運営費交付金の削減によって基盤的経費が減少し、外部資金を獲得しないと研究ができない。
 国立大学の運営交付金が削減され,競争的資金がなければ研究を継続することが不可能な危機的状況である.それにとも
ない,競争的資金を本来運営交付金でまかなうべき教育関連の実験機器の維持にも使用するとともに,学内の共通機器も更
新できないのが現状であり,研究環境は年々悪化しているといえる.(大学,第3G,理学,部長・教授等クラス,男性)
外部資金を獲得するための申請書作成や外部資金獲得後の報告・評価等に時間が取られる。
 公募型予算に採択されればされるほど,事務処理が予算ごとに違っていて大変複雑となると同時に,(ほとんど同様な)書類
を書いたり,(ほとんど同様な)研究会議に出席せねばならず,本来の研究をする時間が削られていく.(大学,第3G,工学,部
長・教授等クラス,男性)
産学の共同研究では、大学が研究予算獲得のために企業の下請けとなっている場合がある。
 産学間の共同研究などでは,必ずしも対等でない関係も多く,いずれか一方の研究開発に付き合う形態になってしまってい
る.(大学,部長・教授等クラス,女性)
 残念なことに応用研究分野においては,共同研究という名の下に研究予算獲得のために大学が企業の下請けとなっている
事例も散見される.(大学,第3G,工学,主任研究員・准教授クラス,男性)
関連する自由記述の例(抜粋)
第2期NISTEP定点調査:
約250万字
はじめに
• 自由記述は、科学技術イノベーション政策におけ
る課題等の論点を抽出するには重要な情報源
• 担当者が自由記述を読み込み、目視で論点の抽
出、自由記述の分類
• 論点の抽出・分類には多大な労力
• 論点の抽出・分類に際して、担当者の主観を排除
することは困難
4
問題意識
はじめに
• 近年、自然言語処理の目覚ましい進展
• 高度な分析が可能なソフトウェアもオープンソース
として利用可能
• NISTEP定点調査から得られた自由記述を用いて、
機械学習によって科学技術イノベーション政策にお
ける論点の抽出※
① TF-IDF法とt-SNEによる可視化
② Word2vecとt-SNEによる可視化
5
本報告におけるチャレンジ
はじめに
※本報告ではTF-IDF法及びt-SNEについてはscikit-learn(http://scikit-learn.org/stable/)、
Word2vecについてはgensim(https://radimrehurek.com/gensim/)を用いた。
(分析に用いたデータ)
• 2011, 2013~2016年度のNISTEP定点調査で得られた自由記述
(前処理)
• 自由記述の各回答(100文字以上のもの8,771件)を、Janome※を用いて分
かち書き
– 名詞及び接頭詞のみを抽出
– 連続した名詞や接頭詞は一続きの単語として抽出(例: 若手研究者など)
– 一部の科学技術用語は表記ゆれの吸収(ポスドク→ポストドクター)
• 質問単位のbag-of-wordsを作成し、質問ごとに各単語のTF-IDF値
– TF-IDF値が閾値(0.005)以上の単語を分析に利用
– 質問によって特徴的に使用される単語(特徴語)が異なるので、
特徴語を各質問から均一に取得
6
分析に用いたデータとその前処理
分析手法
分析用データセット(DS)
※Janome(http://mocobeta.github.io/janome/)はPythonで
記述された、辞書内包の形態素解析器である。
• 分析用DSからNISTEP定点調査2016の自由記述回答(2,142件)を抽出
• 回答単位でbag-of-wordsを作成し、回答ごとに各単語のTF-IDF値を計算
– 2,142件の回答には、1,362のユニークな単語
• 得られたTF-IDF値から、各回答について文書ベクトル(以降、TF-IDFベク
トルと呼ぶ)を計算
– TF-IDFを用いた2,142件の回答のベクトル化から2,142(回答数)×1,362(ユニー
クな単語数)のマトリクス
• 上記のマトリクスを、特異値分解を用いて2,142(回答数)×20に次元圧縮
した後にt-SNEによる可視化
7
①TF-IDF法とt-SNEによる可視化
分析手法①TF-IDF法とt-SNEによる可視化
(単語ベクトルの取得)
• データセットに含まれる全ての自由記述(8,771件、1,362のユニークな単語
)を用いて、Word2vecにより単語ベクトル(300次元)を取得
• 以下は「女性研究者」、「若手研究者」、「研究施設・設備」、「電子ジャーナ
ル」という単語について、Word2vecから得られた類似の単語を示した結果
8
②Word2vec※とt-SNEによる可視化
検索した単語 類似単語(上位5)とコサイン類似度
女性研究者 女性教員(0.59), 女子学生(0.57), 男女(0.52), 男性(0.51), 出産・育児(0.5)
若手研究者 任期制(0.53), ポストドクター(0.49), 若手人材(0.49), 任期(0.47), 身分(0.46)
研究施設・設備 研究機器(0.52), 概算要求(0.52), 老朽化(0.5), 機器(0.48), 装置(0.46)
電子ジャーナル 高騰(0.69), 図書館(0.54), 老朽化(0.54), 閲覧(0.54), 大学図書館(0.53)
※Word2vecとは2層のニューラルネットワークを用いて、単語をベクトル表現する手法
2013年にGoogle社のMikolov等によって提案された後、応用が進展。
分析手法②Word2vecとt-SNEによる可視化
• TF-IDFベクトルで単語ベクトルを重みづけしたものの和を求めることで、
各回答のベクトル表現を取得
𝑣(𝑑) = 𝑥 ∈ 𝑑 𝑤 𝑥 × 𝑣(𝑥) (1)
𝑣 𝑥 : 文書𝑑に含まれる単語𝑥 の単語ベクトル
𝑤 𝑥 : TF-IDFベクトルから得られた文書𝑑に含まれる単語𝑥 の重み
𝑣(𝑑) : 回答ベクトル
• 回答ベクトルについては、大きさが1となるように正規化
• 2016年度のNISTEP定点調査の自由記述2,142件のベクトル化から2,142(
回答数)×300のマトリクスを取得
• 上記のマトリクスを、特異値分解を用いて2,142(回答数)×30に次元圧縮
した後にt-SNEによる可視化
9
回答ベクトルの計算
分析手法②Word2vecとt-SNEによる可視化
10
可視化結果
分析結果
① TF-IDF法とt-SNE ② Word2vecとt-SNE
11
特定のキーワードを含む自由記述の位置
分析結果
① TF-IDF法とt-SNE ② Word2vecとt-SNE
分析結果
12
TF-IDF法とt-SNEによる可視化で得られた
構造の例
※ワードクラウド中の文字の大きさは、四角で囲んだ範囲以内で単語が出した回数に比例。
① TF-IDF法とt-SNE
分析結果
13
TF-IDF法とt-SNEによる可視化で得られた構造
※9つの「論点」については、目視によって試行的に抽出した。
1
2
3
4
5
6
7
8
9
論点番号 上位の単語(出現頻度)
1
学生(167), 博士課程(94), 大学(70), 優秀(51), 進学(49), 研究
開発人材(45), 研究者(33), 教育(29), 若手研究者(28), 就職
(27)
2
民間企業(193), 大学(149), 連携(36), 研究者(33), 共同利用・共
同研究(31), 研究開発人材(22), 知的財産(21), 産学連携(19),
実用化研究(18), 企業側(15)
3
運営費交付金・基盤的経費(159), 大学(63), 削減(49), 研究開
発費(48), 競争的資金(46), 研究者(31), 外部資金(30), 予算
(29), 教育(24), 時間(23)
4
研究施設・設備(86), 整備・充実(48), 研究開発費(36), 大学
(35), 研究者(32), 研究環境(25), 運営費交付金・基盤的経費
(17), 機器(16), 環境(15), 確保(14)
5
資源・資金配分(116), 研究開発費(96), 研究者(36), 大学(22),
基礎研究(19), 科研費(18), 評価(16), 支援(16), 予算(14), 間接
経費(13)
6
改革(157), 大学(139), 学長(121), 大学改革(77), リーダーシップ
(66), 機能強化(58), 執行部(56), 教員(38), 強化(26), 研究開発
人材(21)
7
基礎研究(235), イノベーション(57), 研究者(37), 研究開発費
(33), 実用化研究(31), 応用研究(29), 分野(28), 評価(25), 支援
(25), 科研費(20)
8
社会(133), 大学(49), 科学技術イノベーション(25), 研究者(22),
理解(18), 連携(17), 関係(16), 関係深化(14), 強化(11), 教育
(11)
9
連携(18), 判断(15), 分野(14), 機能(11), 政府(11), 理解(11), 失
敗(10), 積極的(10), ベンチャー(9), 内容(9)
① TF-IDF法とt-SNE
• TF-IDF法とt-SNEによる可視化により、自由記述の大まかな分類が可能
• ただし、抽出された論点は、NISTEP定点調査2016の自由記述質問の構
造とほぼ対応
• 目視確認の経験から、一つの自由記述質問には、複数の論点
• 個別の論点の微細構造まで分析可能な方法論の確立が必要
→ 本調査研究の結果をk平均法等でクラスタリング
→ 質問ごとにTF-IDF法とt-SNEによる可視化
14
まとめと今後に向けて
自由記述質問
大学・公的研究機関における研究人材の状況
研究環境及び研究資金の状況
学術研究・基礎研究と研究費マネジメントの状況
産学官連携とイノベーション政策の状況
大学改革と機能強化の状況
社会との関係深化と推進機能の強化の状況
まとめと今後
• Word2vecの学習結果を見ると、ある単語と共起する単語が幅広く抽出
→ 明確な検索語が分からない状況での自由記述検索などに応用
• 自由記述間の類似性が高めに判定されることで、Word2vecとt-SNEによ
る可視化については、明確な構造の把握が困難
• 本報告ではWord2vecの学習にNISTEP定点調査の自由記述を利用
→ Word2vecの学習の際に、科学技術白書やWikipediaなどを用いて、
より幅広い単語を学習
→ 論点構造の把握が改善される可能性
• トピックモデルの活用の可能性の探索
15
まとめと今後に向けて, 続き
まとめと今後
16
お知らせ
お知らせ
科学技術・学術基盤調査研究室では、
現在、研究職員の公募を行っています
(応募締切 平成29年11月30日(木))。
ご興味ある方は、NISTEPのホームページに
掲載されている案内をご覧下さい。
For more information…
http://www.nistep.go.jp

機械学習を用いた論点抽出 研究・イノベーション学会