SlideShare a Scribd company logo
1 of 17
~ だれが,どこで,どんな活動をしてるの? ~
大学や研究所の研究活動がひと目で分る
研究活動マップ生成
キュープラス
(馬場謙介,廣川佐千男,伊東栄典,馬場隆寛,村上直至)
はじめに(研究成果の社会還元の使命)
婦人A:「奥さん,最近の野菜は工場で作りようとですよ」
婦人B:「まあ,そげなこつして安全性は大丈夫やろか」
婦人A:「そりゃ企業やら大学の人達が研究ばしとうくさ」
婦人B:「あんた、そげなこと、ど~してしっと~と?」
2
はじめに(専門家でない人の研究サーベイ)
• 「野菜」だけから研究サーベイができる?
• こんなことがわかれば研究サーベイの支援に
なる
• 専門用語
• 研究者
• 学会,論文誌
• 研究組織,研究グループ
これらがやる前からわかる人は専門家
3
関連語マップの例
4
題目内の単語
所属機関名
著者名
JST定義の分類語
入力語
関連語マップの解釈
5
野菜の
専門用語:生産,効果,栽培について
研究者:米盛重保先生が
研究組織:佐賀大,農研機構で
研究を行っている
あらためて,研究サーベイの方法
• 最初の手掛り語を検索語にして,
– 論文検索 → 用語や著者
– 著者検索 → 論文
– 主要な学会,研究会,
論文誌を調査
• どんどん知識が増える。
• ある段階で,調べた論文を
まとめる → サーベイ
• 関連語マップだと手掛り語の入力のみ
6
研究用語 論文
著者
学会
論文誌
関連語マップ形成システム
関連語マップ
– 文書集合から,関連語を抽出。
– 出現頻度で,関連語の上位語・下位語を決定
– 関連度が閾値以上の単語を連結。
• ただし,木(Tree)構造になるように制限。
– 検索語と関連度の高い単語を表示
• 属性で制限可能
• 属性:著者名,所属組織
7
Mind Map System
分析手法
• 利用データ
– Type B「1-1科学技術文献データ」
– 抄録付きの科学技術分析データ 約160万件
• データ前処理
– 自作プログラム(Python言語)
– 形態素解析エンジン MeCab
• 検索エンジン
– 汎用連想検索エンジンGETA
• 関連語MAP生成
– 自作プログラム (Perl言語)
– グラフ生成 Graphviz
• インターフェイス
– 自作Web CGI (Perl言語)
8
https://code.google.com/p/mecab/
http://geta.ex.nii.ac.jp/geta.html
http://www.graphviz.org/
前処理
• プログラムで「単語ー頻度」ファ
イルを作成
– 「抄録」の文章を形態素解析して単
語を抽出
– 他のデータ(タイトル,キーワー
ド,著者,発行年,など)は識別用
の文字(英字一文字とセミコロン)
を付けた単語として抽出
• 汎用連想検索エンジン
GETA に読み込ませて索引
(INDEX)作成
9
JST Data
Filter Program
(Python)
Frequency
File
Mecab
形態素解析
INDEX
Web Server
(Apache)
CGI
U/I
Prog.
Web UIと,関連語マップ生成
• インターフェイスは
Webブラウザ
• CGIプログラムで稼働
• 2つのプログラム
– 関連語抽出
– 関連語マップ生成
10
User
Query
(words) Similar
Word
selection
関連語
MAP
生成
Similar
words data
Dot file
Graph
Image(PNG)
Graphviz
(グラフ生成)
HTML,
Graph(PNG)
INDEX
九州大学附属図書館の検索システム
の機能として公開予定
Web User Interface
11
Query
関連語MAP
関連語
関連MAP生成アルゴリズム
12
上位語 u , 下位語 v
If ( df(u, q) > df(v, q) ) and ( ),
Then u は v の上位語( v は u の下位語).
df (u,v,q)
df (v,q)
>a
df(u) : 単語 u の文書頻度.
u
v
検索語 q からの関連MAP生成
• D を全文書集合,W を D に含まれる全単語集合とする.
• 検索語 q と他の単語で,関連度の高い単語の集合 Wq を選出.
• ただし,Wq の単語は,検索時の制約条件を満たすものに限定する.
• 検索語 q を木 T の根ノードにする.
T = <N, E>, N は節点集合(単語),E は辺の集合.
• 既出でない単語のうち,最も上位の単語 v を選ぶ。
• 既出の単語のうち,最も v と関連度が高い単語 u に接続.
• v ∈ N ∧ v ∈ Wq ,
単語 v を E に追加,かつ,辺 <u, v> を N に追加。
u∧v
考察
• ノードを指定することで,対応する語を入力
とする新たな関連語マップを生成
→従来のサーベイプロセス
• 検索の精度・確度は?
すべての語に対する共起を考慮しているので,検索
というよりは,対象データのある性質を表示してい
る
• 抄録有りのデータを大量に集めるのは困難
13
おわりに
研究サーベイの煩雑な作業を軽減するためのシ
ステムを開発
– 入力は研究を直接的に表す語だけ
– 対象データでの共起を基に,専門用語,研究者,
研究組織等の関係をグラフで表示
– 支給データにより,システムの有用性を裏付ける
例を得た(ありがとうございました!)
新しい研究に挑戦する時は素人
14
アドベンチャー杯にかける意気込み
• 研究開発している手法・ツールの,独自性と
有効性を世に知らしめたい。
• 研究者の関連研究調査・サーベイの労力を減
らして行きたい。
• 学術文献を対象に分析することで,分野とし
て認識されているけど,成果(論文)の少な
い分野を可視化出来る。
• 研究活動のチャンスを可視化
• 日本の研究活動を活性化!
15
(本項目については、本選でのプレゼンテーション発表での説明を省略可とします。)
関連語マップの例(農業)
16
題目内の単語
所属機関名
著者名
JST定義の分類語
入力語
関連語マップの例(稲作)
17
題目内の単語
所属機関名
著者名
JST定義の分類語
入力語

More Related Content

Viewers also liked

データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要Analytics2014
 
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネAnalytics2014
 
「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~ 北海道札幌旭丘高等学校 生物部Asahigaokahs a...
 「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~  北海道札幌旭丘高等学校 生物部Asahigaokahs a... 「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~  北海道札幌旭丘高等学校 生物部Asahigaokahs a...
「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~ 北海道札幌旭丘高等学校 生物部Asahigaokahs a...Analytics2014
 
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊Analytics2014
 
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGIAnalytics2014
 
研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部Analytics2014
 
ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学
ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学
ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学Analytics2014
 
論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.Analytics2014
 
大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校
大学のそこんところ ~おカネと人と論文と~  埼玉県立熊谷女子高等学校大学のそこんところ ~おカネと人と論文と~  埼玉県立熊谷女子高等学校
大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校Analytics2014
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline Analytics2014
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual TalksYuya Unno
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Shintaro Fukushima
 
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」まで
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」までNeo4j の「データ操作プログラミング」から 「ビジュアライズ」まで
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」までKeiichiro Seida
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方Shohei Hido
 
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォームAWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォームHiroki Takeda
 
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話Keigo Suda
 
500’s Demo Day Batch 17 >> TraceAir
500’s Demo Day Batch 17 >> TraceAir500’s Demo Day Batch 17 >> TraceAir
500’s Demo Day Batch 17 >> TraceAir500 Startups
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門Hironori Sekine
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Yasutomo Kawanishi
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」Takashi J OZAKI
 

Viewers also liked (20)

データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要データサイエンス・アドベンチャー杯2015 開催概要
データサイエンス・アドベンチャー杯2015 開催概要
 
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ
研究活動の年次推移および人々の生活実感への影響に関する分析 健マネ
 
「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~ 北海道札幌旭丘高等学校 生物部Asahigaokahs a...
 「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~  北海道札幌旭丘高等学校 生物部Asahigaokahs a... 「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~  北海道札幌旭丘高等学校 生物部Asahigaokahs a...
「生物多様性を探るために」~トンボの統計解析からわかったノシメトンボと生物多様性について~ 北海道札幌旭丘高等学校 生物部Asahigaokahs a...
 
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊
企業に着目した共同研究ネットワーク構造の解析と非連続的成長の予測 技術動向観測隊
 
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI
未来のデータサイエンティストを探せ! ~研究分野遷移から見た人材マッチング~ UNAGI
 
研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部研究力の向上と実社会の発展の関係分析 HSE研開部
研究力の向上と実社会の発展の関係分析 HSE研開部
 
ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学
ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学ニュース記事と特許を利用した科学技術の重要性の評価  広島市立大学
ニュース記事と特許を利用した科学技術の重要性の評価 広島市立大学
 
論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.論文の共著関係ネットワークの中心性分析 Terano Lab.
論文の共著関係ネットワークの中心性分析 Terano Lab.
 
大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校
大学のそこんところ ~おカネと人と論文と~  埼玉県立熊谷女子高等学校大学のそこんところ ~おカネと人と論文と~  埼玉県立熊谷女子高等学校
大学のそこんところ ~おカネと人と論文と~ 埼玉県立熊谷女子高等学校
 
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
All Analytics Championship Powered by SAS ~データサイエンス・アドベンチャー杯~Guideline
 
機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks機械学習チュートリアル@Jubatus Casual Talks
機械学習チュートリアル@Jubatus Casual Talks
 
Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)Rにおける大規模データ解析(第10回TokyoWebMining)
Rにおける大規模データ解析(第10回TokyoWebMining)
 
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」まで
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」までNeo4j の「データ操作プログラミング」から 「ビジュアライズ」まで
Neo4j の「データ操作プログラミング」から 「ビジュアライズ」まで
 
データサイエンティストのつくり方
データサイエンティストのつくり方データサイエンティストのつくり方
データサイエンティストのつくり方
 
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォームAWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
AWSマネージドサービスをフル活用したヘルスケアIoTプラットフォーム
 
スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話スマートファクトリーを支えるIoTインフラをつくった話
スマートファクトリーを支えるIoTインフラをつくった話
 
500’s Demo Day Batch 17 >> TraceAir
500’s Demo Day Batch 17 >> TraceAir500’s Demo Day Batch 17 >> TraceAir
500’s Demo Day Batch 17 >> TraceAir
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
 
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~Pythonによる機械学習入門 ~SVMからDeep Learningまで~
Pythonによる機械学習入門 ~SVMからDeep Learningまで~
 
最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」最新業界事情から見るデータサイエンティストの「実像」
最新業界事情から見るデータサイエンティストの「実像」
 

Similar to 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~

誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村Tsubasa Yumura
 
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチ
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチオープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチ
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチYasuhisa Kondo
 
野生の研究について
野生の研究について野生の研究について
野生の研究についてTsubasa Yumura
 
XP と生態学
XP と生態学XP と生態学
XP と生態学Ryo Amano
 
若手研究者のための知的財産リテラシー講座(第1回予告)
若手研究者のための知的財産リテラシー講座(第1回予告)若手研究者のための知的財産リテラシー講座(第1回予告)
若手研究者のための知的財産リテラシー講座(第1回予告)博士のシェアハウス
 
20161008MAP当日 配布版
20161008MAP当日   配布版20161008MAP当日   配布版
20161008MAP当日 配布版SR WS
 

Similar to 大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~ (7)

誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
 
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチ
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチオープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチ
オープンチームサイエンス:シビックテックを活かした新しいサイエンスのカタチ
 
野生の研究について
野生の研究について野生の研究について
野生の研究について
 
XP と生態学
XP と生態学XP と生態学
XP と生態学
 
若手研究者のための知的財産リテラシー講座(第1回予告)
若手研究者のための知的財産リテラシー講座(第1回予告)若手研究者のための知的財産リテラシー講座(第1回予告)
若手研究者のための知的財産リテラシー講座(第1回予告)
 
学生の情報探索行動の実態調査 実施報告
学生の情報探索行動の実態調査 実施報告学生の情報探索行動の実態調査 実施報告
学生の情報探索行動の実態調査 実施報告
 
20161008MAP当日 配布版
20161008MAP当日   配布版20161008MAP当日   配布版
20161008MAP当日 配布版
 

大学や研究所の研究活動がひと目で分る研究活動マップ生成~だれが,どこで,どんな活動をしてるの?~