SlideShare a Scribd company logo
経済学のための実践的データ分析
7. 論文データベースの使い方
1405教室
経済学研究科
原泰史
yasushi.hara@r.hit-u.ac.jp
確認事項
• 電源タップは足りているでしょうか?
• レポートの提出
今日の内容: データベースを用いた分析(2)
論文データベース [座学、実習]
• Clarivate Analytics 社が提供する Web of Science
(https://clarivate.com/products/web-of-science/) では、
論文の書誌情報を取得することが出来ます。
• こうしたデータを用いることで、例えば、「日本の大学で最も
年ごとの論文数が多いのは何処か?」、「(指導教官の)○○先
生が書いた論文はt年にx本で、その論文は累計 y 回引用され
た」などの情報を取得することが出来ます。
• 前回と同様、学生は問いを立てた上で、データベースから必要
な情報を取得し解析を行い、レポートに取りまとめる必要があ
ります。
論文データでわかること
• 1905年にアインシュタインが出した論文が、誰にどのくらい引
用されているのか?
• 企業が基礎研究にどのくらい注力しているのか?
• 大学はどのくらい論文を生産しているのか?
• 「△△学部の○○先生」はy年にx個論文を出していて、それがt
回引用されているか?
• 今日主に使うもの; Web of Science
• 一橋学部生/院生は学内ネットワークよりアクセス可能
今日の内容
(105分)
0. メイプルシロップとインパクトファクター, ある
いはブラックベアンに研究者がマジレスした理由
1: 論文とはなんだろう
2: 実際に論文データベースを解析してみよう
3:レポート(1&2回目)の話
0. メイプルシロップとインパクト
ファクター, あるいはドラマ「ブ
ラックベアン」に研究者がマジレ
スした理由
やってみた;
Maple Science に掲載されている論文を確認してみる
• https://maplescience.ca/
https://maplescience.ca/research/
- メイプルシロップに関する論文が掲載
されている (例. スポーツドリンクとメ
イプルシロップドリンクの栄養効果の違
い)
- よくよくみると, Journal に掲載された
論文と, 学会で報告された論文が併記さ
れている
-- Journal に掲載された論文の場合,
Pubmed というアメリカの論文集約サイ
トへのリンクが設けられている
• https://jissn.biomedcentral.com/track/
pdf/10.1186/s12970-019-0273-z
にアクセスすると, 実際の論文が確認でき
る.
• もちろん, 学会報告にとどまる研究のク
オリティが低く, ジャーナルに掲載され
た論文のクオリティが高いと, 一概に言
えるわけでもない
• たとえば, 1年前に二宮さんが出ていたド
ラマ(『ブラックベアン』)で出てきた, 論
文のインパクトファクターをこの論文が
掲載された雑誌について確認してみる
Springer Link で論文のIF を確認
• https://link.springer.com/journal/12970
• Impact Factor とは
Impact Factor (インパクトファクター;
IF) とは、Web of Science Core
Collection収録の雑誌を対象とした評価
指標の一つで、学術雑誌の影響力を示す
ものです。
IFの数値は、ある雑誌に掲載された論文
が、特定の一年間に平均的にどのくらい
引用されたのかを示しています。
引用; https://guides.lib.kyushu-
u.ac.jp/c.php?g=775030&p=5558872
注意事項
• ジャーナルに掲載されていたり, インパクトファクターの高い雑誌に掲載
されているからといって、その論文の信頼性が高いというわけではない
• そして, インパクトファクターの高い雑誌に論文が掲載されたからといっ
て, 研究者あるいはその論文のパフォーマンスが高いわけでもない
• メイプルシロップの効用は科学的に評価されつつあるが、最終的には、自
分で論文を最初から最後まで読んで納得するか、あるいは、とりあえず何
も考えずにみのもんた (obsolete) and/or 大吉先生の話を受け入れるしか
ないのかもしれないけど、たぶん後者はあまり「科学的」ではない
• 研究者の評価手法として, 論文を使うのはとても一面的
• 特許を出す先生もいるし, テレビに出まくる先生もいるし, ツイッター先生もいるし
(研究者が自らの研究を発信する手段は, 査読付きのジャーナルには限られない)
• だけど、大学に所属して研究者を続けるには、良い論文誌に掲載することをは結構
重要だったりする
• ブラックベアンについては、二宮君がかっこよければそれでいいと思った
1. 論文とはなんだろう?
特許や論文とはなにか?
5/7/2019 14
特許: “特許は、有用な発明をなした発明者またはそ
の承継人に対し、その発明の公開の代償として、一
定期間、その発明を独占的に使用しうる権利(特許
権)を国が付与するものである。特許権は、無体物
(物ではない、形のないもの)である発明に排他的
支配権を設定することから、知的財産権のひとつと
される。(Wikipedia) ”
論文: “論文(ろんぶん、英: paper)とは、学問の
研究成果などのあるテーマについて論理的な手法
で書き記した文章。 (Wikipedia)”
論文データベース
• 何がわかるのか
• だれが、いつ、どこで、どんな論文を書いたのかがわかる
• だれが、いつ、どこで、どんな論文を引用したかがわかる
• メリット
• 先行研究を知ることができる
• 自分のリサーチテーマと被る研究がどのくらいあるのか
• 新規性がどのくらいあるのか
• みんなが読んでいる論文がわかる!
• インパクトファクターの高い雑誌がわかる!(アカデミアでの就職に
有利な!)
• どんな研究が世の中で行われているかがわかる!
2019/5/7 15
論文データベースに掲載されている情報
アブストラ
クト
タイトル
著者名
ジャーナル
名とページ
数
発行年
論文キーワード
著者の所属と住
所
パブリッシャー
論文の分類
論文のタイプと
使用言語
論文の引用数
と被引用数
2019/5/7 16
前方引用と後方引用:
時点 : t
"An Approach to the Study of
Entrepreneurship," THE TASKS OF
ECONOMIC HISTORY (Supplemental
Issue of THE JOURNAL OF
ECONoMIc HISTORY), VI (1946), 1-15
Oscar Lange, "A Note on
Innovations," Review of Economic
Statistics, XXV (1943), 19-25
F. W. Taussig, Inventors and
Money-Makers (New York: The
Macmillan Company, 1915).
Fritz Redlich, The Molding of American
Banking—Men and Ideas (New York: Hafner
Publishing Company, 1947).
Robert A. Gordon, Business
Leadership in the Large Corporation
(Washington, D.C.: The Brookings
Institution, 1945).
F. J. Marquis and S. J. Chapman on the
managerial stratum ,of the Lancashire cotton
industry in the Journal of the Royal Statistical
Society, LXXV, Pt. III (1912). 293-306.
前方引用後方引用
・後方引用からわかること
-- どのような先行研究が活用されたのか
-- いつ公開された先行研究を活用したのか
-- 論文を執筆するにあたり、「科学的源泉」
はいったいなんだったのか
・後方引用からわからないこと
-- 引用されていないけど、重要だった「科学
的源泉」
-- 引用されていないけど、参照された先行研
究 (in context.)
・前方引用からわかること
-- 論文自体の重要性
-- 「巨人の肩の上に立つ (Standing on the
shoulders of the giants) 」
-- 知識の伝播過程
-- 論文自体が「古くなっていない」か
・前方引用からわからないこと
-- ほんとうにその論文は重要な論文なのか
(引用されること自体が, 論文の重要性を示し
ているのか)
-- 後発の論文にとって重要な科学的源泉が,
直接的には引用されていない場合も
2019/5/7 17
Schumpeter 1947 の後方引用数推移(Web
of knowledge)
2019/5/7 18
シュンペーター、死後40年後に流行りがち
論文のデータベースを使うと何がわかる?
• 著者の数が多い論文は被引用数が多くなる?
• どういうジャンルの論文を, 特定の大学や企業が投稿してい
る?
• ある産業内では, どういった企業が論文を多く投稿している?
• スターサイエンティストはだれ?
• 引用する論文が多いほど, 被引用数が増える?
• 博士ホルダーが書いた論文は, 普通の研究者に比べてパフォー
マンスが高くなる?
• 様々なジャンルに投稿している研究者のパフォーマンスは高く
なる?
2019/5/7 20
具体例1. (後方)引用分析
• 後方引用をたどることで, 発明に至る知識の流れを明らかにす
る
• JST プロジェクトの Feasibility Study
• Shuji Nakamura Patent に至るまでの Main Path
• 特許と、特許に引用された論文について調査
• ソース: Web of Knowledge / Thomson Innovation
2019/5/7 21
Network 全体 (属性付き)
赤色は Main Path に選択
された Node を示す.2019/5/7 22
1930s 1960s 1970s 1990s 2000s
1910-2007 (1次引用すべて導入; 上位12社明記)
1980s
2019/5/7 23
事例2. 知識フロー分析: 共同研究の分析
• 産学連携や企業間連携などによって行われた、科学的知識の伝
播フローが可視化できるか否か調査する
• 方法
1. ヒヤリング調査, 基本論文および基本特許のサーベイより医薬品の開
発プロセスにおいて重要な役割を果たしたキープレイヤーを同定
2. キープレイヤーの公刊した特許/論文データを時系列順に収集
3. 一定の期間ごとに区切り, 共著者情報および組織情報から共同研究の
プレイヤーを精緻化 (ネットワークグラフ化)
3/19/2015 24
Osaka Univ.
IL-6
Chugai
Pharmaceutical
B-Cell Immune Analysis
R&D structure of Actemra
Actemra
Humanize
d
Monoclonal
Antibodies
MRC
TOSO
H
Year Main TOPIC
1984 Chugai started to find B-Cell inhibitor
agent drug
1986 Collaboration with Osaka University
initiated
1987 TOSOH joined the collaboration
1990 Collaborate with MRC (Medical Research
Council, UK), establishing humanized
monoclonal antibody
1993 Miss-allocation for genome sequence in
Master Cell Bank (for further production
and clinical study)
1994 Re-establishing MCB (end: 1996)
1996 Decision has been made that developing
as therapeutic drug for Rheumatoid
arthritis
1997 Phase I Clinical Study
2001 Phase II Clinical Study
2003 Phase III Clinical Study
2008 Approved in JP 25
1984-
collaborative
research
agreement
1986-
Collaboration summary for R&D process of
Actemra
Type of
Researc
h
Year Collaborator with
Dr. Ohsugi
Details Method of
Collaborative
Research
Basic
Researc
h
1978-1980 Dr. Gershwin
(University of
California, Davis)
B cell
identification
Foreign Study via
Dr. Ohsugi to
analyze B cell
structure
1984-1985 Tokyo University l-BCDF Supplying
Research
facilities by
Chugai (informal
collaboration)
Applied
Researc
h
1986- Dr. Kishimoto
(Osaka
University), Tosoh
Corp.
Discovery of IL-6
inhibitory agent
Detachment of
researcher from
Chugai and
Tosoh. (formal
collaboration)
1990 MRC Generalization of
humanized
monoclonal
antibody.
Detachment of
researcher from
Chugai
262019/5/7
Collaboration process
of Dr. Ohsugi Yoshiyuki,
key corporate scientist
of Actemra
Co-authorship analysis with key scientist of Actemra
(1)
Co-author graph of Dr. Ohsugi from 1975-1980
Circulated Data Source: Web of Knowledge
Virtualization: Vantage Point
Ohsugi only interacted with the scientist of
Juntendo University and it is not related to the
discovery process of Ro-Actemra
Co-author graph of Dr. Ohsugi from 1981-1985.
Source: Web of Knowledge, Virtualization: Vantage
Point
In 1978, Ohsugi starts his foreign study in University of
California Davis and yields three papers with Dr. Gershwin
for B-Cell hypothesis. Figure reflects his output of foreign
study.
And, in 1985, the 2nd year of development process of Ro-
Actemra, Ohsugi’s R&D team and Dr. Katagiri, research
associate of Tokyo University started informal
collaborative research and yields one paper 272019/5/7
This collaboration could be endorsed
by using patent databases. Dr.
Tadamitsu Kishimoto, main key
researcher of IL-6 in Osaka University,
has 6 patents with Chugai.
Co-authorship analysis with key scientist of Actemra
(2)
Figure shows initial point of collaborative research
between Chugai and Osaka University started from
1986, and it emphasizes the efforts of Osaka University
and his scientists whom identify IL-6 (interleukin-6) in
1980s which is essential to induce humanized antibody
of (Ro) Actemra. In addition, the graph indicates
another company, Tosoh Corp., had been involved the
collaboration and yields 1 paper with Chugai and 1
paper with Chugai and Osaka University.
28
Co-author graph of Dr.
Ohsugi from 1986-1990.
Source: Web of Knowledge,
Virtualization: Vantage Point
Co-author graph of Dr.
Kishimoto. Source:
Thomson Innovation,
Virtualization: Vantage Point
2019/5/7
In 1990, finally Ro-Actemra has been
synthesized as Anti-Human IL-6 Receptor
Monoclonal Antibody with the collaboration
of MRC (Medical Research Council) in
United Kingdom. And the contribution of
MRC could be traced by bibliographic co-
author data.
Total number of issued paper has been
increased rapidly in this window as pre-
clinical study of Ro-Actemra has been
started. Co-authorship with several
university and hospitals could be observed
in the graph. And, there are 2 papers which
MRC and Osaka University has been
involved.
Co-authorship analysis with key scientist of Actemra
(3)
29
Co-author graph of Dr.
Ohsugi from 1991-1995.
Source: Web of Knowledge,
Virtualization: Vantage Point
2019/5/7
Co-authorship analysis with key scientist
of Actemra (4)
In early 1990s as Ro-Actemra in
pre-Clinical state, Tosoh has
terminated collaborative
contract with Chugai and Osaka
University mainly due to
enormous clinical cost of Ro-
Actemra, and Figure confirms
the fact. There is no indication
name for Tosoh Corp. And as
the role of Dr. Ohsugi has been
decreased as clinical study of
Ro-Actemra has started in 1996,
total number of paper has been
lowered than previous window.
30
Co-author graph of Dr.
Ohsugi from 1996-2000.
Source: Web of Knowledge,
Virtualization: Vantage Point
2019/5/7
論文データベースを使った分析の課題
• データ処理の開始までに手間が掛かる
• データクリーニング: ネットワーク図作成ソフトに合致するようにデー
タの処理を行う手間 (平準化, 欠落データの処理など)
• 名寄せ (企業名, 個人名, 表記ゆれ etc…) を手作業で修正するのは、き
わめて時間のかかる作業
• わかりやすいネットワーク図をつくるには、パラメータの調整
が必要 (NetDraw etc…)
• 大量データを利用する場合、(フリーソフトウェアの場合)うま
く動作しない場合がある
2019/5/7 31
論文データベースを使った分析の課題(2)
• 世の中に「完備な」データベースはありません
• 「大人は嘘つきではありません、ただ間違いをするだけなのです
…」
• 組織名が違う
• 自分の名前が違う
• 所属国が違う
• 論文のカテゴリが違う
ことが多々出てきます。
• 自らのリサーチクエスチョンに合わせて精緻な分析を行うために
は、(1) 問いに対応する最適なデータベースを選び, (2) データの
クリーニング作業 を行う必要があります
2019/5/7 32
実習1: 論文データベースによってカバー
している情報が違うことを確かめてみる
• “20 Years of Human Pluripotent Stem Cell Research: It All St
arted with Five Lines” という論文を
• 1. J-Global: http://jglobal.jst.go.jp/
• 2. CiNII : http://ci.nii.ac.jp/
• 3. Web of Science http://apps.webofknowledge.com/
• 4. Scopus http://www.scopus.com/
• 5. Google Scholar https://scholar.google.co.jp/
• 6. Microsoft Academic http://academic.research.microsoft.com/
の5種類の論文データベースで探し, どのような情報が掲載されているの
か確認する.
2019/5/7 33
1. J-global の場合: 検出, しかし謎の機械翻訳
2019/5/7 34
2. CiNii の場合: 検出できない
2019/5/7 35
3. Web of Science@一橋の場合: いろいろ見つかる
2019/5/7 36
3-2. Web of Science @GRIPSの場合:一橋
とまったく同じ情報が見つかる
2019/5/7 37
4. Scopus の場合: Web of Scienceと同じ
結果になるけど, 被引用数が違う….
Web of Knowledge の場合: 被引用数 67
Scopus の場合: 被引用数 69
2019/5/7 38
5. Google Scholar の場合
検出できる. 被引用数は WoS と異なる
2019/5/7 39
6. Microsoft Academic の場合
検出できる.
2019/5/7 40
Microsoft Academic Search –
(Forward)Citation Graph
2019/5/7 41
わかること
• 有料のデータベースと無料のデータベースがある
• Web of Science や Scopus にアクセスするのは, 実はお金がかかる
• 当該論文を検出できるデータベースとできないデータベースがある
• 被引用数はデータベースによって異なる
• 掲載されている情報もデータベースによって異なる
• 一番いいのは、実際の論文を読むこと/ダウンロードすること
• しかしながら, そんな時間はないので論文データベースを使わざるを
得ない
⇒ 網羅性が高いのは Web of Knowledge または Scopus, 日本語の
論文なら CiNII
2019/5/7 42
2. 実際に論文データベースを
解析してみよう
(英文)論文データベース
名前 Web of Knowledge Scopus
作っている会社 トムソン・ロイター エルゼビア
カバー範囲 ・社会科学文献の書誌および引用情報
(1898年-2015年)
・自然科学文献の書誌および引用情報
(1900年-2015年)
・5000以上の出版社の21,000誌以上の学術ジャー
ナル
・20000タイトル以上の査読ジャーナル
・370タイトルのブックシリーズ
・550万件以上の会議録
メリット ・過去データが豊富
・社会科学のカバー率が高い
・他のデータベースとリンクさせることが比較的容
易
・分野分類が (Web of Knowledge) に比べて明確
・自然科学のカバー率は Web of Knowledge に比
べ高い
・企業名および著者名の名寄せの精度が高いこと
もないみたい・・・
デメリット ・1945年以前のデータはカバー範囲が限られている
・カテゴリ分類が不明確
・現在カバー範囲が(Web of Knowledge に比べ)
狭い [引用情報は1996年以降のみカバー]
(2016年に向け拡大される予定)
価格 すごく高い! すごく高い!
気をつけること ・一橋大学では利用可能
・大学によってカバーしているデータ範囲が違う
一橋大学では利用不能 (部局によっては契約して
いる場合あり)
2019/5/7 44
まず注意すること: データのカバー範囲
• Web of Knowledge やScopus は大学によってカバーしている
データの範囲が異なります
• ある大学では検索できた結果が, 異なる大学では検索出来ない
ことがあります
2019/5/7 45
Web of Science にアクセスする
• 一橋のネットワークにアクセスしていることを確認
• http://www.webofknowledge.com/UA を開く
Web of knowledge のデータカバー範囲を確認
する方法 (1)
1. Web of Knowledge にアクセスし, “Web of Knowledge Core
Collection” を選択する
2019/5/7 47
Web of knowledge のデータカバー範囲を確認
する方法 (2)
2. 画面下にある “詳細設定” を確認する
2019/5/7 48
Web of knowledge のデータカバー範囲を
確認する方法 (3)
• GRIPSの場合
• Science Citation Index
Expanded (1993-現在)
• Conference Proceedings
Citation Index – Science
(1990-現在)
• 一橋大学の場合
• Science Citation Index
Expanded (1900-現在)
• Social Sciences Citation Index
(1900-現在)
• Arts & Humanities Citation
Index (1975-現在)
2019/5/7 49
Web of knowledge のデータカバー範囲を
確認する方法 (3-2)
• UTS (@Sydney, Australia の場合) • National Taiwan University の場合
2019/5/7 50
Web of Science
• 一橋の学内からはどこからで
も利用可能
• 一橋大学図書館の My Library
からリモートログインで利用
可能
• GRIPS でも利用可能
• 東大でも利用可能
2019/5/7 51
http://ip-science.thomsonreuters.jp/products/web-of-
science/yokuwakaru/
Web of Knowledge のデータカバー範囲を確認す
る方法 (4): Schumpeter の論文
“The Creative Response in Economic History” を探す
• GRIPS の場合: みつからない • 一橋大学の場合: みつかる
2019/5/7 52
実習2: Web of Scienceで シュンペーターの
論文を探してみよう
1. www.webofknowledge.com を開き, 「著者名」を選択. 「姓, イニシャル」 と入力する.
2019/5/7 53
実習2: Web of Scienceで シュンペーター
の論文を探してみよう
2. 検索結果が表示されるので, “並び替え” より “被引用数 – 多い順” を選択し並べ替える.
2019/5/7 54
実習2: Web of Scienceで シュンペーター
の論文を探してみよう
5. 一番引用数の多い “The Creative Response in Economic History” をクリックする.
わかること
・著者名
・ジャーナル名
・発行年月日
・被引用数
・引用文献
・インパクトファクター
・ドキュメントタイプ
・言語
・発行者
・研究分野
・Web of Knowledge Category
・最終引用
・直近のアクセス回数
2019/5/7 55
Tips: たくさんのデータを Web of
Knowledge から合法的に取り出す方法
• 方法0: ロボット検索やWeb スクレイピング
• ダメ、ゼッタイ!
• 方法1: Web インターフェースを使う
• データの抽出方法はいくつかある
• 方法2: Endnote Web を使う
• ヒント: Endnote ライブラリ
• 方法3: API やXML データを使う
• ただし有償 (かつかなり高い)
2019/5/7 56
実習3: Web of Science を使って一橋大学から
2017年に公刊された論文を取り出してみる
• 1. 検索 -> Web of Science Core Collection -> 詳細検索 を選ぶ
2019/5/7 57
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• 検索条件を入力する
• PY: 年
• OG: 組織名
• [検索] をクリックする
2019/5/7 58
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• 検索が実施され, データが抽出される. 検索履歴より検索結果の
件数をクリックする
2019/5/7 59
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• 検索結果が表示される
2019/5/7 60
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• “エクスポート”, “他のファイルフォーマットで保存” を選択する
2019/5/7 61
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• [レコード件数]から保存するレコー
ド数
• 今回は全論文エントリの116件
• [レコードコンテンツ]から”詳細表
示と引用文献”
• [ファイルフォーマット]から”タブ
区切り(Win (またはMac))” を選択
しエクスポートをクリックする
2019/5/7 62
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• 取り出したテキストファイル
2019/5/7 63
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• Alternative: エクセルを使うのがめんどくさい人向け
• [レコード件数]から保存するレコード数
• [レコードコンテンツ]から”詳細表示と引用文献”
• [ファイルフォーマット]から”テキスト” を選択し保存をクリックする
2019/5/7 64
実習3: Web of Science を使って一橋大学の
2017年に公刊された論文を取り出してみる
• Raw Data ファイルが出力される
• 自分でコードを書いて処理する
• ヒント: 終端処理はEF なので, そいつと先頭行を潰せばいくらでもデータ連結が
可能
2019/5/7 65
「研究分野」と「Web of Knowledge
Category」
• 研究分野
• 研究分野は、すべての Web of
Science 製品データベースで共有
される主題分野を構成します。そ
の結果、同じ主題に属する複数の
データベースのドキュメントを識
別、検索、分析することができま
す。
• Current Contents Connect およ
び Web of Science Core
Collection に含まれる各ジャーナ
ルおよび書籍は、Web of Science
の分野の少なくとも 1 つに割り当
てられます。Web of Science の
各分野は 1 つの研究分野にマップ
されます。
• Web of Knowledge Category
• “Web of Science Core Collection
に含まれるすべてのジャーナルお
よび書籍は、以下の主題分野の少
なくとも 1 つに割り当てられます。
Web of Science Core Collection
のすべてのレコードは、[Web of
Science の分野] フィールドに出
版物の主題分野を含みます。”
※. ひとつの論文に対して複数の
Web of Knowledge Category が割
り当てられていることがある
2019/5/7 66
データの出力結果
• 「研究分野」 • 「Web of Knowledge
Category」
2019/5/7 67
Web of Knowledge で注意するポイント
• カテゴリ分けが1:1 の関係にはなっていない
• 精緻に行うためには, ジャーナル名などで名寄せする必要性
• 部局名などの名寄せが行われていない
• NISTEP 表記ゆれ辞書などを活用する
• Scopus を利用する (obsolete)
• Web 経由では, 1回数百件しかダウンロードできない
• Excel でひたすらくっつけていくか, Raw Data 方式でダウンロードし
ひたすら連結, 処理をしたのち手元のSQL などに放り込む
• ロボット検索すると怒られます
2019/5/7 68
NISTEP: “大学・公的機関名英語表記ゆれ
テーブル(Web of Science版)(Ver.2014.1)”
• “1996-2012 年の期間にWeb of Scienceに採録された論文のう
ち、日本の機関に所属する著者を含む論文のデータ(約150万
件)を対象に、機関名英語表記のゆれを調査・分析しリスト化し
た結果”
• http://www.nistep.go.jp/research/scisip/randd-on-university
からダウンロード可能
• カバー範囲 1996-2012
• Creative Commons BY-SA
2019/5/7 69
“大学・公的機関名英語表記ゆれテーブル
(Web of Science版)(Ver.2014.1)”
• F 列が表記バリエーションになっているので, C列の機関ID で
Matching させる
• Web of Knowledge で取り出したデータと, 例えばExcel なら
vlookup などして連結させる
2019/5/7 70
Scopus
• エルゼビアが提供する論文データベー
ス
• “Scopus has twice as many titles
and over 30% more publishers listed
than any other A&I database”
• Journals や Book, Conference Papers
や Patents もカバー
• Scival を用いることで, 研究機関ごと
のパフォーマンスを知ることも可能
• なお、一橋では現時点 (2019年) では
契約していないので使えません
• GRIPSでは利用可能
• 細かな利用方法は Appendix を参照の
こと
2019/5/7 71
Web of Knowledge? Scopus? or Google
Scholar?
• (Kulkarni, Aziz, Shams and Busse 2009)
• Google Scholar, Web of Knowledge と
Scopus の Citation 推移を比較
• “Cohort study of 328 articles published
in JAMA, Lancet, or the New England
Journal of Medicine between October 1,
1999, and March 31, 2000. Total citation
counts for each article up to June 2008
were retrieved from Web of Science,
Scopus, and Google Scholar.”
• Findings
• “Compared with Web of Science, Scopus
retrieved more citations from non–English-
language sources (median, 10.2% vs 4.1%) and
reviews (30.8% vs 18.2%), and fewer citations
from articles (57.2% vs 70.5%), editorials (2.1%
vs 5.9%), and letters (0.8% vs 2.6%)
(allP < .001).”
2019/5/7 72
JAMA. 2009;302(10):1092-1096. doi:10.1001/jama.2009.1307
現時点での論文データベース利用法
• Web of KnowledgeとScopus, どちらにもデメリットとメリットがある
• Web of Knowledge: データベース全体の構造が複雑, かつノイズデータも多いけど長
い期間をカバーしている
• Scopus: Web of knowledge に比べればデータベース全体の構造は比較的単純.
Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省
けそうだけど, やはりノイズデータが含まれている. 今後に期待.
• (高いから比べられないし, だいたいの大学ではひとつしか使えないし)
論文データベースは Web of Knowledge, Scopus のいずれかを使う
• 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける
(けれど大変)
• 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れている
かチェックしていく (別の組織が入っていないか, 別の国が入っていない
か, ダブルカウントしていないか etc…)
2019/5/7 73
今日のまとめ
• 論文データベースは大学にいる間に活用しよう
• 論文データベースは完璧ではないことを知ろう
• 論文データベースを使って分析するには、データの整理や名寄
せが必要不可欠である
• NISTEP製テーブルをたくさん使いましょう
• 論文データベースからデータを取得して多変量解析するには、
やっぱりデータベース処理の知識が必要になってくる
• いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも
2019/5/7 74
3. レポート
(1回目&2回目)について
レポート(1回目)の内容
• 概要
• Manaba にアップロードされたデータセットを Jupyter Notebook 上
で解析し, 重回帰分析を行う
• レポートでは
• (1) 被説明変数と説明変数の関係性
• (2) R二乗項の値
• (3) VIF 値による, 多重共線性のチェック
などを報告した上で, 構築したモデルについて考察を行うこと
• 提出期間: 2019/4/23 15:00:00 - 2019/5/6 15:00:00 (JST)
• 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF
形式で提出すること
• ※. Word または LaTeX で, PDF でアウトプットすること
レポートの内容(2)
• 引用文献がある場合, 末尾に明記すること
• 文字数は問わない
データセット
• FIFA19 Datasets
• https://www.kaggle.com/karangadiya/fifa19
FIFA 19 に収録されている
フットボールプレイヤー選手
の能力値や市場価値をまとめたデータ
データセット(2)
分析について
• どれを説明変数/被説明変数にするかはおまかせします
• サラリー and/or 市場価値 and/or 能力?
• ダミー変数の作成などもおまかせします
• 必要あれば, 火曜日の講義で補足します
考えうる仮説
• 選手の加齢は市場価値を押し下げる
• クラブの移籍は選手のサラリーを押し上げる
• 国際的な認知度は選手の市場価値を押し上げる
• 現在の契約終了年までの期間が短いほど、市場価値を上げる
• 南米出身の選手は、欧州出身の選手に比べサラリーの水準が低
い
• Etc…
レポートの評価方法
• Excellent
• データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている
• Good
• データおよび適切な分析手法に基づき、独自の視点で考察がなされている
• Fair
• データに対して分析が行われているが、一般的な範囲での考察にとどまる
• Bad
• 考察がなされていない,あるいはデータの解析が十分に行われていない
• Failed
• 断りなく他者の見解を引用している,その他不正行為に相当する
レポートの評価基準
• 説明の順序は適切か.特に重要な項目の抜けや漏れはないか.
• 原典からの引用内容に事実誤認はないか.
• 誤字脱字(誤植)はないか.文法上の誤りはないか.文法ルー
ルが統一されているか.
• 文章は明快か.誤解を招くような内容・表現はないか.
• 参照,引用のルールに準拠しているか.剽窃はないか.
• 不正行為に相当する事項はないか.
• 提出期限を厳守しているか.
レポート(2回目)の内容
• 概要
• Manaba にアップロードされた Web of Science の論文データセットを
Jupyter Notebook 上で解析し, (1) 散布図グラフを作成する. データの特性に
ついてレポートにまとめる.
• レポートでは
• (1) 散布図グラフ
• (2) 数値間の相関係数
などを報告した上で, データの特性について考察を行うこと
• 提出期間: 2019/5/10 15:00:00 - 2019/5/13 15:00:00 (JST)
• 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式
で提出すること
• ※. Word または LaTeX で, PDF でアウトプットすること
4. 成績評価の方法
成績評価(1)
• 平常レポート (40パーセント; 必須)
• 講義計画に示したように、複数の回で学生にはレポートを課します。
レポートは Word/PowerPoint形式のメールあるいは, github 経由で
の提出が求められます(どの方法を採用するかは、初回の講義で決定し
ます)。
• レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問
い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ
数や文字数は問いませんが, これらの内容が含まれており, 講義中にア
ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。
• 平常点 (10パーセント)
• 本講義は実習が多く含まれており, また取り扱うデータセットや内容も
多彩です。そのため、受講者同士が協力する必要があります。こうし
た受講者の態度を評価するために、平常点を設けます。
成績評価(2)
• 最終レポート (40パーセント; 必須)
• 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か
ら構成されるグループで、最終レポートの報告を行う必要があります(人数は
受講者の人数により変更される可能性があります)。最終レポートでは、プレ
ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以
外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ
ンテーション手法を用いることが出来ます(プレゼンテーションツールについ
ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、
以下の点について評価を行います。
(A.) グループ内の役割分担
(B.) データセットのユニークさおよび、それが適切に処理されているか
(C.) 分析手法のユニークさおよび、それが適切に解析されているか
(D.) プレゼンテーションのユニークさ
(E.) 質疑応答にうまくリプライすることが出来ているか
• 最終レポートの360°グループ評価 (10パーセント)
• 3. の最終レポートについて、グループの自己評価および他のグループからの
評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ
び他のグループは評価を行います。
8.[5/10] データベースを用いた分析(3) 企業デー
タベース/データベース間の接合[座学、実習]
• 帝国データバンク企業・経済高度実証研究センター
(http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供
する企業のデータベースについて説明を行います。本データベース
には、企業の取引、出資、銀行取引データや、決算書データなどが
含まれています。こうしたデータセットに基づき、前二回同様、問
いに基づきデータを解析することを目指します。
• 今回も、学生はレポートを提出する必要があります。
• また講義の後半では、NISTEP 企業名辞書
(http://www.nistep.go.jp/research/scisip/rd-and-innovation-
on-industry) などを用い, ID ベースでデータセット間を接合する手
法について説明します。
TDBデータベース
http://www7.econ.hit-u.ac.jp/tdb-caree/deta/
ただし…
• 商用データベースなので, 学生の皆さんに “そのまま” 使って頂
くのは難しそうです
• 一部データをモディファイした形で、企業データの解析を皆さ
んに体験していただけるようにしたいと思います
THANKS
yasushi.hara@r.hit-u.ac.jp
Appendix;
Scopus を使ってみよう
2019/5/7 92
Scopus のインターフェース
ケース4: シュンペーターの論文を探してみよう
1. www.scopus.com を開き, 「著者検索」に Last Name と First Name を入力する.
2019/5/7 93
Scopus のインターフェース
ケース4: シュンペーターの論文を探してみよう
2. 著者名の候補が表示されるので, 該当する著者をクリックする
2019/5/7 94
Scopus のインターフェース
ケース4: シュンペーターの論文を探してみよう
3. 論文の一覧が表示される
2019/5/7 95
Scopus XML Data
• Scopus の Raw Data を利用可能
• 2015年6月以降GRIPS 内で稼働予定
• 利用対象者: GIST/SciREX センターの教員/研究員/客員研究員/学生
• NoSQL またはRDBMS 形式でのデータ提供を予定
2019/5/7 96
Scopus XML Data: 主な項目
• Abstract
• Author
• Author-group
• Bibliography
• Ce:doi
• ce:initials
• Chemical
• Chemical-Name
• Chemical-Group
• Citation-info
• Citation-Language
• Citation-type
• Citation-Title
• Country
• Editor
• Organization
• PageCount
2019/5/7 97
Author Metadata
2019/5/7 98
Cited by Counts
2019/5/7 99
All Science Journal Classification Codes
2019/5/7 100
サンプルデータ: XMLファイル
2019/5/7 101
サンプルデータ: XML ファイル (cited)
2019/5/7 102
サンプルデータ: XSDファイル
2019/5/7 103
Scopus を使う上で注意するポイント
• Web of Knowledge に比べた
らカテゴリや組織や研究者個
人の名寄せがキッチリしてい
るかと思ったけど, 別にそん
なことはないみたい
• データのカバー範囲が広い事,
データベース構造が Web of
Knowledge に比べ比較的単純
なのがメリットなくらい
2019/5/7 104
https://twitter.com/noricoco/status/585677912705261569
大学・公的機関名英語表記ゆれテーブル
(Scopus版)(ver.2013.1)
• “1996-2010 年の期間にScopusに採録された論文のうち、日本
の機関に所属する著者を含む論文のデータ(約150万件)を対象
に、機関名英語表記のゆれを調査・分析しリスト化した結果”
• http://www.nistep.go.jp/research/scisip/randd-on-university
からダウンロード可能
2019/5/7 105
大学・公的機関名英語表記ゆれテーブル
(Scopus版)(ver.2013.1)
• JSTだけでも様々な表記が
2019/5/7 106
Scopus-NISTEP大学・公的機関名辞書対
応テーブル(ver.2013.1)
• “科学論文の計量的分析に用いられるデータベース、Scopusの論文
ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対
応テーブルです。1996-2010 年の期間にScopusに採録された論文の
うち、日本の機関に所属する著者を含む論文のデータ(約150万件)を
対象に、国内の大学・公的機関の機関名称の名寄せを行った結果”
• http://www.nistep.go.jp/research/scisip/randd-on-university から
ダウンロード可能
• 論文IDごとに機関ID が割り振られているので, より正確に組織名で
名寄せができる
• データ量が巨大なので、MySQL/PostgreSQL か Access を使いま
しょう
• Excel でなんとかやれないこともないけど大変
2019/5/7 107
Scopus-NISTEP大学・公的機関名辞書対
応テーブル(ver.2013.1)
• Access に取り込んだ結果: レコード数2718337件
2019/5/7 108

More Related Content

What's hot

SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
Yasushi Hara
 
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門- (公開用)
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門-  (公開用)IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門-  (公開用)
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門- (公開用)
Yasushi Hara
 
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
Yasushi Hara
 
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
Kosuke Tanabe
 
15分で使いたくなる! Web of Science
15分で使いたくなる! Web of Science15分で使いたくなる! Web of Science
15分で使いたくなる! Web of Sciencejinkansoujinlib
 
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
Yasushi Hara
 
サイエンスマップ2014
サイエンスマップ2014サイエンスマップ2014
サイエンスマップ2014
Masatsura IGAMI
 
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
Yoshida-South Library, Kyoto University
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
National Institute of Informatics
 
20130424文献検索の方法
20130424文献検索の方法20130424文献検索の方法
20130424文献検索の方法
Yuko Matsumura
 
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」 SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
Yasushi Hara
 
日本の研究力の停滞の背景をよむ
日本の研究力の停滞の背景をよむ日本の研究力の停滞の背景をよむ
日本の研究力の停滞の背景をよむ
Masatsura IGAMI
 
141118文献検索の方法
141118文献検索の方法141118文献検索の方法
141118文献検索の方法
Yuko Matsumura
 
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」 SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
Yasushi Hara
 
H26医と社会 医学系文献検索の方法
H26医と社会 医学系文献検索の方法H26医と社会 医学系文献検索の方法
H26医と社会 医学系文献検索の方法
Yuko Matsumura
 
なぜ discovery か?
なぜ discovery か?なぜ discovery か?
なぜ discovery か?Tetsuo Imai
 

What's hot (17)

SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...SciREX 『ナショナルイノベーションシステムに係る定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ-論文データベースの使い方...
SciREX 『ナショナルイノベーションシステムに係る 定量データとその分析手法』WSシリーズ: 第2回「巨人の上の肩に立つ -論文データベースの使い方...
 
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門- (公開用)
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門-  (公開用)IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門-  (公開用)
IIRフォーラム 1/28 数字が教えてくれないこと -特許データベース分析入門- (公開用)
 
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
SciREX イノベーション分析手法勉強会 第七回 「SQL 入門と特許データベース分析(その1)」
 
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
ジャーナルリスト徹底活用法 - 楽しい電子ジャーナル管理のために -
 
15分でシットク! Web of Scienceから論文検索(2014)
15分でシットク! Web of Scienceから論文検索(2014)15分でシットク! Web of Scienceから論文検索(2014)
15分でシットク! Web of Scienceから論文検索(2014)
 
15分で使いたくなる! Web of Science
15分で使いたくなる! Web of Science15分で使いたくなる! Web of Science
15分で使いたくなる! Web of Science
 
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
「データを使ってイノベーション分析をするためにデータベースの使い方をひと通り勉強してみる会(仮)」: 第一回
 
サイエンスマップ2014
サイエンスマップ2014サイエンスマップ2014
サイエンスマップ2014
 
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
海外論文ここから探せ! 15分でつかむWeb of Science 講座 (2015)
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
 
20130424文献検索の方法
20130424文献検索の方法20130424文献検索の方法
20130424文献検索の方法
 
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」 SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
SciREX イノベーション分析手法勉強会 第9回 「SQL 入門とデータベース分析(その3)」
 
日本の研究力の停滞の背景をよむ
日本の研究力の停滞の背景をよむ日本の研究力の停滞の背景をよむ
日本の研究力の停滞の背景をよむ
 
141118文献検索の方法
141118文献検索の方法141118文献検索の方法
141118文献検索の方法
 
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」 SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
SciREX イノベーション分析手法勉強会 第8回 「SQL 入門と特許データベース分析(その2)」
 
H26医と社会 医学系文献検索の方法
H26医と社会 医学系文献検索の方法H26医と社会 医学系文献検索の方法
H26医と社会 医学系文献検索の方法
 
なぜ discovery か?
なぜ discovery か?なぜ discovery か?
なぜ discovery か?
 

Similar to #経済学のための実践的データ分析 7. 論文データベースの使い方

130411文献検索の方法(講義用)
130411文献検索の方法(講義用)130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
Yuko Matsumura
 
オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点
Ui Ikeuchi
 
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
Tsubasa Yumura
 
Research analysis waseda_2018
Research analysis waseda_2018Research analysis waseda_2018
Research analysis waseda_2018
Keiko Ono
 
野生の研究について
野生の研究について野生の研究について
野生の研究について
Tsubasa Yumura
 
101209文献検索の方法
101209文献検索の方法101209文献検索の方法
101209文献検索の方法Yuko Matsumura
 
20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】
arosawa
 
科学技術・学術政策研究所講演20170731ver.2(公開用修正版)
科学技術・学術政策研究所講演20170731ver.2(公開用修正版)科学技術・学術政策研究所講演20170731ver.2(公開用修正版)
altmetricsの議論に至るまでの経緯(1665-2012)
altmetricsの議論に至るまでの経緯(1665-2012)altmetricsの議論に至るまでの経緯(1665-2012)
altmetricsの議論に至るまでの経緯(1665-2012)
Tomoko Tsuchiya
 
ほしい論文、どうやって探す?
ほしい論文、どうやって探す?ほしい論文、どうやって探す?
ほしい論文、どうやって探す?
Yoshida-South Library, Kyoto University
 
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)kulibrarians
 
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CVSurvey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
Shintaro Yamamoto
 
アカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用についてアカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用について
Tsubasa Yumura
 
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
Takashi Koga
 
公正な学術論文の作成と剽窃問題
公正な学術論文の作成と剽窃問題公正な学術論文の作成と剽窃問題
公正な学術論文の作成と剽窃問題
Kazuki Kasama
 
Misconduct and replication issues
Misconduct and replication issuesMisconduct and replication issues
Misconduct and replication issues
Kazuki Kasama
 
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッションいま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
Yasushi Hara
 
エビデンス・データの 研究マネジメントへの活用に向けて
エビデンス・データの研究マネジメントへの活用に向けてエビデンス・データの研究マネジメントへの活用に向けて
エビデンス・データの 研究マネジメントへの活用に向けて
Masatsura IGAMI
 
20200109 is forum
20200109 is forum20200109 is forum
20200109 is forum
Masahiko Inoue
 
「電子ジャーナル」以降 つまり今と近未来の学術情報流通
「電子ジャーナル」以降 つまり今と近未来の学術情報流通「電子ジャーナル」以降 つまり今と近未来の学術情報流通
「電子ジャーナル」以降 つまり今と近未来の学術情報流通
Syun Tutiya
 

Similar to #経済学のための実践的データ分析 7. 論文データベースの使い方 (20)

130411文献検索の方法(講義用)
130411文献検索の方法(講義用)130411文献検索の方法(講義用)
130411文献検索の方法(講義用)
 
オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点オープンサイエンス〜情報と公共図書館の接点
オープンサイエンス〜情報と公共図書館の接点
 
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
誰もが研究する時代の到来 〜これからの未来をつくる「野生の研究者」の生態に迫る〜 #smips湯村
 
Research analysis waseda_2018
Research analysis waseda_2018Research analysis waseda_2018
Research analysis waseda_2018
 
野生の研究について
野生の研究について野生の研究について
野生の研究について
 
101209文献検索の方法
101209文献検索の方法101209文献検索の方法
101209文献検索の方法
 
20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】20201125バイオロギング研究会ワークショップ【オープンデータ】
20201125バイオロギング研究会ワークショップ【オープンデータ】
 
科学技術・学術政策研究所講演20170731ver.2(公開用修正版)
科学技術・学術政策研究所講演20170731ver.2(公開用修正版)科学技術・学術政策研究所講演20170731ver.2(公開用修正版)
科学技術・学術政策研究所講演20170731ver.2(公開用修正版)
 
altmetricsの議論に至るまでの経緯(1665-2012)
altmetricsの議論に至るまでの経緯(1665-2012)altmetricsの議論に至るまでの経緯(1665-2012)
altmetricsの議論に至るまでの経緯(1665-2012)
 
ほしい論文、どうやって探す?
ほしい論文、どうやって探す?ほしい論文、どうやって探す?
ほしい論文、どうやって探す?
 
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
20040820 ku-librarians勉強会 #58:機関リポジトリ(『電子図書館の新たな潮流』シリーズ 第2回)
 
Survey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CVSurvey of Scientific Publication Analysis by NLP and CV
Survey of Scientific Publication Analysis by NLP and CV
 
アカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用についてアカデミック以外の場において発表される成果や知見の活用について
アカデミック以外の場において発表される成果や知見の活用について
 
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
「政府情報リテラシー」をめぐる一考察:一次情報・一次資料の側面に焦点を当てて(古賀崇)
 
公正な学術論文の作成と剽窃問題
公正な学術論文の作成と剽窃問題公正な学術論文の作成と剽窃問題
公正な学術論文の作成と剽窃問題
 
Misconduct and replication issues
Misconduct and replication issuesMisconduct and replication issues
Misconduct and replication issues
 
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッションいま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
いま問われる研究業績評価:応用物理と未来社会: パネルディスカッション
 
エビデンス・データの 研究マネジメントへの活用に向けて
エビデンス・データの研究マネジメントへの活用に向けてエビデンス・データの研究マネジメントへの活用に向けて
エビデンス・データの 研究マネジメントへの活用に向けて
 
20200109 is forum
20200109 is forum20200109 is forum
20200109 is forum
 
「電子ジャーナル」以降 つまり今と近未来の学術情報流通
「電子ジャーナル」以降 つまり今と近未来の学術情報流通「電子ジャーナル」以降 つまり今と近未来の学術情報流通
「電子ジャーナル」以降 つまり今と近未来の学術情報流通
 

More from Yasushi Hara

#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
Yasushi Hara
 
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
Yasushi Hara
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
Yasushi Hara
 
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
Yasushi Hara
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
Yasushi Hara
 
#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方
Yasushi Hara
 
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
Yasushi Hara
 
経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析
Yasushi Hara
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
Yasushi Hara
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
Yasushi Hara
 
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
Yasushi Hara
 
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
Yasushi Hara
 
結婚パーティご挨拶 2018/02/12
結婚パーティご挨拶 2018/02/12結婚パーティご挨拶 2018/02/12
結婚パーティご挨拶 2018/02/12
Yasushi Hara
 
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
Yasushi Hara
 
(Big) Data for Research for "Science, Technology and Entrepreneurship"
(Big) Data for Research for "Science, Technology and Entrepreneurship"(Big) Data for Research for "Science, Technology and Entrepreneurship"
(Big) Data for Research for "Science, Technology and Entrepreneurship"
Yasushi Hara
 
ノーベル賞と科学技術イノベーション政策 -選考プロセスと受賞者のキャリア分析
ノーベル賞と科学技術イノベーション政策-選考プロセスと受賞者のキャリア分析ノーベル賞と科学技術イノベーション政策-選考プロセスと受賞者のキャリア分析
ノーベル賞と科学技術イノベーション政策 -選考プロセスと受賞者のキャリア分析
Yasushi Hara
 
「データで探るノーベル賞受賞者のキャリアと成果」
「データで探るノーベル賞受賞者のキャリアと成果」「データで探るノーベル賞受賞者のキャリアと成果」
「データで探るノーベル賞受賞者のキャリアと成果」
Yasushi Hara
 
「ノーベル賞を倍増せよ!」とはいうけれど。
「ノーベル賞を倍増せよ!」とはいうけれど。「ノーベル賞を倍増せよ!」とはいうけれど。
「ノーベル賞を倍増せよ!」とはいうけれど。
Yasushi Hara
 
Scenario-based Economic Model Approach to evaluate the impact of the Internet...
Scenario-based Economic Model Approach to evaluate the impact of the Internet...Scenario-based Economic Model Approach to evaluate the impact of the Internet...
Scenario-based Economic Model Approach to evaluate the impact of the Internet...
Yasushi Hara
 
第16回 SciREX セミナー『新薬創製』
第16回 SciREX セミナー『新薬創製』第16回 SciREX セミナー『新薬創製』
第16回 SciREX セミナー『新薬創製』
Yasushi Hara
 

More from Yasushi Hara (20)

#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
#経済学のための実践的データ分析 13. 最終レポートの報告 + おわりに
 
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
#経済学のための実践的データ分析 12. 機械学習とAIな経済学と最終レポート
 
#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション#経済学のための実践的データ分析 11. データのビジュアライゼーション
#経済学のための実践的データ分析 11. データのビジュアライゼーション
 
#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法#経済学のための実践的データ分析 10. テキスト分析の方法
#経済学のための実践的データ分析 10. テキスト分析の方法
 
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう#経済学のための実践的データ分析 9. オープンデータを使ってみよう
#経済学のための実践的データ分析 9. オープンデータを使ってみよう
 
#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方#経済学のための実践的データ分析 8. 企業データベースの使い方
#経済学のための実践的データ分析 8. 企業データベースの使い方
 
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
#経済学のための実践的データ分析 6. データを実際に分析するまでのとてもとても遠く険しく細く長い道
 
経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析経済学のための実践的データ分析 5.特許データの分析
経済学のための実践的データ分析 5.特許データの分析
 
経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ経済学のための実践的データ分析 4.SQL ことはじめ
経済学のための実践的データ分析 4.SQL ことはじめ
 
経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー経済学のための実践的データ分析 3.データの可用性とプライバシー
経済学のための実践的データ分析 3.データの可用性とプライバシー
 
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
経済学のための実践的データ分析2. python, R, Jupyter notebook 事始め/統計ソフトちゃんちゃかちゃん
 
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
経済学のための実践的データ分析 1. イントロダクション/Jupyter Notebook をインストールする
 
結婚パーティご挨拶 2018/02/12
結婚パーティご挨拶 2018/02/12結婚パーティご挨拶 2018/02/12
結婚パーティご挨拶 2018/02/12
 
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
Elasticsearchと科学技術ビッグデータが切り拓く日本の知の俯瞰と発見 前半(15分): SPIAS のご紹介と主な課題
 
(Big) Data for Research for "Science, Technology and Entrepreneurship"
(Big) Data for Research for "Science, Technology and Entrepreneurship"(Big) Data for Research for "Science, Technology and Entrepreneurship"
(Big) Data for Research for "Science, Technology and Entrepreneurship"
 
ノーベル賞と科学技術イノベーション政策 -選考プロセスと受賞者のキャリア分析
ノーベル賞と科学技術イノベーション政策-選考プロセスと受賞者のキャリア分析ノーベル賞と科学技術イノベーション政策-選考プロセスと受賞者のキャリア分析
ノーベル賞と科学技術イノベーション政策 -選考プロセスと受賞者のキャリア分析
 
「データで探るノーベル賞受賞者のキャリアと成果」
「データで探るノーベル賞受賞者のキャリアと成果」「データで探るノーベル賞受賞者のキャリアと成果」
「データで探るノーベル賞受賞者のキャリアと成果」
 
「ノーベル賞を倍増せよ!」とはいうけれど。
「ノーベル賞を倍増せよ!」とはいうけれど。「ノーベル賞を倍増せよ!」とはいうけれど。
「ノーベル賞を倍増せよ!」とはいうけれど。
 
Scenario-based Economic Model Approach to evaluate the impact of the Internet...
Scenario-based Economic Model Approach to evaluate the impact of the Internet...Scenario-based Economic Model Approach to evaluate the impact of the Internet...
Scenario-based Economic Model Approach to evaluate the impact of the Internet...
 
第16回 SciREX セミナー『新薬創製』
第16回 SciREX セミナー『新薬創製』第16回 SciREX セミナー『新薬創製』
第16回 SciREX セミナー『新薬創製』
 

#経済学のための実践的データ分析 7. 論文データベースの使い方

  • 3. 今日の内容: データベースを用いた分析(2) 論文データベース [座学、実習] • Clarivate Analytics 社が提供する Web of Science (https://clarivate.com/products/web-of-science/) では、 論文の書誌情報を取得することが出来ます。 • こうしたデータを用いることで、例えば、「日本の大学で最も 年ごとの論文数が多いのは何処か?」、「(指導教官の)○○先 生が書いた論文はt年にx本で、その論文は累計 y 回引用され た」などの情報を取得することが出来ます。 • 前回と同様、学生は問いを立てた上で、データベースから必要 な情報を取得し解析を行い、レポートに取りまとめる必要があ ります。
  • 4. 論文データでわかること • 1905年にアインシュタインが出した論文が、誰にどのくらい引 用されているのか? • 企業が基礎研究にどのくらい注力しているのか? • 大学はどのくらい論文を生産しているのか? • 「△△学部の○○先生」はy年にx個論文を出していて、それがt 回引用されているか? • 今日主に使うもの; Web of Science • 一橋学部生/院生は学内ネットワークよりアクセス可能
  • 5. 今日の内容 (105分) 0. メイプルシロップとインパクトファクター, ある いはブラックベアンに研究者がマジレスした理由 1: 論文とはなんだろう 2: 実際に論文データベースを解析してみよう 3:レポート(1&2回目)の話
  • 8. https://maplescience.ca/research/ - メイプルシロップに関する論文が掲載 されている (例. スポーツドリンクとメ イプルシロップドリンクの栄養効果の違 い) - よくよくみると, Journal に掲載された 論文と, 学会で報告された論文が併記さ れている -- Journal に掲載された論文の場合, Pubmed というアメリカの論文集約サイ トへのリンクが設けられている
  • 9. • https://jissn.biomedcentral.com/track/ pdf/10.1186/s12970-019-0273-z にアクセスすると, 実際の論文が確認でき る. • もちろん, 学会報告にとどまる研究のク オリティが低く, ジャーナルに掲載され た論文のクオリティが高いと, 一概に言 えるわけでもない • たとえば, 1年前に二宮さんが出ていたド ラマ(『ブラックベアン』)で出てきた, 論 文のインパクトファクターをこの論文が 掲載された雑誌について確認してみる
  • 10.
  • 11. Springer Link で論文のIF を確認 • https://link.springer.com/journal/12970 • Impact Factor とは Impact Factor (インパクトファクター; IF) とは、Web of Science Core Collection収録の雑誌を対象とした評価 指標の一つで、学術雑誌の影響力を示す ものです。 IFの数値は、ある雑誌に掲載された論文 が、特定の一年間に平均的にどのくらい 引用されたのかを示しています。 引用; https://guides.lib.kyushu- u.ac.jp/c.php?g=775030&p=5558872
  • 12. 注意事項 • ジャーナルに掲載されていたり, インパクトファクターの高い雑誌に掲載 されているからといって、その論文の信頼性が高いというわけではない • そして, インパクトファクターの高い雑誌に論文が掲載されたからといっ て, 研究者あるいはその論文のパフォーマンスが高いわけでもない • メイプルシロップの効用は科学的に評価されつつあるが、最終的には、自 分で論文を最初から最後まで読んで納得するか、あるいは、とりあえず何 も考えずにみのもんた (obsolete) and/or 大吉先生の話を受け入れるしか ないのかもしれないけど、たぶん後者はあまり「科学的」ではない • 研究者の評価手法として, 論文を使うのはとても一面的 • 特許を出す先生もいるし, テレビに出まくる先生もいるし, ツイッター先生もいるし (研究者が自らの研究を発信する手段は, 査読付きのジャーナルには限られない) • だけど、大学に所属して研究者を続けるには、良い論文誌に掲載することをは結構 重要だったりする • ブラックベアンについては、二宮君がかっこよければそれでいいと思った
  • 15. 論文データベース • 何がわかるのか • だれが、いつ、どこで、どんな論文を書いたのかがわかる • だれが、いつ、どこで、どんな論文を引用したかがわかる • メリット • 先行研究を知ることができる • 自分のリサーチテーマと被る研究がどのくらいあるのか • 新規性がどのくらいあるのか • みんなが読んでいる論文がわかる! • インパクトファクターの高い雑誌がわかる!(アカデミアでの就職に 有利な!) • どんな研究が世の中で行われているかがわかる! 2019/5/7 15
  • 17. 前方引用と後方引用: 時点 : t "An Approach to the Study of Entrepreneurship," THE TASKS OF ECONOMIC HISTORY (Supplemental Issue of THE JOURNAL OF ECONoMIc HISTORY), VI (1946), 1-15 Oscar Lange, "A Note on Innovations," Review of Economic Statistics, XXV (1943), 19-25 F. W. Taussig, Inventors and Money-Makers (New York: The Macmillan Company, 1915). Fritz Redlich, The Molding of American Banking—Men and Ideas (New York: Hafner Publishing Company, 1947). Robert A. Gordon, Business Leadership in the Large Corporation (Washington, D.C.: The Brookings Institution, 1945). F. J. Marquis and S. J. Chapman on the managerial stratum ,of the Lancashire cotton industry in the Journal of the Royal Statistical Society, LXXV, Pt. III (1912). 293-306. 前方引用後方引用 ・後方引用からわかること -- どのような先行研究が活用されたのか -- いつ公開された先行研究を活用したのか -- 論文を執筆するにあたり、「科学的源泉」 はいったいなんだったのか ・後方引用からわからないこと -- 引用されていないけど、重要だった「科学 的源泉」 -- 引用されていないけど、参照された先行研 究 (in context.) ・前方引用からわかること -- 論文自体の重要性 -- 「巨人の肩の上に立つ (Standing on the shoulders of the giants) 」 -- 知識の伝播過程 -- 論文自体が「古くなっていない」か ・前方引用からわからないこと -- ほんとうにその論文は重要な論文なのか (引用されること自体が, 論文の重要性を示し ているのか) -- 後発の論文にとって重要な科学的源泉が, 直接的には引用されていない場合も 2019/5/7 17
  • 20. 論文のデータベースを使うと何がわかる? • 著者の数が多い論文は被引用数が多くなる? • どういうジャンルの論文を, 特定の大学や企業が投稿してい る? • ある産業内では, どういった企業が論文を多く投稿している? • スターサイエンティストはだれ? • 引用する論文が多いほど, 被引用数が増える? • 博士ホルダーが書いた論文は, 普通の研究者に比べてパフォー マンスが高くなる? • 様々なジャンルに投稿している研究者のパフォーマンスは高く なる? 2019/5/7 20
  • 21. 具体例1. (後方)引用分析 • 後方引用をたどることで, 発明に至る知識の流れを明らかにす る • JST プロジェクトの Feasibility Study • Shuji Nakamura Patent に至るまでの Main Path • 特許と、特許に引用された論文について調査 • ソース: Web of Knowledge / Thomson Innovation 2019/5/7 21
  • 22. Network 全体 (属性付き) 赤色は Main Path に選択 された Node を示す.2019/5/7 22
  • 23. 1930s 1960s 1970s 1990s 2000s 1910-2007 (1次引用すべて導入; 上位12社明記) 1980s 2019/5/7 23
  • 24. 事例2. 知識フロー分析: 共同研究の分析 • 産学連携や企業間連携などによって行われた、科学的知識の伝 播フローが可視化できるか否か調査する • 方法 1. ヒヤリング調査, 基本論文および基本特許のサーベイより医薬品の開 発プロセスにおいて重要な役割を果たしたキープレイヤーを同定 2. キープレイヤーの公刊した特許/論文データを時系列順に収集 3. 一定の期間ごとに区切り, 共著者情報および組織情報から共同研究の プレイヤーを精緻化 (ネットワークグラフ化) 3/19/2015 24
  • 25. Osaka Univ. IL-6 Chugai Pharmaceutical B-Cell Immune Analysis R&D structure of Actemra Actemra Humanize d Monoclonal Antibodies MRC TOSO H Year Main TOPIC 1984 Chugai started to find B-Cell inhibitor agent drug 1986 Collaboration with Osaka University initiated 1987 TOSOH joined the collaboration 1990 Collaborate with MRC (Medical Research Council, UK), establishing humanized monoclonal antibody 1993 Miss-allocation for genome sequence in Master Cell Bank (for further production and clinical study) 1994 Re-establishing MCB (end: 1996) 1996 Decision has been made that developing as therapeutic drug for Rheumatoid arthritis 1997 Phase I Clinical Study 2001 Phase II Clinical Study 2003 Phase III Clinical Study 2008 Approved in JP 25 1984- collaborative research agreement 1986-
  • 26. Collaboration summary for R&D process of Actemra Type of Researc h Year Collaborator with Dr. Ohsugi Details Method of Collaborative Research Basic Researc h 1978-1980 Dr. Gershwin (University of California, Davis) B cell identification Foreign Study via Dr. Ohsugi to analyze B cell structure 1984-1985 Tokyo University l-BCDF Supplying Research facilities by Chugai (informal collaboration) Applied Researc h 1986- Dr. Kishimoto (Osaka University), Tosoh Corp. Discovery of IL-6 inhibitory agent Detachment of researcher from Chugai and Tosoh. (formal collaboration) 1990 MRC Generalization of humanized monoclonal antibody. Detachment of researcher from Chugai 262019/5/7 Collaboration process of Dr. Ohsugi Yoshiyuki, key corporate scientist of Actemra
  • 27. Co-authorship analysis with key scientist of Actemra (1) Co-author graph of Dr. Ohsugi from 1975-1980 Circulated Data Source: Web of Knowledge Virtualization: Vantage Point Ohsugi only interacted with the scientist of Juntendo University and it is not related to the discovery process of Ro-Actemra Co-author graph of Dr. Ohsugi from 1981-1985. Source: Web of Knowledge, Virtualization: Vantage Point In 1978, Ohsugi starts his foreign study in University of California Davis and yields three papers with Dr. Gershwin for B-Cell hypothesis. Figure reflects his output of foreign study. And, in 1985, the 2nd year of development process of Ro- Actemra, Ohsugi’s R&D team and Dr. Katagiri, research associate of Tokyo University started informal collaborative research and yields one paper 272019/5/7
  • 28. This collaboration could be endorsed by using patent databases. Dr. Tadamitsu Kishimoto, main key researcher of IL-6 in Osaka University, has 6 patents with Chugai. Co-authorship analysis with key scientist of Actemra (2) Figure shows initial point of collaborative research between Chugai and Osaka University started from 1986, and it emphasizes the efforts of Osaka University and his scientists whom identify IL-6 (interleukin-6) in 1980s which is essential to induce humanized antibody of (Ro) Actemra. In addition, the graph indicates another company, Tosoh Corp., had been involved the collaboration and yields 1 paper with Chugai and 1 paper with Chugai and Osaka University. 28 Co-author graph of Dr. Ohsugi from 1986-1990. Source: Web of Knowledge, Virtualization: Vantage Point Co-author graph of Dr. Kishimoto. Source: Thomson Innovation, Virtualization: Vantage Point 2019/5/7
  • 29. In 1990, finally Ro-Actemra has been synthesized as Anti-Human IL-6 Receptor Monoclonal Antibody with the collaboration of MRC (Medical Research Council) in United Kingdom. And the contribution of MRC could be traced by bibliographic co- author data. Total number of issued paper has been increased rapidly in this window as pre- clinical study of Ro-Actemra has been started. Co-authorship with several university and hospitals could be observed in the graph. And, there are 2 papers which MRC and Osaka University has been involved. Co-authorship analysis with key scientist of Actemra (3) 29 Co-author graph of Dr. Ohsugi from 1991-1995. Source: Web of Knowledge, Virtualization: Vantage Point 2019/5/7
  • 30. Co-authorship analysis with key scientist of Actemra (4) In early 1990s as Ro-Actemra in pre-Clinical state, Tosoh has terminated collaborative contract with Chugai and Osaka University mainly due to enormous clinical cost of Ro- Actemra, and Figure confirms the fact. There is no indication name for Tosoh Corp. And as the role of Dr. Ohsugi has been decreased as clinical study of Ro-Actemra has started in 1996, total number of paper has been lowered than previous window. 30 Co-author graph of Dr. Ohsugi from 1996-2000. Source: Web of Knowledge, Virtualization: Vantage Point 2019/5/7
  • 31. 論文データベースを使った分析の課題 • データ処理の開始までに手間が掛かる • データクリーニング: ネットワーク図作成ソフトに合致するようにデー タの処理を行う手間 (平準化, 欠落データの処理など) • 名寄せ (企業名, 個人名, 表記ゆれ etc…) を手作業で修正するのは、き わめて時間のかかる作業 • わかりやすいネットワーク図をつくるには、パラメータの調整 が必要 (NetDraw etc…) • 大量データを利用する場合、(フリーソフトウェアの場合)うま く動作しない場合がある 2019/5/7 31
  • 32. 論文データベースを使った分析の課題(2) • 世の中に「完備な」データベースはありません • 「大人は嘘つきではありません、ただ間違いをするだけなのです …」 • 組織名が違う • 自分の名前が違う • 所属国が違う • 論文のカテゴリが違う ことが多々出てきます。 • 自らのリサーチクエスチョンに合わせて精緻な分析を行うために は、(1) 問いに対応する最適なデータベースを選び, (2) データの クリーニング作業 を行う必要があります 2019/5/7 32
  • 33. 実習1: 論文データベースによってカバー している情報が違うことを確かめてみる • “20 Years of Human Pluripotent Stem Cell Research: It All St arted with Five Lines” という論文を • 1. J-Global: http://jglobal.jst.go.jp/ • 2. CiNII : http://ci.nii.ac.jp/ • 3. Web of Science http://apps.webofknowledge.com/ • 4. Scopus http://www.scopus.com/ • 5. Google Scholar https://scholar.google.co.jp/ • 6. Microsoft Academic http://academic.research.microsoft.com/ の5種類の論文データベースで探し, どのような情報が掲載されているの か確認する. 2019/5/7 33
  • 34. 1. J-global の場合: 検出, しかし謎の機械翻訳 2019/5/7 34
  • 35. 2. CiNii の場合: 検出できない 2019/5/7 35
  • 36. 3. Web of Science@一橋の場合: いろいろ見つかる 2019/5/7 36
  • 37. 3-2. Web of Science @GRIPSの場合:一橋 とまったく同じ情報が見つかる 2019/5/7 37
  • 38. 4. Scopus の場合: Web of Scienceと同じ 結果になるけど, 被引用数が違う…. Web of Knowledge の場合: 被引用数 67 Scopus の場合: 被引用数 69 2019/5/7 38
  • 39. 5. Google Scholar の場合 検出できる. 被引用数は WoS と異なる 2019/5/7 39
  • 40. 6. Microsoft Academic の場合 検出できる. 2019/5/7 40
  • 41. Microsoft Academic Search – (Forward)Citation Graph 2019/5/7 41
  • 42. わかること • 有料のデータベースと無料のデータベースがある • Web of Science や Scopus にアクセスするのは, 実はお金がかかる • 当該論文を検出できるデータベースとできないデータベースがある • 被引用数はデータベースによって異なる • 掲載されている情報もデータベースによって異なる • 一番いいのは、実際の論文を読むこと/ダウンロードすること • しかしながら, そんな時間はないので論文データベースを使わざるを 得ない ⇒ 網羅性が高いのは Web of Knowledge または Scopus, 日本語の 論文なら CiNII 2019/5/7 42
  • 44. (英文)論文データベース 名前 Web of Knowledge Scopus 作っている会社 トムソン・ロイター エルゼビア カバー範囲 ・社会科学文献の書誌および引用情報 (1898年-2015年) ・自然科学文献の書誌および引用情報 (1900年-2015年) ・5000以上の出版社の21,000誌以上の学術ジャー ナル ・20000タイトル以上の査読ジャーナル ・370タイトルのブックシリーズ ・550万件以上の会議録 メリット ・過去データが豊富 ・社会科学のカバー率が高い ・他のデータベースとリンクさせることが比較的容 易 ・分野分類が (Web of Knowledge) に比べて明確 ・自然科学のカバー率は Web of Knowledge に比 べ高い ・企業名および著者名の名寄せの精度が高いこと もないみたい・・・ デメリット ・1945年以前のデータはカバー範囲が限られている ・カテゴリ分類が不明確 ・現在カバー範囲が(Web of Knowledge に比べ) 狭い [引用情報は1996年以降のみカバー] (2016年に向け拡大される予定) 価格 すごく高い! すごく高い! 気をつけること ・一橋大学では利用可能 ・大学によってカバーしているデータ範囲が違う 一橋大学では利用不能 (部局によっては契約して いる場合あり) 2019/5/7 44
  • 45. まず注意すること: データのカバー範囲 • Web of Knowledge やScopus は大学によってカバーしている データの範囲が異なります • ある大学では検索できた結果が, 異なる大学では検索出来ない ことがあります 2019/5/7 45
  • 46. Web of Science にアクセスする • 一橋のネットワークにアクセスしていることを確認 • http://www.webofknowledge.com/UA を開く
  • 47. Web of knowledge のデータカバー範囲を確認 する方法 (1) 1. Web of Knowledge にアクセスし, “Web of Knowledge Core Collection” を選択する 2019/5/7 47
  • 48. Web of knowledge のデータカバー範囲を確認 する方法 (2) 2. 画面下にある “詳細設定” を確認する 2019/5/7 48
  • 49. Web of knowledge のデータカバー範囲を 確認する方法 (3) • GRIPSの場合 • Science Citation Index Expanded (1993-現在) • Conference Proceedings Citation Index – Science (1990-現在) • 一橋大学の場合 • Science Citation Index Expanded (1900-現在) • Social Sciences Citation Index (1900-現在) • Arts & Humanities Citation Index (1975-現在) 2019/5/7 49
  • 50. Web of knowledge のデータカバー範囲を 確認する方法 (3-2) • UTS (@Sydney, Australia の場合) • National Taiwan University の場合 2019/5/7 50
  • 51. Web of Science • 一橋の学内からはどこからで も利用可能 • 一橋大学図書館の My Library からリモートログインで利用 可能 • GRIPS でも利用可能 • 東大でも利用可能 2019/5/7 51 http://ip-science.thomsonreuters.jp/products/web-of- science/yokuwakaru/
  • 52. Web of Knowledge のデータカバー範囲を確認す る方法 (4): Schumpeter の論文 “The Creative Response in Economic History” を探す • GRIPS の場合: みつからない • 一橋大学の場合: みつかる 2019/5/7 52
  • 53. 実習2: Web of Scienceで シュンペーターの 論文を探してみよう 1. www.webofknowledge.com を開き, 「著者名」を選択. 「姓, イニシャル」 と入力する. 2019/5/7 53
  • 54. 実習2: Web of Scienceで シュンペーター の論文を探してみよう 2. 検索結果が表示されるので, “並び替え” より “被引用数 – 多い順” を選択し並べ替える. 2019/5/7 54
  • 55. 実習2: Web of Scienceで シュンペーター の論文を探してみよう 5. 一番引用数の多い “The Creative Response in Economic History” をクリックする. わかること ・著者名 ・ジャーナル名 ・発行年月日 ・被引用数 ・引用文献 ・インパクトファクター ・ドキュメントタイプ ・言語 ・発行者 ・研究分野 ・Web of Knowledge Category ・最終引用 ・直近のアクセス回数 2019/5/7 55
  • 56. Tips: たくさんのデータを Web of Knowledge から合法的に取り出す方法 • 方法0: ロボット検索やWeb スクレイピング • ダメ、ゼッタイ! • 方法1: Web インターフェースを使う • データの抽出方法はいくつかある • 方法2: Endnote Web を使う • ヒント: Endnote ライブラリ • 方法3: API やXML データを使う • ただし有償 (かつかなり高い) 2019/5/7 56
  • 57. 実習3: Web of Science を使って一橋大学から 2017年に公刊された論文を取り出してみる • 1. 検索 -> Web of Science Core Collection -> 詳細検索 を選ぶ 2019/5/7 57
  • 58. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索条件を入力する • PY: 年 • OG: 組織名 • [検索] をクリックする 2019/5/7 58
  • 59. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索が実施され, データが抽出される. 検索履歴より検索結果の 件数をクリックする 2019/5/7 59
  • 60. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 検索結果が表示される 2019/5/7 60
  • 61. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • “エクスポート”, “他のファイルフォーマットで保存” を選択する 2019/5/7 61
  • 62. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • [レコード件数]から保存するレコー ド数 • 今回は全論文エントリの116件 • [レコードコンテンツ]から”詳細表 示と引用文献” • [ファイルフォーマット]から”タブ 区切り(Win (またはMac))” を選択 しエクスポートをクリックする 2019/5/7 62
  • 63. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • 取り出したテキストファイル 2019/5/7 63
  • 64. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • Alternative: エクセルを使うのがめんどくさい人向け • [レコード件数]から保存するレコード数 • [レコードコンテンツ]から”詳細表示と引用文献” • [ファイルフォーマット]から”テキスト” を選択し保存をクリックする 2019/5/7 64
  • 65. 実習3: Web of Science を使って一橋大学の 2017年に公刊された論文を取り出してみる • Raw Data ファイルが出力される • 自分でコードを書いて処理する • ヒント: 終端処理はEF なので, そいつと先頭行を潰せばいくらでもデータ連結が 可能 2019/5/7 65
  • 66. 「研究分野」と「Web of Knowledge Category」 • 研究分野 • 研究分野は、すべての Web of Science 製品データベースで共有 される主題分野を構成します。そ の結果、同じ主題に属する複数の データベースのドキュメントを識 別、検索、分析することができま す。 • Current Contents Connect およ び Web of Science Core Collection に含まれる各ジャーナ ルおよび書籍は、Web of Science の分野の少なくとも 1 つに割り当 てられます。Web of Science の 各分野は 1 つの研究分野にマップ されます。 • Web of Knowledge Category • “Web of Science Core Collection に含まれるすべてのジャーナルお よび書籍は、以下の主題分野の少 なくとも 1 つに割り当てられます。 Web of Science Core Collection のすべてのレコードは、[Web of Science の分野] フィールドに出 版物の主題分野を含みます。” ※. ひとつの論文に対して複数の Web of Knowledge Category が割 り当てられていることがある 2019/5/7 66
  • 67. データの出力結果 • 「研究分野」 • 「Web of Knowledge Category」 2019/5/7 67
  • 68. Web of Knowledge で注意するポイント • カテゴリ分けが1:1 の関係にはなっていない • 精緻に行うためには, ジャーナル名などで名寄せする必要性 • 部局名などの名寄せが行われていない • NISTEP 表記ゆれ辞書などを活用する • Scopus を利用する (obsolete) • Web 経由では, 1回数百件しかダウンロードできない • Excel でひたすらくっつけていくか, Raw Data 方式でダウンロードし ひたすら連結, 処理をしたのち手元のSQL などに放り込む • ロボット検索すると怒られます 2019/5/7 68
  • 69. NISTEP: “大学・公的機関名英語表記ゆれ テーブル(Web of Science版)(Ver.2014.1)” • “1996-2012 年の期間にWeb of Scienceに採録された論文のう ち、日本の機関に所属する著者を含む論文のデータ(約150万 件)を対象に、機関名英語表記のゆれを調査・分析しリスト化し た結果” • http://www.nistep.go.jp/research/scisip/randd-on-university からダウンロード可能 • カバー範囲 1996-2012 • Creative Commons BY-SA 2019/5/7 69
  • 70. “大学・公的機関名英語表記ゆれテーブル (Web of Science版)(Ver.2014.1)” • F 列が表記バリエーションになっているので, C列の機関ID で Matching させる • Web of Knowledge で取り出したデータと, 例えばExcel なら vlookup などして連結させる 2019/5/7 70
  • 71. Scopus • エルゼビアが提供する論文データベー ス • “Scopus has twice as many titles and over 30% more publishers listed than any other A&I database” • Journals や Book, Conference Papers や Patents もカバー • Scival を用いることで, 研究機関ごと のパフォーマンスを知ることも可能 • なお、一橋では現時点 (2019年) では 契約していないので使えません • GRIPSでは利用可能 • 細かな利用方法は Appendix を参照の こと 2019/5/7 71
  • 72. Web of Knowledge? Scopus? or Google Scholar? • (Kulkarni, Aziz, Shams and Busse 2009) • Google Scholar, Web of Knowledge と Scopus の Citation 推移を比較 • “Cohort study of 328 articles published in JAMA, Lancet, or the New England Journal of Medicine between October 1, 1999, and March 31, 2000. Total citation counts for each article up to June 2008 were retrieved from Web of Science, Scopus, and Google Scholar.” • Findings • “Compared with Web of Science, Scopus retrieved more citations from non–English- language sources (median, 10.2% vs 4.1%) and reviews (30.8% vs 18.2%), and fewer citations from articles (57.2% vs 70.5%), editorials (2.1% vs 5.9%), and letters (0.8% vs 2.6%) (allP < .001).” 2019/5/7 72 JAMA. 2009;302(10):1092-1096. doi:10.1001/jama.2009.1307
  • 73. 現時点での論文データベース利用法 • Web of KnowledgeとScopus, どちらにもデメリットとメリットがある • Web of Knowledge: データベース全体の構造が複雑, かつノイズデータも多いけど長 い期間をカバーしている • Scopus: Web of knowledge に比べればデータベース全体の構造は比較的単純. Author ID や Affiliation ID などを備えているので一見 Name-Matching の手間は省 けそうだけど, やはりノイズデータが含まれている. 今後に期待. • (高いから比べられないし, だいたいの大学ではひとつしか使えないし) 論文データベースは Web of Knowledge, Scopus のいずれかを使う • 恐らく, 両データベースの接合を試みるだけでたくさんの Paper が書ける (けれど大変) • 指標を使って, クエリを投げてデータを取り出した後, 整合性が取れている かチェックしていく (別の組織が入っていないか, 別の国が入っていない か, ダブルカウントしていないか etc…) 2019/5/7 73
  • 74. 今日のまとめ • 論文データベースは大学にいる間に活用しよう • 論文データベースは完璧ではないことを知ろう • 論文データベースを使って分析するには、データの整理や名寄 せが必要不可欠である • NISTEP製テーブルをたくさん使いましょう • 論文データベースからデータを取得して多変量解析するには、 やっぱりデータベース処理の知識が必要になってくる • いまのうちにNoSQL とか覚えておくと、すごい論文が書けちゃうかも 2019/5/7 74
  • 76. レポート(1回目)の内容 • 概要 • Manaba にアップロードされたデータセットを Jupyter Notebook 上 で解析し, 重回帰分析を行う • レポートでは • (1) 被説明変数と説明変数の関係性 • (2) R二乗項の値 • (3) VIF 値による, 多重共線性のチェック などを報告した上で, 構築したモデルについて考察を行うこと • 提出期間: 2019/4/23 15:00:00 - 2019/5/6 15:00:00 (JST) • 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式で提出すること • ※. Word または LaTeX で, PDF でアウトプットすること
  • 78. データセット • FIFA19 Datasets • https://www.kaggle.com/karangadiya/fifa19 FIFA 19 に収録されている フットボールプレイヤー選手 の能力値や市場価値をまとめたデータ
  • 80. 分析について • どれを説明変数/被説明変数にするかはおまかせします • サラリー and/or 市場価値 and/or 能力? • ダミー変数の作成などもおまかせします • 必要あれば, 火曜日の講義で補足します
  • 81. 考えうる仮説 • 選手の加齢は市場価値を押し下げる • クラブの移籍は選手のサラリーを押し上げる • 国際的な認知度は選手の市場価値を押し上げる • 現在の契約終了年までの期間が短いほど、市場価値を上げる • 南米出身の選手は、欧州出身の選手に比べサラリーの水準が低 い • Etc…
  • 82. レポートの評価方法 • Excellent • データおよび適切な分析手法に基づき、独自の視点で十分に考察がなされている • Good • データおよび適切な分析手法に基づき、独自の視点で考察がなされている • Fair • データに対して分析が行われているが、一般的な範囲での考察にとどまる • Bad • 考察がなされていない,あるいはデータの解析が十分に行われていない • Failed • 断りなく他者の見解を引用している,その他不正行為に相当する
  • 83. レポートの評価基準 • 説明の順序は適切か.特に重要な項目の抜けや漏れはないか. • 原典からの引用内容に事実誤認はないか. • 誤字脱字(誤植)はないか.文法上の誤りはないか.文法ルー ルが統一されているか. • 文章は明快か.誤解を招くような内容・表現はないか. • 参照,引用のルールに準拠しているか.剽窃はないか. • 不正行為に相当する事項はないか. • 提出期限を厳守しているか.
  • 84. レポート(2回目)の内容 • 概要 • Manaba にアップロードされた Web of Science の論文データセットを Jupyter Notebook 上で解析し, (1) 散布図グラフを作成する. データの特性に ついてレポートにまとめる. • レポートでは • (1) 散布図グラフ • (2) 数値間の相関係数 などを報告した上で, データの特性について考察を行うこと • 提出期間: 2019/5/10 15:00:00 - 2019/5/13 15:00:00 (JST) • 提出方法: Manaba のレポート提出ページに, ipynbまたはPDF 形式 で提出すること • ※. Word または LaTeX で, PDF でアウトプットすること
  • 86. 成績評価(1) • 平常レポート (40パーセント; 必須) • 講義計画に示したように、複数の回で学生にはレポートを課します。 レポートは Word/PowerPoint形式のメールあるいは, github 経由で の提出が求められます(どの方法を採用するかは、初回の講義で決定し ます)。 • レポートには、(A.) 利用したデータセットとその内容, (B.) 分析の問 い, (C.) 分析手法, (D.) 分析結果 を明記する必要があります。ページ 数や文字数は問いませんが, これらの内容が含まれており, 講義中にア ナウンスする評価手法を満たす場合, 高い得点を得ることが出来ます。 • 平常点 (10パーセント) • 本講義は実習が多く含まれており, また取り扱うデータセットや内容も 多彩です。そのため、受講者同士が協力する必要があります。こうし た受講者の態度を評価するために、平常点を設けます。
  • 87. 成績評価(2) • 最終レポート (40パーセント; 必須) • 講義の最終回では最終レポートの報告会を行います。受講者は3名から4名か ら構成されるグループで、最終レポートの報告を行う必要があります(人数は 受講者の人数により変更される可能性があります)。最終レポートでは、プレ ゼンテーションの方法を学生は自由に選ぶことが出来ます。PowerPoint 以 外にも、Prezi などのアクティブプレゼンテーションツールや、他のプレゼ ンテーション手法を用いることが出来ます(プレゼンテーションツールについ ては、必要であれば講義内で説明する機会を設けます)。最終レポートでは、 以下の点について評価を行います。 (A.) グループ内の役割分担 (B.) データセットのユニークさおよび、それが適切に処理されているか (C.) 分析手法のユニークさおよび、それが適切に解析されているか (D.) プレゼンテーションのユニークさ (E.) 質疑応答にうまくリプライすることが出来ているか • 最終レポートの360°グループ評価 (10パーセント) • 3. の最終レポートについて、グループの自己評価および他のグループからの 評価を行います。3. で挙げた評価ポイントに基づき、グループメンバーおよ び他のグループは評価を行います。
  • 88. 8.[5/10] データベースを用いた分析(3) 企業デー タベース/データベース間の接合[座学、実習] • 帝国データバンク企業・経済高度実証研究センター (http://www7.econ.hit-u.ac.jp/tdb-caree/about-caree/) が提供 する企業のデータベースについて説明を行います。本データベース には、企業の取引、出資、銀行取引データや、決算書データなどが 含まれています。こうしたデータセットに基づき、前二回同様、問 いに基づきデータを解析することを目指します。 • 今回も、学生はレポートを提出する必要があります。 • また講義の後半では、NISTEP 企業名辞書 (http://www.nistep.go.jp/research/scisip/rd-and-innovation- on-industry) などを用い, ID ベースでデータセット間を接合する手 法について説明します。
  • 90. ただし… • 商用データベースなので, 学生の皆さんに “そのまま” 使って頂 くのは難しそうです • 一部データをモディファイした形で、企業データの解析を皆さ んに体験していただけるようにしたいと思います
  • 93. Scopus のインターフェース ケース4: シュンペーターの論文を探してみよう 1. www.scopus.com を開き, 「著者検索」に Last Name と First Name を入力する. 2019/5/7 93
  • 94. Scopus のインターフェース ケース4: シュンペーターの論文を探してみよう 2. 著者名の候補が表示されるので, 該当する著者をクリックする 2019/5/7 94
  • 96. Scopus XML Data • Scopus の Raw Data を利用可能 • 2015年6月以降GRIPS 内で稼働予定 • 利用対象者: GIST/SciREX センターの教員/研究員/客員研究員/学生 • NoSQL またはRDBMS 形式でのデータ提供を予定 2019/5/7 96
  • 97. Scopus XML Data: 主な項目 • Abstract • Author • Author-group • Bibliography • Ce:doi • ce:initials • Chemical • Chemical-Name • Chemical-Group • Citation-info • Citation-Language • Citation-type • Citation-Title • Country • Editor • Organization • PageCount 2019/5/7 97
  • 100. All Science Journal Classification Codes 2019/5/7 100
  • 104. Scopus を使う上で注意するポイント • Web of Knowledge に比べた らカテゴリや組織や研究者個 人の名寄せがキッチリしてい るかと思ったけど, 別にそん なことはないみたい • データのカバー範囲が広い事, データベース構造が Web of Knowledge に比べ比較的単純 なのがメリットなくらい 2019/5/7 104 https://twitter.com/noricoco/status/585677912705261569
  • 107. Scopus-NISTEP大学・公的機関名辞書対 応テーブル(ver.2013.1) • “科学論文の計量的分析に用いられるデータベース、Scopusの論文 ID(Scopus_eid)とNISTEP大学・公的機関名辞書の機関ID(NID)の対 応テーブルです。1996-2010 年の期間にScopusに採録された論文の うち、日本の機関に所属する著者を含む論文のデータ(約150万件)を 対象に、国内の大学・公的機関の機関名称の名寄せを行った結果” • http://www.nistep.go.jp/research/scisip/randd-on-university から ダウンロード可能 • 論文IDごとに機関ID が割り振られているので, より正確に組織名で 名寄せができる • データ量が巨大なので、MySQL/PostgreSQL か Access を使いま しょう • Excel でなんとかやれないこともないけど大変 2019/5/7 107