レコードリンケージに基づく科研費分野-WoS分野マッピング
Upcoming SlideShare
Loading in...5
×
 

レコードリンケージに基づく科研費分野-WoS分野マッピング

on

  • 605 views

2013年度統計関連学会連合大会

2013年度統計関連学会連合大会

Statistics

Views

Total Views
605
Views on SlideShare
605
Embed Views
0

Actions

Likes
1
Downloads
3
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

レコードリンケージに基づく科研費分野-WoS分野マッピング レコードリンケージに基づく科研費分野-WoS分野マッピング Presentation Transcript

  • レコードリンケージに基づく 科研費分野-WoS分野マッピング 蔵川圭1、孫媛1、中村優文2、相澤彰子1 1. 国立情報学研究所 2. トムソン・ロイター 2013年度統計関連学会連合大会 2013年9月8日-11日 大阪大学豊中キャンパス
  • 研究評価の重要性と評価軸 • 大学や研究機関の研究成果について評価することの重 要性は以前にも増して重要視されている – 研究開発への投資額の増加や競争的資金による研究開発投 資への傾向が加速したことによる • ビブリオメトリクス – 代表的な研究成果の評価方法 – 論文の引用指標をベースにした評価指標は数十年の歳月を 経てもなお進化 • 客観的な研究評価 – 研究開発の戦略や政策を決定する上で必須 • 評価の軸 – 研究成果を研究実施セクターごとや時系列で区切り、また 研究分野ごとに区切って比較検討するのが一般的 2
  • 評価軸の一つとしての研究分野 • 研究分野 – 専門家による十分な議論を経て定義 • 例えば、経済協力開発機構(OECD)のFrascati Manual – 加盟国の研究開発比較評価のために研究開発の統計手法について標準化 – 2007年には改訂した分野分類(Field of Science and Technology, FOS) を定義して公開 • 英国における研究評価のとりくみの例 – 4つの高等教育機関 • HEFCE(Higher Education Funding Council for England)、SFC(Scottish Funding Council)、 HEFCW(Higher Education Funding Council for Wales)、雇用学習省(Department for Employment and Learning, Northern Ireland, DEL) – 分野ごとの評価 • UoA (Unit of Assessment) – 継続的な研究評価 • RAE(Research Assessment Exercise)2008 – 67の分野で構成されたUoA • REF(Research Excellence Framework)2014 – 36の分野で構成されたUoA • 日本における研究評価の取り組みの例 – 科学研究費助成事業(科研費)のアウトプット評価 • 成果文献の引用指数による評価(科学技術学術政策研究所) – 「系・分野・分科・細目」 による研究分野区分 • 申請時の区分として利用とともに、評価軸としても利用 • ほぼ10年ごとに大改訂され、毎年小改訂 3
  • 研究評価ツール • J-GLOBAL foresight (JST) – 基礎データ • JSTの書誌・引用データ等の学術データ • Thomson RuetersのWoS, ESI, パテントデータ – 分野分類 • JST科学技術分類表24分類 • InCites (Thomson Reuters) – 基礎データ • WoSの書誌・引用データ – 分野分類 • WoSサブジェクトエリア251分類 • ESIサブジェクトエリア22分類 – WoS,ESI分野分類対応表 • OECD Frascati Manual • 英国 RAE, REF • オーストラリア ERA(Excellence in Research for Australia) • ブラジル FAPESP(São Paulo Research Foundation) • 中国 SCADC(State Council Academic Degree Committee) • イタリア ANVUR(National Agency for the Evaluation of Universities and Research Institutes) 4
  • 本研究の目的 • 科研費の分野分類とWoSの分野分類との マッピングをとる 5
  • マッピングの方法 1. 分野分類の概念を念頭に置いて概念同士 の包含関係や同値関係を勘案し、概念空 間を直接比較する方法 2. 2つの分野分類に紐づけられる共通の要 素を媒介に関係づける方法 6
  • 本研究のアプローチ 7 科研費細目WoSサブジェクトエリア ESIサブジェクトエリア 研究課題 実績報告書 発表文献 雑誌 論文 同一性判定する 包含 包含 包含 雑誌に複数の サブジェクトエリアが付与 研究課題は多くて一つ の細目に分類 (ただし、2009年度実施課題) マッピングをとる
  • レコードリンケージ • たとえば、論文の同一性判定 – 文献の表記と論文の書誌事項の記載が若干異なる ために同一性を判定するには単純な文字列比較で はできない – 大量の文献と書誌を比較するためには特別なアル ゴリズムを構築して同一性判定する • ここでは、以下の技術を用いた2段階プロセ スで同一性判定を行う – 相澤らによって開発された高速に同定候補を挙げ るi-Linkage – 機械学習アルゴリズムの一つで2値分類器である SVM(Support Vector Machine) 8
  • 2009年度の科研費分野分類とWoS 分野分類を対象としたマッピング • データセット – KAKENに掲載された2009年度の実績報告書データ 59,012 件 • 研究分野 – 「系・分野・分科・細目」表の細目番号のついた50,304件 – 付与された細目番号は284通り • 発表文献 – 報告書に記述された発表文献353,047件 – アスキー文字だけで構成される文献104,455件(上記の29.6%) – 出版年度は2000年から2011年までの範囲で分布 – 99.8%にあたる104,195件の文献が2009年と2010年に分布 – 該当するWoSの論文書誌データ • 論文 – DB Yearが2009年と2010年にあたる論文書誌データ3,843,104件 • サブジェクトエリア – 雑誌に付与されたWoSサブジェクトエリア251分野 – 雑誌に付与されたESIサブジェクトエリア22分野 9
  • KAKENのXMLデータにおける 文献書誌の例 10 <grant_award id="15104002"> …. <field code="4201">天文学</field> …. <publications> <journal_article> <author><![CDATA[H.Kawai, et al.]]></author> <title><![CDATA[Measurement of Ultra-high Energy Cosmic Rays by Telescope Array(TA)]]></t <journal_title_vol_no><![CDATA[J.Phys.Soc.Jpn.Supplement A 78]]></journal_title_vol_no> <pages>108-113</pages> <year>2009</year> <review>1</review> </journal_article> …. </publications> …. </grant_award>
  • WoSの論文書誌XMLの例 11 <REC> <issue recid="175215165" coverdate="200812" sortkey="3070202595" dbyear="2009"> …. <subjects count="1"> <subject code="BU" edition="SCI">ASTRONOMY &amp; ASTROPHYSICS</subject> </subjects> …. <item issue="175215165" recid="175215166" coverdate="200812" sortkey="3070202594" refkey="6 …. <source_title>JOURNAL OF GEOPHYSICAL RESEARCH-SPACE PHYSICS</source_title> <item_title>Ways in which ICME sheaths differ from magnetosheaths</item_title> <bib_pages begin="" end="" pages="10">-</bib_pages> <bib_issue year="2008" vol="113"/> <authors count="2"> <primaryauthor>Siscoe, G</primaryauthor> …. </REC>
  • 書誌の同一性判定 • i-linkageによるブロッキング – 各ソース書誌(KAKEN)に対し、ランク5位までターゲット書誌 (WoS)を抽出 – 518,314件の書誌ペア候補 • SVMによる同一性判定 – 特徴ベクトルを設計 – 実装は、TinySVMを使用 – 1000件の正解データを用いて10分割交差検定を行った結果の 精度 • Accuracy 96.6 • Precision 97.01 • Recall 94.52 • F-Measure 95.69 – 41,697件の正判定書誌ペア • 英文発表文献数に比較して、39.9%(41697/104455)の文献がWoSの論 文に紐づけられた • 日本語もあわせた発表文献全体では、11.8%(41697/353047)の文献が WoSの論文に紐づけられた 12
  • 分野分類の分割表の作成 13 WoSサブジェクトエリア ESIサブジェクトエリア 科研費細目 カウントは、整数カウントと分数カウント 4系・10分野・67分科・284細目 22サブジェクトエリア (+Arts and Humanities) 251サブジェクトエリア 16通りの分割表を作成
  • 14 67分科 x 251WoSサブジェクトエリア (整数カウント)
  • 15 0 10 20 30 40 50 60 70 80 90 情報学 神経科学 実験動物学 人間医工学 健康・スポーツ科学 生活科学 科学教育・教育工 科学社会学・科学 文化財科学 地理学 環境学 ナノ・マイクロ科学 社会・安全システム ゲノム科学 生物分子科学 資源保全学 地域研究 ジェンダー 哲学 芸術学 文学 言語学 史学 人文地理学 文化人類学 法学 政治学 経済学 経営学 社会学 心理学 教育学 数学 天文学 物理学 地球惑星科学 プラズマ科学 基礎化学 複合化学 材料化学 応用物理学・工学 機械工学 電気電子工学 土木工学 XY:STATISTICS & PROBABILITY
  • 16 JI:ERGONOMICS JM:ETHNICSTUDIES JO:FAMILYSTUDIES JS:FILM,RADIO,TELEVISION JU:FISHERIES JW:FOLKLORE JY:FOODSCIENCE& KA:FORESTRY KI:GASTROENTEROLOGY& KM:GENETICS&HEREDITY KU:GEOGRAPHY KV:GEOGRAPHY,PHYSICAL KY:GEOLOGY LE:GEOSCIENCES, LI:GERIATRICS& LJ:GERONTOLOGY LQ:HEALTHPOLICY&SERVICES MA:HEMATOLOGY MC:MATHEMATICAL& ML:PRIMARYHEALTHCARE MM:HISTORY MQ:HISTORY&PHILOSOPHY MR:HISTORYOFSOCIAL MU:HORTICULTURE MW:HOSPITALITY,LEISURE, MY:PSYCHOLOGY, NE:PUBLIC,ENVIRONMENTAL NI:IMMUNOLOGY NM:INDUSTRIALRELATIONS& NN:INFECTIOUSDISEASES NQ:PSYCHOLOGY,APPLIED NS:NANOSCIENCE& NU:INFORMATIONSCIENCE& OA:INSTRUMENTS& OE:INTERNATIONAL OI:INTEGRATIVE& OM:LAW OO:MEDICALETHICS OP:MEDICINE,LEGAL OR:ASIANSTUDIES OT:LINGUISTICS OU:LIMNOLOGY OX:LITERARYTHEORY& OY:LANGUAGE&LINGUISTICS OZ:LITERARYREVIEWS PA:LITERATURE PC:MANAGEMENT PD:LITERATURE,AFRICAN, PE:OPERATIONSRESEARCH& PF:LITERATURE,AMERICAN PG:LITERATURE,BRITISHISLES PH:LITERATURE,GERMAN, PI:MARINE&FRESHWATER PJ:MATERIALSSCIENCE,PAPER PK:MATERIALSSCIENCE, PM:MATERIALSSCIENCE, PN:MATHEMATICS,APPLIED PO:MATHEMATICS, PQ:MATHEMATICS PS:SOCIALSCIENCES, 数学
  • 17 IG:ENGINEERING,BIOMEDICAL IH:ENGINEERING,ENVIRONMENTAL II:ENGINEERING,CHEMICAL IJ:ENGINEERING,INDUSTRIAL IK:ENGINEERING,MANUFACTURING IL:ENGINEERING,MARINE IM:ENGINEERING,CIVIL IO:ENGINEERING,OCEAN IP:ENGINEERING,PETROLEUM IQ:ENGINEERING,ELECTRICAL& IU:ENGINEERING,MECHANICAL IX:ENGINEERING,GEOLOGICAL IY:ENTOMOLOGY JA:ENVIRONMENTALSCIENCES JB:ENVIRONMENTALSTUDIES JI:ERGONOMICS JM:ETHNICSTUDIES JO:FAMILYSTUDIES JS:FILM,RADIO,TELEVISION JU:FISHERIES JW:FOLKLORE JY:FOODSCIENCE&TECHNOLOGY KA:FORESTRY KI:GASTROENTEROLOGY& KM:GENETICS&HEREDITY KU:GEOGRAPHY KV:GEOGRAPHY,PHYSICAL KY:GEOLOGY LE:GEOSCIENCES,MULTIDISCIPLINARY LI:GERIATRICS&GERONTOLOGY LJ:GERONTOLOGY LQ:HEALTHPOLICY&SERVICES MA:HEMATOLOGY MC:MATHEMATICAL& ML:PRIMARYHEALTHCARE MM:HISTORY MQ:HISTORY&PHILOSOPHYOF MR:HISTORYOFSOCIALSCIENCES MU:HORTICULTURE MW:HOSPITALITY,LEISURE,SPORT& MY:PSYCHOLOGY,DEVELOPMENTAL NE:PUBLIC,ENVIRONMENTAL& NI:IMMUNOLOGY NM:INDUSTRIALRELATIONS&LABOR NN:INFECTIOUSDISEASES NQ:PSYCHOLOGY,APPLIED NS:NANOSCIENCE& NU:INFORMATIONSCIENCE&LIBRARY OA:INSTRUMENTS& OE:INTERNATIONALRELATIONS OI:INTEGRATIVE&COMPLEMENTARY OM:LAW OO:MEDICALETHICS OP:MEDICINE,LEGAL OR:ASIANSTUDIES OT:LINGUISTICS OU:LIMNOLOGY OX:LITERARYTHEORY&CRITICISM OY:LANGUAGE&LINGUISTICS OZ:LITERARYREVIEWS PA:LITERATURE PC:MANAGEMENT PD:LITERATURE,AFRICAN,AUSTRALIAN, PE:OPERATIONSRESEARCH& PF:LITERATURE,AMERICAN PG:LITERATURE,BRITISHISLES PH:LITERATURE,GERMAN,DUTCH, PI:MARINE&FRESHWATERBIOLOGY PJ:MATERIALSSCIENCE,PAPER& PK:MATERIALSSCIENCE,CERAMICS PM:MATERIALSSCIENCE, PN:MATHEMATICS,APPLIED PO:MATHEMATICS,INTERDISCIPLINARY PQ:MATHEMATICS PS:SOCIALSCIENCES,MATHEMATICAL PT:MEDICALINFORMATICS PU:MECHANICS PW:MEDICALLABORATORY PY:MEDICINE,GENERAL&INTERNAL PZ:METALLURGY&METALLURGICAL QA:MEDICINE,RESEARCH& QC:LITERATURE,ROMANCE QD:LITERATURE,SLAVIC QE:MATERIALSSCIENCE,BIOMATERIALS QF:MATERIALSSCIENCE, QG:MATERIALSSCIENCE,COATINGS& QH:MATERIALSSCIENCE,COMPOSITES QJ:MATERIALSSCIENCE,TEXTILES 内科系臨床医学 QG:MATERIALSSCIENCE,COATINGS& QH:MATERIALSSCIENCE,COMPOSITES QJ:MATERIALSSCIENCE,TEXTILES QK:MEDIEVAL&RENAISSANCESTUDIES QL:LOGIC QQ:METEOROLOGY&ATMOSPHERIC QU:MICROBIOLOGY RA:MICROSCOPY RB:ROBOTICS RE:MINERALOGY RO:MULTIDISCIPLINARYSCIENCES RP:MUSIC RQ:MYCOLOGY RT:CLINICALNEUROLOGY RU:NEUROSCIENCES RX:NEUROIMAGING RY:NUCLEARSCIENCE&TECHNOLOGY RZ:NURSING SA:NUTRITION&DIETETICS SD:OBSTETRICS&GYNECOLOGY SI:OCEANOGRAPHY SR:REMOTESENSING SU:OPHTHALMOLOGY SY:OPTICS TA:ORNITHOLOGY TC:ORTHOPEDICS TD:OTORHINOLARYNGOLOGY TE:PALEONTOLOGY TI:PARASITOLOGY TM:PATHOLOGY TQ:PEDIATRICS TU:PHARMACOLOGY&PHARMACY UA:PHILOSOPHY UB:PHYSICS,APPLIED UE:IMAGINGSCIENCE& UF:PHYSICS,FLUIDS&PLASMAS UH:PHYSICS,ATOMIC,MOLECULAR& UI:PHYSICS,MULTIDISCIPLINARY UK:PHYSICS,CONDENSEDMATTER UM:PHYSIOLOGY UN:PHYSICS,NUCLEAR UP:PHYSICS,PARTICLES&FIELDS UQ:PLANNING&DEVELOPMENT UR:PHYSICS,MATHEMATICAL UT:POETRY UU:POLITICALSCIENCE UY:POLYMERSCIENCE VE:PSYCHIATRY VI:PSYCHOLOGY VJ:PSYCHOLOGY,MULTIDISCIPLINARY VM:PUBLICADMINISTRATION VP:PSYCHOLOGY,PSYCHOANALYSIS VS:PSYCHOLOGY,MATHEMATICAL VX:PSYCHOLOGY,EXPERIMENTAL VY:RADIOLOGY,NUCLEARMEDICINE& WC:REHABILITATION WE:RESPIRATORYSYSTEM WF:REPRODUCTIVEBIOLOGY WH:RHEUMATOLOGY WM:SOCIALISSUES WQ:PSYCHOLOGY,SOCIAL WU:SOCIALSCIENCES, WV:SOCIALSCIENCES,BIOMEDICAL WY:SOCIALWORK XA:SOCIOLOGY XE:SOILSCIENCE XQ:SPECTROSCOPY XW:SPORTSCIENCES XY:STATISTICS&PROBABILITY YA:SURGERY YE:TELECOMMUNICATIONS YG:THEATER YI:RELIGION YO:TOXICOLOGY YP:TRANSPLANTATION YQ:TRANSPORTATION YR:TRANSPORTATIONSCIENCE& YU:TROPICALMEDICINE YY:URBANSTUDIES ZA:UROLOGY&NEPHROLOGY ZC:VETERINARYSCIENCES ZD:PERIPHERALVASCULARDISEASE ZE:VIROLOGY ZK:WOMEN'SSTUDIES ZM:ZOOLOGY ZQ:MINING&MINERALPROCESSING ZR:WATERRESOURCES
  • サブジェクトエリアごとの 67分科(ランク順)に対する頻度分 布 18 0 0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 46 47 48 49 50 51 52 53 54 55 56 57 58 59 60 61 62 63 64 65 66 67 系列1 系列2 系列3 系列4 系列5 系列6 系列7 系列8 系列9 系列10 系列11 系列12 系列13 系列14 系列15 系列16 系列17 系列18 系列19 系列20 系列21 系列22 系列23 67分科(ランク順) 系列はESIのサブジェクトエリア頻度
  • 頻度を考慮した分野マッピング • 一様分布以下の頻度はカットする(ノイズ 低減) • 2方向の対応表 – WoS(ESI)サブジェクトエリアから科研費分 野分類 – 科研費分野分類からWoS(ESI)サブジェクトエ リア 19
  • 20
  • 21
  • マッピングに対する考察 • 整数カウントと分数カウント – 整数カウントと分数カウントで得られたソート後の分割表には、分類 の順序に若干の差異が見られた – マッピングの若干の差異としてそのまま現れるため無視することはで きない • 有意な対応関係のための足切り – より厳選したマッピングのためには足切りの頻度を数倍する – 頻度順位1位の分類項目からランク順に累積頻度を計算して1/2に達し たところでマッピングを打ち切る • 書誌の同一性判定の精度 – 分割表の要素の精度は同一性判定の精度に依存 – 割表の要素には一定の同一性判定の誤差を含んだ論文数がカウントさ れるので、標本の数が大きければ大数の法則により誤差は気にしなく てよい方向に向かう • 分類の粒度とマッピングの方向 – [4,10,67,284] x [22,251]の8通りの分割表が作成可能であり、マッピン グの方向を含めると16通りのマッピング表を作成できる – 論文中の表はその一部 22
  • 結論と展望 • 結論 – 科研費の分野分類とWoSの分野分類とのマッピ ングをとることを目的 – レコードリンケージの技術を用いて論文を同定す ることによって、ボトムアップに分野同士の関係 を定義することができた • 展望 – 参考文献と論文の同定精度の向上 – 標本数を考慮したマッピング精度の向上 – 複数の年を考慮した分野分類に対応するなどマッ ピング表の拡張 23