科研費データベースの分野分類
 とトピック分類の比較分析	
   蔵川 圭1, 孫 媛1, 馬場 康維2

 1)国立情報学研究所, 2)統計数理研究所	

                 日本分類学会 第31回大会
                 2013年3月5日 中央大学後楽園キャンパス
研究の評価と研究分野	
•  大学や研究機関の研究成果について、客観的に評価することの
   重要性は、以前にも増して高まっている
•  研究成果を、研究実施セクターごとや時系列で区切り、また研究
   分野ごとに区切って比較検討するのが一般的
•  複数のデータベースをあわせて評価する時、研究分野のマッピン
   グをとる
 –  InCitesのWoS分野カテゴリ
 –  OECD Frascati ManualのFOS(field of science and technology)
•  研究分野は専門家の十分な議論を経て定義され、適宜改訂され
   ていく
 –  異なるデータベースの分野分類をマッピングすることは、単純な作業
    ではない
 –  研究分野分類のマッピングを自動化できれば、研究評価の支援に大
    いに貢献できるだろう


                                                                2
科研費データベース	
•  国内では、網羅性と信頼性のある研究評価
   対象として科学研究費補助金の報告書を挙
   げることができる
•  科研費データベースKAKENが整備され公開
   されている	




                           3
目的	
•  異なる2つのデータベースにおける研究分野
   を自動的に対応づけることを最終目標とする
•  ここでは、自動で研究分野分類するとは何で
   あるかを理解することを目的とする	




                          4
アプローチ	
•  科研費データベースKAKENの報告書を対象
  –  2009年度の実績報告書
  –  研究分野分類のある研究課題
•  LDA(Latent Dirichlet Allocation)ベースの分類
  –  LDAによるトピック分布の導出
  –  トピック分布の中で最尤のトピックを抽出
•  Purity指標による分類結果の比較
  –  科研費の分野分類
  –  LDAによるトピック分類	
                                            5
LDA(Latent Dirichlet Allocation)とは	
•  Bleiらによる
  –  David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet
     allocation. The Journal of Machine Learning Research, 3: 993-1022,
     March 2003.

•  コーパスを対象とした生成確率モデルの一つ
•  文書が潜在トピック上の確率混合分布として
   表される
•  各トピックは単語上の分布として特徴づけら
   れる	
                                                                            6
LDAの直感的イメージ	
     トピック	
                                                                                2.	
                                                                                 文書ごとに	
                                                                   トピック分布	
Topic#1	
    keyword 0.64                                       doc# 1                                                                  doc# 2                                                                  doc# 3                                                                   doc# 4
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    keyword 0.52
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
    keyword 0.49
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
    ………..	
                                                                                                                                                                     文書	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
Topic#2	
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
    keyword 0.89                0 4 8   13   19   25    31   37

                                                        Topics
                                                                  43   49   55   61   67                0 4 8   13   19   25    31   37

                                                                                                                                Topics
                                                                                                                                          43   49   55   61   67                0 4 8   13   19   25    31   37

                                                                                                                                                                                                        Topics
                                                                                                                                                                                                                  43   49   55   61   67                 0 4 8   13   19   25    31   37

                                                                                                                                                                                                                                                                                 Topics
                                                                                                                                                                                                                                                                                           43   49   55   61   67



    keyword 0.82
    keyword 0.76                                       doc# 6                                                                  doc# 7                                                                  doc# 8                                                                   doc# 9
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    ………..	
                                                                                                                                                                                                                                                3.	
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
Topic#3	
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
                                                                                                                                                                                                                                                        トピックトークン	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
    keyword 0.73
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
    keyword 0.68
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
    keyword 0.64                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                 0 4 8   13   19   25    31   37   43   49   55   61   67




                                                                       コーパス	
                                                        Topics                                                                  Topics                                                                  Topics                                                                   Topics

    ………..	
                                                       doc# 11                                                                 doc# 12                                                                 doc# 13                                                                  doc# 14

Topic#4	
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    keyword 0.52
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
    keyword 0.48
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
                                                                                           1.	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
    keyword 0.41
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
    ………..	
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
                                                                                                                                                                                                                                                        …..	
                                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                 0 4 8   13   19   25    31   37   43   49   55   61   67

                                                        Topics                                                                  Topics                                                                  Topics                                                                   Topics




                                                                                                                                                                                                                                                                                                     7
記法	
Word	
              A vocabulary indexed:	
{1, . . . , V }

              V -vector w     vth word in the vocabulary
                               wv = 1
                               w u = 0, v 6= u
Document	

              w = (w1 , w2 , . . . , wN )        N words


Corpus	

             D = {w1 , w2 , . . . , wM }      M documents

                                                            8
LDA [Blei et.al. 2003]	
トピック数:	
    k
パラメータ:	
   ↵,
トピック分布:	
   ✓
ドキュメント数:	
 M                        2 k ⇥ V matrix
文書 d の単語数:	
N
N 個のトピック:	
 z
N 個の単語:	
   w




          ↵         ✓           z           w   N
                                                     M
  ↵ 2 k-vector                   zn ⇠ Multinomial(✓)
                    ✓ ⇠ Dir(↵)                  N ⇠ Poisson(⇠)
                    ✓ 2 k-vector on (k 1)-simplex                9
LDAモデルの推論	

トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、	
                                 N
                                 Y
    p(✓, z, w|↵, ) = p(✓|↵)            p(zn |✓)p(wn |zn , )
                                 n=1

                                                              ↵    ✓      z        w   N
                                                                                           M
✓ と z で周辺化すると、文書wの確率が得られ、	
                Z       N X
                                                !
                        Y
      p(w|↵, ) = p(✓|↵)     p(zn |✓)p(wn |zn , ) d✓
                                 n=1 zn


さらに、積を取ると、コーパス全体 D の確率が得られる	
                 M     Z                Nd
                                                                         !
                 Y                      Y    X
    p(D|↵, ) =             p(✓ d |↵)             p(zdn |✓ d )p(wdn |zdn , ) d✓ d
                 d=1                   n=1 zdn
                                                                                   10
実験データ	
•  科研費データベースKAKENにおける2009年度の実
   績報告書
 –  研究課題: 59,012 件
 –  実績報告書: 56,022 件
   •  キーワード: 299,651 件
   •  研究分野細目: 342件
      –  分科細目番号(284)
          »  284細目番号あるが、番号再利用と文言変更あり。
          »  298細目名となっている
      –  時限付細目番号(23)
      –  奨励研究細目番号(35)
   •  細目情報の無い課題: 4,939件
 –  分科細目番号のついた実績報告書:50304 件
   •  これを実験に用いた	

                                        11
クラスターの規模	
•  KAKEN分野分類軸(year=2009)
 –  系(4)
 –  分野(10)
 –  分科(68)
 –  細目(298)
•  LDAトピック軸
 –  K=4
 –  K=10
 –  K=68
 –  K=298
                           12
クラスターの一致度	
•  課題のトピック分布のうち最尤のトピックで分野分類さ
   れると仮定する
•  KAKEN分野分類と最尤LDAトピックの一致度を計る
•  一致文書数を要素とする文書分類行列を作る	
KAKEN分野分類の文書集合	
    最尤LDAトピックの文書集合	




                   一致文書集合	
                                       13
Purity and Inverse-Purity	
•     itemが一つのクラスターに属す場合の、クラスタリング評価指標
•     Web people search task Iで使用された
•     Zhao, Y., & Karypis, G. (2001). Criterion functions for document clustering: Experiments and analysis. MN. Retrieved from https://
      wwws.cs.umn.edu/tech_reports_upload/tr2001/01-040.pdf
•     Artiles, J., Gonzalo, J., & Sekine, S. (2007). The semeval-2007 weps evaluation: Establishing a benchmark for the web people search
      task. Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007) (pp. 64–69). Retrieved from http://
      acl.ldc.upenn.edu/W/W07/W07-2012.pdf

                     X |Ci |
     Purity =                        max Precision(Ci , Lj )                              Precision measure	
                        i
                               n        j

                            |Ci  Lj |
     Precision(Ci , Lj ) =
                              |Ci |
                         X |Li |
     Inverse Purity =             max Precision(Li , Cj )                                            Recall measure	
                          i
                              n     j

      C : the set of clusters to be evaluated
      L : the set of categories (manually annotated)
      n : the number of clustered elements
                                                                                                                                            14
入力文書例(K-*)	
#	
   docid	
   field	
              token	

    05J04264-                       <keyword>突発現象</keyword><keyword>近接連星系</keyword><keyword>降着円盤
    2009-3	
 4201-天文学	
  1	
                               </keyword>	
    05J04929-                       <keyword>タルコット・パーソンズ</keyword><keyword>フランソワ・ブリコー</
    2009-3	
 3801-社会学	
  2	
                               keyword><keyword>学説史</keyword>	
    06J01162-
    2009-3	
 4402-気象・海洋物理・陸水学	
  3	
                            <keyword>海洋物理</keyword>	
                                 <keyword>インセンティブ</keyword><keyword>フードシステム</keyword><keyword>人
    06J02347- 2201-社会システム工学・安全シス 獣共通感染症</keyword><keyword>産業組織</keyword><keyword>経営学</
    2009-3	
 テム	
  4	
                            keyword><keyword>鳥インフルエンザ</keyword><keyword>鶏卵</keyword>	
    06J02354-                    <keyword>X線結晶構造解析</keyword><keyword>グリコサミノグリカン</
    2009-3	
 6102-応用微生物学	
  5	
                            keyword><keyword>多糖リアーゼ</keyword><keyword>連鎖球菌</keyword>	
    06J02449-                    <keyword>中国古代</keyword><keyword>戸籍</keyword><keyword>支配理念</
    2009-3	
 3103-東洋史	
  6	
                            keyword><keyword>秦漢</keyword>	
                                 <keyword>クローン</keyword><keyword>マイクロサテライト</keyword><keyword>匂い
    06J02570-                    類似度</keyword><keyword>植物誘導反応</keyword><keyword>植物間コミュニケー
    2009-3	
 5702-生態・環境
  7	
                            ション</keyword><keyword>血縁度</keyword>	
    06J03319-                    <keyword>セルロース</keyword><keyword>トリアセテート</keyword><keyword>自己
    2009-3	
 6202-林産科学・木質工学	
  8	
                            組織化</keyword><keyword>還元性末端</keyword><keyword>金ナノ粒子</keyword>	
                                 <keyword>dunes</keyword><keyword>小規模河床形態</keyword><keyword>数値解
                                 析</keyword><keyword>河床変動計算</keyword><keyword>河道抵抗</
    06J04079-                    keyword><keyword>流砂</keyword><keyword>移動床実験</keyword><keyword>非
    2009-3	
 5204-水工水理学	
  9	
                            定常流量下</keyword>	
    06J04266-                    <keyword>GSK-3β</keyword><keyword>tRNaseZL</keyword><keyword>Wnt</
    2009-3	
 7402-機能系基礎歯科学	
 10	
                            keyword><keyword>骨形成</keyword><keyword>骨芽細胞</keyword>	
                                                                                             15
LDA実装あれこれ	
•  LDAモデルをfitさせるサンプリン                      •  lda
   グ方法と実装言語が異なる                                –  持橋による(2004)
•  lda-c                                       –  Variational Bayes
   –  Bleiらによる(2006)                           –  CおよびMATLABで実装
   –  Variational inference (variational   •  Mallet
      Bayes)                                   –  McCallumらによる(2011)
   –  Cで実装                                     –  LDAを含む言語処理用機械学習
•  lda (a R package)                              パッケージ
   –  Changによる(2010)                           –  Gibbs sampling
   –  Gibbs sampling                           –  Javaで実装	
   –  R上の実装
•  Topicmodels (a R package)                               今回はこれを使用	
   –  GrünとHornikによる(2011)
   –  上述含む既実装のラッパー。
      VEM, Gibbs sampling. 拡張可能
   –  R上の実装	


                                                                      16
LDA実行(K-298)	
•    設定
     –  トピック数:298
     –  サンプリング回数:2,000
•    入力	
     –  50,304 project reports (keyword=token)
     –  Max tokens: 11
     –  Total tokens: 247975
•    実行
     –  英文キーワードは、空白と記号削除の上、小文字へ正規化
     –  サンプリング時間:3 minutes 10 seconds
•    出力結果
     –  1 minutes
     –  ベストトピック (numDoc=50,369)
          •  8.5 M-bytes
     –  トピック分布(K=298)
          •  336 M-bytes
     –  トピックワード(K=298)
          •  2.9 M-bytes	



                                                 17
LDAトピック例(K-298)	
Topic #	
topic keyword (weight) [rank > 21]	
        ゲノム不安定性 (6) 造血幹細胞 (5) ips細胞 (5) 骨髄異形成症候群 (4) 疾患モデルマウス (4) b (3) 構造信頼性 (3) イマチニブ (3) ダウン症 (3) リスク評価 (3) 心奇形 (2) pnh
      0	
 mica (2) apob (2) バレット食道 (2) 先天性骨髄不全症候群 (2) fanconi貧血 (2) 発作性夜間ヘモグロビン尿症 (2) 造血細胞移植 (2) 白血病幹細胞 (2) 	
        (2)

        eph (5) 胃癌 (5) ephrin (4) dna解析 (4) 胃潰瘍 (3) maltリンパ腫 (3) 成長障害 (3) ライフサイクル (3) 胃炎 (3) 免疫組織化学 (3) 東アジア型caga (2) caga遺伝子 (2) cast (2) 高
        温変形 (2) クリープ (2) オープンチャネル (1) アンビエント情報 (1) 核燃料サイクル (1) 血管周皮細胞 (1) 気腫性嚢胞 (1) 	
      1	

        政策過程 (6) 政策分析 (5) 医療政策 (5) マイクロ流路 (5) 蛍光 (5) 組織文化 (4) ゼータ電位 (4) ケイ素 (4) 社会シミュレーション (3) 医療経営 (3) ペリレン (3) 戦略的協働 (3)
        複合粒子 (3) 単分散 (3) 自治体 (3) 事例研究 (3) 電気浸透流 (3) 誘電泳動 (3) npo (3) 企業 (3) 	
      2	

        スピントロニクス (14) 磁気異方性 (12) 光誘起相転移 (11) スピン (10) 磁性 (10) 第一原理計算 (10) 磁気光学効果 (7) 強相関電子系 (7) 遷移金属酸化物 (6) 界面 (6) 薄膜
      3	
 スピン軌道相互作用 (6) 超高速分光 (5) 吸着 (5) 遷移金属 (5) 光電子分光 (5) 電界効果 (4) イオン源 (4) アントラセン (4) 超薄膜 (4) 	
        (6)

        英文学 (12) シェイクスピア (11) 画像データベース (7) イギリス (6) ディケンズ (5) エリザベス朝 (5) 書誌学 (5) 画像情報処理 (4) 匿名性 (4) 画像認識 (4) 医用画像処理 (4) ア
        ダプテーション (3) 物語論 (3) 知覚情報処理 (3) 女性作家 (3) 生成型学習 (3) ナラティヴ (3) 詩 (3) 挿絵 (3) メディア (3) 	
      4	

        地域連携 (8) 教会 (5) オーラルヒストリー (5) 地域社会 (5) 有機農業 (5) 戦争体験 (4) ヴェーダ (4) インド (4) csa (3) 社会参加 (3) サンスクリット (3) インド学 (3) マハーバーラ
      5	
 (3) 写本 (3) コミュニティ (3) コミュニケーション (3) 高度経済成長期 (2) 食農教育 (2) テキスト校訂 (2) アーユルヴェーダ (2) 	
        タ

        ドイツ文学 (5) 乱数生成 (3) ワークプレイス (2) オフィス (2) ドイツロマン派 (2) アレゴリー (2) 庭園 (2) 語学学習 (2) バロック (2) 西ドイツ (2) 失業保険 (2) 黙示録 (2) ホーフマ
        ンスタール (2) 知的生産性 (2) 遺跡保存問題 (1) 中学校社会科 (1) バロック詩 (1) 表現主義 (1) 日独比較文学 (1) 放射性医薬品造影剤 (1) 	
      6	

        結合振動子系 (3) 低出力超音波パルス (2) lpda (2) 堆肥化 (2) 左心補助 (2) fdtd (2) 群ロボット (2) 超電導 (2) ネットワーキング (2) 同期現象 (2) 生態史 (2) 主体形成 (2) 電
        位依存性カルシウムチャネル (2) 肝細胞再生因子 (1) 肝細胞再生 (1) 諌早湾干拓大規模環境保全型農地 (1) 繰返し負荷 (1) 大型農業機械 (1) 上 (1) 硝酸呼吸 (1) 	
      7	

        ナノ材料 (108) 光物性 (75) 半導体物性 (54) 結晶成長 (51) 環境材料 (42) 磁性 (38) 自己組織化 (34) 物性実験 (33) 量子ドット (33) スピンエレクトロニクス (32) 環境技術 (29)
        先端機能デバイス (28) 化学工学 (26) 結晶工学 (24) 水素 (24) 太陽電池 (23) 計測工学 (22) 計算物理 (21) 高分子合成 (20) 物性理論 (19) 	
      8	

        データベース (7) 中国少数民族 (4) ヒアリング調査 (3) euv (3) 認知発達ロボティクス (3) 医療保育士 (2) 談義所 (2) adiponectin (2) 膜型人工肺 (2) 胎児循環 (2) 動脈管 (2)
        人工胎盤 (2) 人工羊水 (2) 人工子宮 (2) マイクロスフェア法 (2) 空中写真 (2) 微分幾何 (2) 構成論的アプローチ (2) 顔認識 (2) 修験道 (2) 	
      9	

        看護技術 (14) 看護教育 (13) 看護学 (12) 養護教諭 (8) 助産師 (8) 看護実践能力 (8) フィジカルアセスメント (7) アクションリサーチ (7) 看護学生 (6) インタビュー (6) 教育方法
     10	
 看護師 (6) 看護教育学 (5) ライフコース (5) ライフヒストリー (5) 評価 (5) スケール (4) 中堅看護師 (4) 臨地実習 (4) 看護学教育 (4) 	
        (6)


                                                                                                                                   18
LDAトピック分布例(K-298)	
                              doc# 1                                                   doc# 2                                                   doc# 3                                                   doc# 4                                                   doc# 5
       1.0




                                                                1.0




                                                                                                                         1.0




                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                           1.0
       0.8




                                                                0.8




                                                                                                                         0.8




                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                           0.8
       0.6




                                                                0.6




                                                                                                                         0.6




                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                           0.6
Freq




                                                         Freq




                                                                                                                  Freq




                                                                                                                                                                           Freq




                                                                                                                                                                                                                                    Freq
       0.4




                                                                0.4




                                                                                                                         0.4




                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                           0.4
       0.2




                                                                0.2




                                                                                                                         0.2




                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                           0.2
       0.0




                                                                0.0




                                                                                                                         0.0




                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                           0.0
             0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289

                               Topics                                                   Topics                                                   Topics                                                   Topics                                                   Topics



                              doc# 6                                                   doc# 7                                                   doc# 8                                                   doc# 9                                                   doc# 10
       1.0




                                                                1.0




                                                                                                                         1.0




                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                           1.0
       0.8




                                                                0.8




                                                                                                                         0.8




                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                           0.8
       0.6




                                                                0.6




                                                                                                                         0.6




                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                           0.6
Freq




                                                         Freq




                                                                                                                  Freq




                                                                                                                                                                           Freq




                                                                                                                                                                                                                                    Freq
       0.4




                                                                0.4




                                                                                                                         0.4




                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                           0.4
       0.2




                                                                0.2




                                                                                                                         0.2




                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                           0.2
       0.0




                                                                0.0




                                                                                                                         0.0




                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                           0.0
             0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289

                               Topics                                                   Topics                                                   Topics                                                   Topics                                                   Topics



                              doc# 11                                                  doc# 12                                                  doc# 13                                                  doc# 14                                                  doc# 15
       1.0




                                                                1.0




                                                                                                                         1.0




                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                           1.0
       0.8




                                                                0.8




                                                                                                                         0.8




                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                           0.8
       0.6




                                                                0.6




                                                                                                                         0.6




                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                           0.6
Freq




                                                         Freq




                                                                                                                  Freq




                                                                                                                                                                           Freq




                                                                                                                                                                                                                                    Freq
       0.4




                                                                0.4




                                                                                                                         0.4




                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                           0.4
       0.2




                                                                0.2




                                                                                                                         0.2




                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                           0.2
       0.0




                                                                0.0




                                                                                                                         0.0




                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                           0.0
             0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289                0 20 43 66 89 115 144 173 202 231 260 289

                               Topics                                                   Topics                                                   Topics                                                   Topics                                                   Topics




                                                                                                                                                                                                                                                                            19
LDAクラスターと研究分野分類の例	
 Topic #273	




                  20
Purity指標(K-298)	
•  Purity = 0.1753027588
•  Inverse Purity = 0.2732380331	




                                     21
トピック数ごとのPurity指標	


Num of Topics(k)	
 Purity	
   Inverse Purity	
   1/k	
      Purity x k	
k=298	
            0.1753	
   0.2732	
           0.0034	
   52.23	
k=68	
             0.3039	
   0.2920	
           0.0147	
   20.67	
k=10	
             0.4474	
   0.4612	
           0.1	
      4.474	
k=4	
              0.6560	
   0.6560	
           0.25	
     2.624	


                          LDAによる分類	
       一様分布で分類される時
                                             Purityは1/kとなる	


                                                                      22
実験の考察	
•  トピック数が少ない方が
 –  Purityが大きい
 –  Inverse Purityが大きい
 –  絶対値としては小さい
•  一様確率でランダムに文書分類した時のPurityが1/k、で
   あることをベースラインとすると、トピック数が多い方が
 –  Purityが大きい
 –  Inverse Purityが大きい
•  あるトピックに分類された課題の研究分野の分布を眺める
   と、共通するキーワードが思い浮かぶ
•  Purity指標は、単純に分類性能を示しているとは言いがた
   い

                                    23
結論と展望	
•  結論
  –  自動で研究分野分類するとは何であるかを理解することを目的として、
     科研費データベースの2009年度実績報告書を対象に、LDAを適用し
     研究分野分類と比較した
  –  トピック数を系(4)・分野(10)・分科(68)・細目(298)にあわせて、
     PurityとInverse Purityを算出した
        •  トピック数が小さいと、PurityとInverse Purityが大きくなる
        •  一様確率でランダムに分類した時、PurityとInverse Purityが1/kとなるので、
           これをベースラインとすると、トピック数が大きいと、PurityとInverse Purityが
           大きくなる
  –  あるトピックに分類された課題の研究分野の分布を眺めると、共通す
     るキーワードが思い浮かぶ
  –  Purity指標は、単純に研究分野分類性能を示しているとは言いがた
     い
•  展望
  –  研究分野分類性能の高いトピックモデルの構築、実装、適用
  –  研究分野分類性能を示す適切な指標	
                                                         24

科研費データベースの分野分類とトピック分類の比較分析

  • 1.
    科研費データベースの分野分類 とトピック分類の比較分析 蔵川 圭1, 孫 媛1, 馬場 康維2 1)国立情報学研究所, 2)統計数理研究所 日本分類学会 第31回大会 2013年3月5日 中央大学後楽園キャンパス
  • 2.
    研究の評価と研究分野 •  大学や研究機関の研究成果について、客観的に評価することの 重要性は、以前にも増して高まっている •  研究成果を、研究実施セクターごとや時系列で区切り、また研究 分野ごとに区切って比較検討するのが一般的 •  複数のデータベースをあわせて評価する時、研究分野のマッピン グをとる –  InCitesのWoS分野カテゴリ –  OECD Frascati ManualのFOS(field of science and technology) •  研究分野は専門家の十分な議論を経て定義され、適宜改訂され ていく –  異なるデータベースの分野分類をマッピングすることは、単純な作業 ではない –  研究分野分類のマッピングを自動化できれば、研究評価の支援に大 いに貢献できるだろう 2
  • 3.
    科研費データベース •  国内では、網羅性と信頼性のある研究評価 対象として科学研究費補助金の報告書を挙 げることができる •  科研費データベースKAKENが整備され公開 されている 3
  • 4.
    目的 •  異なる2つのデータベースにおける研究分野 を自動的に対応づけることを最終目標とする •  ここでは、自動で研究分野分類するとは何で あるかを理解することを目的とする 4
  • 5.
    アプローチ •  科研費データベースKAKENの報告書を対象 –  2009年度の実績報告書 –  研究分野分類のある研究課題 •  LDA(Latent Dirichlet Allocation)ベースの分類 –  LDAによるトピック分布の導出 –  トピック分布の中で最尤のトピックを抽出 •  Purity指標による分類結果の比較 –  科研費の分野分類 –  LDAによるトピック分類 5
  • 6.
    LDA(Latent Dirichlet Allocation)とは • Bleiらによる –  David M. Blei, Andrew Y. Ng, and Michael I. Jordan. Latent dirichlet allocation. The Journal of Machine Learning Research, 3: 993-1022, March 2003. •  コーパスを対象とした生成確率モデルの一つ •  文書が潜在トピック上の確率混合分布として 表される •  各トピックは単語上の分布として特徴づけら れる 6
  • 7.
    LDAの直感的イメージ トピック 2. 文書ごとに トピック分布 Topic#1 keyword 0.64 doc# 1 doc# 2 doc# 3 doc# 4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 keyword 0.49 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq ……….. 文書 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 Topic#2 0.0 0.0 0.0 0.0 0.0 keyword 0.89 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 keyword 0.82 keyword 0.76 doc# 6 doc# 7 doc# 8 doc# 9 1.0 1.0 1.0 1.0 1.0 ……….. 3. 0.8 0.8 0.8 0.8 0.8 Topic#3 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq トピックトークン 0.4 0.4 0.4 0.4 0.4 keyword 0.73 0.2 0.2 0.2 0.2 0.2 keyword 0.68 0.0 0.0 0.0 0.0 0.0 keyword 0.64 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 コーパス Topics Topics Topics Topics ……….. doc# 11 doc# 12 doc# 13 doc# 14 Topic#4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 keyword 0.48 Freq Freq Freq Freq Freq 1. 0.4 0.4 0.4 0.4 0.4 keyword 0.41 0.2 0.2 0.2 0.2 0.2 ……….. 0.0 0.0 0.0 0.0 0.0 ….. 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 Topics Topics Topics Topics 7
  • 8.
    記法 Word A vocabulary indexed: {1, . . . , V } V -vector w vth word in the vocabulary wv = 1 w u = 0, v 6= u Document w = (w1 , w2 , . . . , wN ) N words Corpus D = {w1 , w2 , . . . , wM } M documents 8
  • 9.
    LDA [Blei et.al.2003] トピック数: k パラメータ: ↵, トピック分布: ✓ ドキュメント数: M 2 k ⇥ V matrix 文書 d の単語数: N N 個のトピック: z N 個の単語: w ↵ ✓ z w N M ↵ 2 k-vector zn ⇠ Multinomial(✓) ✓ ⇠ Dir(↵) N ⇠ Poisson(⇠) ✓ 2 k-vector on (k 1)-simplex 9
  • 10.
    LDAモデルの推論 トピック分布 ✓ 、N個のトピック z 、N 個の単語 w の同時分布は、 N Y p(✓, z, w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) n=1 ↵ ✓ z w N M ✓ と z で周辺化すると、文書wの確率が得られ、 Z N X ! Y p(w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) d✓ n=1 zn さらに、積を取ると、コーパス全体 D の確率が得られる M Z Nd ! Y Y X p(D|↵, ) = p(✓ d |↵) p(zdn |✓ d )p(wdn |zdn , ) d✓ d d=1 n=1 zdn 10
  • 11.
    実験データ •  科研費データベースKAKENにおける2009年度の実 績報告書 –  研究課題: 59,012 件 –  実績報告書: 56,022 件 •  キーワード: 299,651 件 •  研究分野細目: 342件 –  分科細目番号(284) »  284細目番号あるが、番号再利用と文言変更あり。 »  298細目名となっている –  時限付細目番号(23) –  奨励研究細目番号(35) •  細目情報の無い課題: 4,939件 –  分科細目番号のついた実績報告書:50304 件 •  これを実験に用いた 11
  • 12.
    クラスターの規模 •  KAKEN分野分類軸(year=2009) – 系(4) –  分野(10) –  分科(68) –  細目(298) •  LDAトピック軸 –  K=4 –  K=10 –  K=68 –  K=298 12
  • 13.
    クラスターの一致度 •  課題のトピック分布のうち最尤のトピックで分野分類さ れると仮定する •  KAKEN分野分類と最尤LDAトピックの一致度を計る •  一致文書数を要素とする文書分類行列を作る KAKEN分野分類の文書集合 最尤LDAトピックの文書集合 一致文書集合 13
  • 14.
    Purity and Inverse-Purity •  itemが一つのクラスターに属す場合の、クラスタリング評価指標 •  Web people search task Iで使用された •  Zhao, Y., & Karypis, G. (2001). Criterion functions for document clustering: Experiments and analysis. MN. Retrieved from https:// wwws.cs.umn.edu/tech_reports_upload/tr2001/01-040.pdf •  Artiles, J., Gonzalo, J., & Sekine, S. (2007). The semeval-2007 weps evaluation: Establishing a benchmark for the web people search task. Proceedings of the 4th International Workshop on Semantic Evaluations (SemEval-2007) (pp. 64–69). Retrieved from http:// acl.ldc.upenn.edu/W/W07/W07-2012.pdf X |Ci | Purity = max Precision(Ci , Lj ) Precision measure i n j |Ci Lj | Precision(Ci , Lj ) = |Ci | X |Li | Inverse Purity = max Precision(Li , Cj ) Recall measure i n j C : the set of clusters to be evaluated L : the set of categories (manually annotated) n : the number of clustered elements 14
  • 15.
    入力文書例(K-*) # docid field token 05J04264- <keyword>突発現象</keyword><keyword>近接連星系</keyword><keyword>降着円盤 2009-3 4201-天文学 1 </keyword> 05J04929- <keyword>タルコット・パーソンズ</keyword><keyword>フランソワ・ブリコー</ 2009-3 3801-社会学 2 keyword><keyword>学説史</keyword> 06J01162- 2009-3 4402-気象・海洋物理・陸水学 3 <keyword>海洋物理</keyword> <keyword>インセンティブ</keyword><keyword>フードシステム</keyword><keyword>人 06J02347- 2201-社会システム工学・安全シス 獣共通感染症</keyword><keyword>産業組織</keyword><keyword>経営学</ 2009-3 テム 4 keyword><keyword>鳥インフルエンザ</keyword><keyword>鶏卵</keyword> 06J02354- <keyword>X線結晶構造解析</keyword><keyword>グリコサミノグリカン</ 2009-3 6102-応用微生物学 5 keyword><keyword>多糖リアーゼ</keyword><keyword>連鎖球菌</keyword> 06J02449- <keyword>中国古代</keyword><keyword>戸籍</keyword><keyword>支配理念</ 2009-3 3103-東洋史 6 keyword><keyword>秦漢</keyword> <keyword>クローン</keyword><keyword>マイクロサテライト</keyword><keyword>匂い 06J02570- 類似度</keyword><keyword>植物誘導反応</keyword><keyword>植物間コミュニケー 2009-3 5702-生態・環境 7 ション</keyword><keyword>血縁度</keyword> 06J03319- <keyword>セルロース</keyword><keyword>トリアセテート</keyword><keyword>自己 2009-3 6202-林産科学・木質工学 8 組織化</keyword><keyword>還元性末端</keyword><keyword>金ナノ粒子</keyword> <keyword>dunes</keyword><keyword>小規模河床形態</keyword><keyword>数値解 析</keyword><keyword>河床変動計算</keyword><keyword>河道抵抗</ 06J04079- keyword><keyword>流砂</keyword><keyword>移動床実験</keyword><keyword>非 2009-3 5204-水工水理学 9 定常流量下</keyword> 06J04266- <keyword>GSK-3β</keyword><keyword>tRNaseZL</keyword><keyword>Wnt</ 2009-3 7402-機能系基礎歯科学 10 keyword><keyword>骨形成</keyword><keyword>骨芽細胞</keyword> 15
  • 16.
    LDA実装あれこれ •  LDAモデルをfitさせるサンプリン •  lda グ方法と実装言語が異なる –  持橋による(2004) •  lda-c –  Variational Bayes –  Bleiらによる(2006) –  CおよびMATLABで実装 –  Variational inference (variational •  Mallet Bayes) –  McCallumらによる(2011) –  Cで実装 –  LDAを含む言語処理用機械学習 •  lda (a R package) パッケージ –  Changによる(2010) –  Gibbs sampling –  Gibbs sampling –  Javaで実装 –  R上の実装 •  Topicmodels (a R package) 今回はこれを使用 –  GrünとHornikによる(2011) –  上述含む既実装のラッパー。 VEM, Gibbs sampling. 拡張可能 –  R上の実装 16
  • 17.
    LDA実行(K-298) •  設定 –  トピック数:298 –  サンプリング回数:2,000 •  入力 –  50,304 project reports (keyword=token) –  Max tokens: 11 –  Total tokens: 247975 •  実行 –  英文キーワードは、空白と記号削除の上、小文字へ正規化 –  サンプリング時間:3 minutes 10 seconds •  出力結果 –  1 minutes –  ベストトピック (numDoc=50,369) •  8.5 M-bytes –  トピック分布(K=298) •  336 M-bytes –  トピックワード(K=298) •  2.9 M-bytes 17
  • 18.
    LDAトピック例(K-298) Topic # topic keyword(weight) [rank > 21] ゲノム不安定性 (6) 造血幹細胞 (5) ips細胞 (5) 骨髄異形成症候群 (4) 疾患モデルマウス (4) b (3) 構造信頼性 (3) イマチニブ (3) ダウン症 (3) リスク評価 (3) 心奇形 (2) pnh 0 mica (2) apob (2) バレット食道 (2) 先天性骨髄不全症候群 (2) fanconi貧血 (2) 発作性夜間ヘモグロビン尿症 (2) 造血細胞移植 (2) 白血病幹細胞 (2) (2) eph (5) 胃癌 (5) ephrin (4) dna解析 (4) 胃潰瘍 (3) maltリンパ腫 (3) 成長障害 (3) ライフサイクル (3) 胃炎 (3) 免疫組織化学 (3) 東アジア型caga (2) caga遺伝子 (2) cast (2) 高 温変形 (2) クリープ (2) オープンチャネル (1) アンビエント情報 (1) 核燃料サイクル (1) 血管周皮細胞 (1) 気腫性嚢胞 (1) 1 政策過程 (6) 政策分析 (5) 医療政策 (5) マイクロ流路 (5) 蛍光 (5) 組織文化 (4) ゼータ電位 (4) ケイ素 (4) 社会シミュレーション (3) 医療経営 (3) ペリレン (3) 戦略的協働 (3) 複合粒子 (3) 単分散 (3) 自治体 (3) 事例研究 (3) 電気浸透流 (3) 誘電泳動 (3) npo (3) 企業 (3) 2 スピントロニクス (14) 磁気異方性 (12) 光誘起相転移 (11) スピン (10) 磁性 (10) 第一原理計算 (10) 磁気光学効果 (7) 強相関電子系 (7) 遷移金属酸化物 (6) 界面 (6) 薄膜 3 スピン軌道相互作用 (6) 超高速分光 (5) 吸着 (5) 遷移金属 (5) 光電子分光 (5) 電界効果 (4) イオン源 (4) アントラセン (4) 超薄膜 (4) (6) 英文学 (12) シェイクスピア (11) 画像データベース (7) イギリス (6) ディケンズ (5) エリザベス朝 (5) 書誌学 (5) 画像情報処理 (4) 匿名性 (4) 画像認識 (4) 医用画像処理 (4) ア ダプテーション (3) 物語論 (3) 知覚情報処理 (3) 女性作家 (3) 生成型学習 (3) ナラティヴ (3) 詩 (3) 挿絵 (3) メディア (3) 4 地域連携 (8) 教会 (5) オーラルヒストリー (5) 地域社会 (5) 有機農業 (5) 戦争体験 (4) ヴェーダ (4) インド (4) csa (3) 社会参加 (3) サンスクリット (3) インド学 (3) マハーバーラ 5 (3) 写本 (3) コミュニティ (3) コミュニケーション (3) 高度経済成長期 (2) 食農教育 (2) テキスト校訂 (2) アーユルヴェーダ (2) タ ドイツ文学 (5) 乱数生成 (3) ワークプレイス (2) オフィス (2) ドイツロマン派 (2) アレゴリー (2) 庭園 (2) 語学学習 (2) バロック (2) 西ドイツ (2) 失業保険 (2) 黙示録 (2) ホーフマ ンスタール (2) 知的生産性 (2) 遺跡保存問題 (1) 中学校社会科 (1) バロック詩 (1) 表現主義 (1) 日独比較文学 (1) 放射性医薬品造影剤 (1) 6 結合振動子系 (3) 低出力超音波パルス (2) lpda (2) 堆肥化 (2) 左心補助 (2) fdtd (2) 群ロボット (2) 超電導 (2) ネットワーキング (2) 同期現象 (2) 生態史 (2) 主体形成 (2) 電 位依存性カルシウムチャネル (2) 肝細胞再生因子 (1) 肝細胞再生 (1) 諌早湾干拓大規模環境保全型農地 (1) 繰返し負荷 (1) 大型農業機械 (1) 上 (1) 硝酸呼吸 (1) 7 ナノ材料 (108) 光物性 (75) 半導体物性 (54) 結晶成長 (51) 環境材料 (42) 磁性 (38) 自己組織化 (34) 物性実験 (33) 量子ドット (33) スピンエレクトロニクス (32) 環境技術 (29) 先端機能デバイス (28) 化学工学 (26) 結晶工学 (24) 水素 (24) 太陽電池 (23) 計測工学 (22) 計算物理 (21) 高分子合成 (20) 物性理論 (19) 8 データベース (7) 中国少数民族 (4) ヒアリング調査 (3) euv (3) 認知発達ロボティクス (3) 医療保育士 (2) 談義所 (2) adiponectin (2) 膜型人工肺 (2) 胎児循環 (2) 動脈管 (2) 人工胎盤 (2) 人工羊水 (2) 人工子宮 (2) マイクロスフェア法 (2) 空中写真 (2) 微分幾何 (2) 構成論的アプローチ (2) 顔認識 (2) 修験道 (2) 9 看護技術 (14) 看護教育 (13) 看護学 (12) 養護教諭 (8) 助産師 (8) 看護実践能力 (8) フィジカルアセスメント (7) アクションリサーチ (7) 看護学生 (6) インタビュー (6) 教育方法 10 看護師 (6) 看護教育学 (5) ライフコース (5) ライフヒストリー (5) 評価 (5) スケール (4) 中堅看護師 (4) 臨地実習 (4) 看護学教育 (4) (6) 18
  • 19.
    LDAトピック分布例(K-298) doc# 1 doc# 2 doc# 3 doc# 4 doc# 5 1.0 1.0 1.0 1.0 1.0 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 0.0 0.0 0.0 0.0 0.0 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 Topics Topics Topics Topics Topics doc# 6 doc# 7 doc# 8 doc# 9 doc# 10 1.0 1.0 1.0 1.0 1.0 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 0.0 0.0 0.0 0.0 0.0 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 Topics Topics Topics Topics Topics doc# 11 doc# 12 doc# 13 doc# 14 doc# 15 1.0 1.0 1.0 1.0 1.0 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 0.0 0.0 0.0 0.0 0.0 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 0 20 43 66 89 115 144 173 202 231 260 289 Topics Topics Topics Topics Topics 19
  • 20.
  • 21.
    Purity指標(K-298) •  Purity =0.1753027588 •  Inverse Purity = 0.2732380331 21
  • 22.
    トピック数ごとのPurity指標 Num of Topics(k) Purity Inverse Purity 1/k Purity x k k=298 0.1753 0.2732 0.0034 52.23 k=68 0.3039 0.2920 0.0147 20.67 k=10 0.4474 0.4612 0.1 4.474 k=4 0.6560 0.6560 0.25 2.624 LDAによる分類 一様分布で分類される時 Purityは1/kとなる 22
  • 23.
    実験の考察 •  トピック数が少ない方が – Purityが大きい –  Inverse Purityが大きい –  絶対値としては小さい •  一様確率でランダムに文書分類した時のPurityが1/k、で あることをベースラインとすると、トピック数が多い方が –  Purityが大きい –  Inverse Purityが大きい •  あるトピックに分類された課題の研究分野の分布を眺める と、共通するキーワードが思い浮かぶ •  Purity指標は、単純に分類性能を示しているとは言いがた い 23
  • 24.
    結論と展望 •  結論 –  自動で研究分野分類するとは何であるかを理解することを目的として、 科研費データベースの2009年度実績報告書を対象に、LDAを適用し 研究分野分類と比較した –  トピック数を系(4)・分野(10)・分科(68)・細目(298)にあわせて、 PurityとInverse Purityを算出した •  トピック数が小さいと、PurityとInverse Purityが大きくなる •  一様確率でランダムに分類した時、PurityとInverse Purityが1/kとなるので、 これをベースラインとすると、トピック数が大きいと、PurityとInverse Purityが 大きくなる –  あるトピックに分類された課題の研究分野の分布を眺めると、共通す るキーワードが思い浮かぶ –  Purity指標は、単純に研究分野分類性能を示しているとは言いがた い •  展望 –  研究分野分類性能の高いトピックモデルの構築、実装、適用 –  研究分野分類性能を示す適切な指標 24