SlideShare a Scribd company logo
1 of 24
Download to read offline
機械学習を用いた

Web上の産学連携関連文書の抽出	
    蔵川 圭1, 孫 媛1, 馬場 康維2

 1)国立情報学研究所, 2)統計数理研究所	

                  情報処理学会 第75回全国大会
                  2013年3月6日〜8日 東北大学 川内キャンパス
U-I-G relations	
•  科学技術政策立案のための情報              University	

   源として産官学連携の実態を把                   U	
   握することが重要 (Leydesdorff
   and Meyer, 2003). 	
       I	
         G	
                       Industry	
     Government	


•  Web上の情報は実態把握のための有用な情
   報源の一つである

                                                2
目的	
•  Web上の文書を収集・整理することを前提と
   して,Web上の大学や企業のプレスリリース
   に着目し,産学連携関連情報の収集および
   分類する手法の構築を目的とする 	

            U	


      I	
         G	


                           3
Web上の産学連携関連文書を
 判別、分類するフレームワーク	
  大学や企業の
 Webサイトに掲
 載されたプレスリ
                                  •  Webから収集した文
    リース	
                            書を2つの観点から
                                     分類する
   1.	
  Web文書	
  
   クローリング	
                       クロール	
  
                        文書	
                                         –  文書の産学連携関連
                                            かどうかの判別
                                         –  産学連携関連文書の
2.	
  文書からテキストの
         抽出	
                        抽出	
                トピックによる分類	
                       テキスト	




3.	
  文書判別の学習	
      学習済み	
       4.	
  文書判別	
   5.	
  トピッククラスタリング	
                      モデル	




                                   判別結果	
            トピック分布	
                                                                       4
Web上の産学連携関連文書	
•  Web文書から抽出したテキストは、内容解析に
   はノイズが多い
 –  無関係なテキスト, 例えば、メニューラベルのテキスト、
    ページのヘッダとフッタ、広告が残ってしまう
•  我々の観察によると
 –  無関係なテキストは文を構成しない
 –  産学関連の判定には、関連の根拠は2、3の連続し
    た形式的な文に現れる
   •  ”東京大学とオムロン株式会社は、共同研究により、重なり
      や隠れに強く....”
•  句点を含んだテキストをフィルタリングすれば、
   形式的な文を十分抽出できる
                                    5
Support Vector Machine (1)
          (Vapnik, 1995)	
                                                              y=1
•  Two class classifier                                        y=0
      y(x) = wT (x) + b                                          y=         1

                          Bias parameter	
 Fixed feature space transformation	
•  N input vectors
                                              margin	
    –  Input vector: x1 , . . . , xN
    –  Target values: t1 , . . . , tN where tn 2 { 1, 1}   Support Vector	

•  For all input vectors, tn y(xn ) > 0
•  Maximize margin between
   hyperplane y(x) = 1 and y(x) = 1
                               	
                                                                      6
Support Vector Machine (2)	
•  Optimization problem
                1   2
         arg min kwk .
           w,b  2
                                     T
   subject to the constraints	
 tn (w (x) + b)      1,     n = 1, . . . , N


•  By means of Lagrangian method
                   N
                   X
          y(x) =         an tn k(x, xn ) + b.
                   n=1

   where kernel function is defined by 	
 k(x, x0 ) =    (x)T (x0 )

                  ,and an > 0 is Lagrange multipliers	
                                                                              7
フィーチャーの選択	
•  tf-idf (Term Frequency – Inverse Document
   Frequency)
•  tf-idf の定義            tf-idf(t, d, D) = tf(t, d) ⇥ idf(t, D)
                                     a term	
   a document	
   all document	

•  フィーチャーの定義
                                                    xt,d = tf-idf(t, d, D) ⇥ bt,d
     xd = (xt1 ,d , xt2 ,d , · · · , xtM ,d )              ⇢
                                                               1      if t 2 d
                                                    bt,d =
                                                               0      if t 2 d
                                                                           /

•  ここでのタームは、文書内の語に加えて、形態素の
   品詞POS (part-of-speech)、言語解析ツール
   (Mecab, Cabocha)の出力結果を対象とする    8
文書からフィーチャーベクトルへの変換	
A document	
     東北大学は、NECとの共同研究によりCPU内で使用される電子回路
     (CAM:連想メモリプロセッサ)において、世界で初めて、既存回路と同
     等の高速動作と、処理中に電源を切ってもデータを回路上に保持でき
     る不揮発動作、を両立する技術を開発、実証しました。	

           Feature selection	
                      x = (tf-idf( 産官学	
 , d, D), tf-idf(          協力	
   , d, D),
                           tf-idf( 開始+動詞	
, d, D),tf-idf(         受託+動詞	
 , d, D),
                           tf-idf( 研究+動詞	
, d, D),tf-idf(         実験+動詞	
 , d, D),
                           tf-idf( 開始+名詞,サ変接続	
 , d, D),tf-idf(   発見+動詞	
 , d, D),
                           tf-idf( 研究員	
 , d, D),tf-idf(                     , d, D),
                                                                  研究+名詞,サ変接続	

                           tf-idf( 開発+名詞,サ変接続	
, d, D), tf-idf(     共同	
     , d, D) )

A feature vector	
    x = (0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.1473467, 2.4748564)
                                                                                         9
フィーチャー(1)	
1)         BoW
      –      Bag of Words. Mecab (Japanese morphological analyzer)の出
             力形態素. すべての形態素のtf-idfがフィーチャーベクトル xn を構
             成
2)         BoW(N)
      –      名詞のみ選択
3)         BoW(N-3)
      –      語を固有名詞、一般名詞、名詞-サ変接続に限定
4)         K(14)
      –      産学関連の14のキーワード
             ”研究“, ”開発“, ”実験“, ”成功“, ”発見“, ”開始“, ”受賞“, ”表彰“,
             ”共同“, ”協同“, ”協力“, ”産学“, ”産官学“, ”連携“.
5)         K(18)
      –      K(14) + 4 キーワード
             ”受託“, ”委託“, ”締結“, ”研究員“.

                                                                   10
フィーチャー(2)	
6)         K(18)+NM
      –       18キーワードに後接の形態素の品詞が、動詞、助動詞、名詞-サ
              変接続
7)         Corp.
      –       会社の文字列、記号
      –       ”株式会社“, (株)( an unicode character as U+3231), (株),or
              (株) .
8)         Univ.
      –       大学を示す文字列.
      –       ”大学“, ”大“
9)         C.+U.
      –       一文に、会社と大学の文字列、記号がある
10)  ORG
      –       Cabochaの固有表現抽出機能で、組織にタグ付けされる	

                                                                     11
フィーチャーの選択とSVM カーネル関数	
            TF-IDF feature element	

            (1)          (2)           (3)         (4)        (5)       (6)          (7)        (8)        (9)        (10)
Test ID	
   BoW	
        BoW(N) 	
     BoW(N-3) 	
 K(14) 	
   K(18)	
   K(18)+NM	
   Corp. 	
   Univ. 	
   C.+U. 	
   ORG 	
   Kernel function	
 1-1	
         ✔	
                                                                                                                Linear	
 1-2	
                       ✔	
                                                                                                  Linear	
 1-3	
                                    ✔	
                                                                                     Linear	
 2-1	
                                                 ✔	
                                                                        Linear	
 2-2	
                                                 ✔	
                                                                      Polynomial	
 2-3	
                                                 ✔	
                                                                         RBF	
 3-1	
                                                            ✔	
                                                             Linear	
 3-2	
                                                            ✔	
                                                           Polynomial	
 3-3	
                                                            ✔	
                                                              RBF	
 4-1	
                                                                     ✔	
                                                    Linear	
 4-2	
                                                                     ✔	
                                                  Polynomial	
 4-3	
                                                                     ✔	
                                                     RBF	
 5-1	
                                                                     ✔	
                                           ✔	
      Linear	
 5-2	
                                                                     ✔	
                                           ✔	
    Polynomial	
 5-3	
                                                                     ✔	
                                           ✔	
       RBF	
 6-1	
                                                                     ✔	
           ✔	
        ✔	
                  ✔	
      Linear	
 6-2	
                                                                     ✔	
           ✔	
        ✔	
                  ✔	
    Polynomial	
 6-3	
                                                                     ✔	
           ✔	
        ✔	
                  ✔	
       RBF	
 7-1	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
                Linear	
 7-2	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
              Polynomial	
 7-3	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
                 RBF	
 7-4	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
             RBF ( γ tuned)	
 8-1	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
       ✔	
      Linear	
 8-2	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
       ✔	
    Polynomial	
 8-3	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
       ✔	
       RBF	
 8-4	
                                                                     ✔	
           ✔	
        ✔	
        ✔	
       ✔	
   RBF ( γ tuned)	
                                                                                                                                        12
実験に用いたデータセット	
組織	
       クロールした記事	
               実験に用いる記事	
           正例記事	
      負例記事	
       正例記事	
      負例記事	
東北大学	
          44	
        499	
        44	
        44	
東京大学	
         106	
        848	
       106	
       106	
京都大学            40	
        329	
        40	
        40	
東京工業大学	
        37	
        343	
        37	
        37	
日立製作所	
        103	
        450	
       103	
       103	
Total	
        330	
       2469	
       330	
       330	




                                                            13
SVM分類の結果
                                   (SVM light (Joachims))	
                                        Average points in 10 fold cross validation	
        Test ID	
                       Accuracy	
              Precision	
            Recall	
          F-measure	
          1-1	
                              61.21                   64.04               42.12                 47.28
BoW	
     1-2	
                              60.61                   63.75               40.00                 45.54
          1-3	
                              61.52                   67.44               40.00                 46.72
          2-1	
                              67.58                   72.02               61.52                 63.70
K(14)	
   2-2	
                              58.03                   69.76               23.33                 34.45
          2-3	
                              66.51                   62.53               86.37                 71.89
          3-1	
                              68.18                   72.02               63.33                 64.78
K(18)	
   3-2	
                              57.88                   69.00               23.03                 34.08
          3-3	
                              66.67                   62.22               88.18                 72.43
          4-1	
                              70.61                   74.66               63.64                 67.40
K(18)+NM	
4-2	
                   -	
                     -	
                    -	
               -	
          4-3	
                              70.76                   65.49               90.30                 75.66
          5-1	
                              70.61                   74.61               63.64                 67.31
K(18)+NM, ORG	
          5-2	
                   -	
                     -	
                    -	
               -	
          5-3	
                              70.76                   65.49               90.30                 75.66
          6-1	
                   -	
                     -	
                    -	
               -	
K(18)+NM, Corp, Univ., ORG	
          6-2	
                   -	
                     -	
                    -	
               -	
          6-3	
                              70.15                   64.64               93.64                 76.09
          7-1	
                              78.79                   85.01               71.52                 76.99
K(18)+NM, Corp, Univ., C+U	
          7-2	
          7-3	
                    -	
                          72.27
                                                          -	
                                                                     66.07
                                                                                 -	
                                                                                         94.85
                                                                                                   -	
                                                                                                               77.61
          7-4	
                              80.15                   78.81               83.94                 81.05
          8-1	
                              78.94                   85.03               71.82                 77.16
K(18)+NM, Corp, Univ., C+U, ORG	
          8-2	
          8-3	
                    -	
                                   -	
                    -	
               -	
                                             71.82                   65.73               94.85                 77.35
          8-4	
                              79.85                   78.51               83.94                 80.86
                    - Not calculated because of precision zero or learning optimization fault 	
                 14
SVM分類結果の考察	
•  テストID 1- 1, 1-2, 1-3のフィーチャーの次元は、 それぞ
   れ15800, 13000, 12000。F値から、学習できていない様
   子。次元に対して、データサイズが少なすぎる。
•  テストID 2-1 から 8-3では、フィーチャーの次元は14から
   33。産学連携キーワードによるフィーチャーの詳細化にあ
   わせて、AccuracyとF値は徐々に増加。
•  テストID 7-* and 8-* は、大学と会社の記号の出現に関与。
   特にID 7-3は recall、F値ともに高い。一文に大学と会社
   の記号があることが、産学連携関連として反応しているこ
   とを示している。
•  カーネル関数の選択もスコアに影響する。カーネル関数と
   損失関数のパラメータにより、precisionとrecallのバランス
   をとり、F値を最大化できる。

                                     15
LDA [Blei et.al. 2003]	
トピック数:	
    k
パラメータ:	
   ↵,
トピック分布:	
   ✓
ドキュメント数:	
 M                        2 k ⇥ V matrix
文書 d の単語数:	
N
N 個のトピック:	
 z
N 個の単語:	
   w




          ↵         ✓           z           w   N
                                                     M
  ↵ 2 k-vector                   zn ⇠ Multinomial(✓)
                    ✓ ⇠ Dir(↵)                  N ⇠ Poisson(⇠)
                    ✓ 2 k-vector on (k 1)-simplex                16
LDAモデルの推論	

トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、	
                                 N
                                 Y
    p(✓, z, w|↵, ) = p(✓|↵)            p(zn |✓)p(wn |zn , )
                                 n=1

                                                              ↵    ✓      z        w   N
                                                                                           M
✓ と z で周辺化すると、文書wの確率が得られ、	
                Z       N X
                                                !
                        Y
      p(w|↵, ) = p(✓|↵)     p(zn |✓)p(wn |zn , ) d✓
                                 n=1 zn


さらに、積を取ると、コーパス全体 D の確率が得られる	
                 M     Z                Nd
                                                                         !
                 Y                      Y    X
    p(D|↵, ) =             p(✓ d |↵)             p(zdn |✓ d )p(wdn |zdn , ) d✓ d
                 d=1                   n=1 zdn
                                                                                   17
LDAの直感的イメージ	
     トピック	
                                                                                2.	
                                                                                 文書ごとに	
                                                                   トピック分布	
Topic#1	
    keyword 0.64                                       doc# 1                                                                  doc# 2                                                                  doc# 3                                                                   doc# 4
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    keyword 0.52
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
    keyword 0.49
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
    ………..	
                                                                                                                                                                     文書	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
Topic#2	
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
    keyword 0.89                0 4 8   13   19   25    31   37

                                                        Topics
                                                                  43   49   55   61   67                0 4 8   13   19   25    31   37

                                                                                                                                Topics
                                                                                                                                          43   49   55   61   67                0 4 8   13   19   25    31   37

                                                                                                                                                                                                        Topics
                                                                                                                                                                                                                  43   49   55   61   67                 0 4 8   13   19   25    31   37

                                                                                                                                                                                                                                                                                 Topics
                                                                                                                                                                                                                                                                                           43   49   55   61   67



    keyword 0.82
    keyword 0.76                                       doc# 6                                                                  doc# 7                                                                  doc# 8                                                                   doc# 9
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    ………..	
                                                                                                                                                                                                                                                3.	
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
Topic#3	
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
                                                                                                                                                                                                                                                        トピックトークン	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
    keyword 0.73
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
    keyword 0.68
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
    keyword 0.64                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                 0 4 8   13   19   25    31   37   43   49   55   61   67




                                                                       コーパス	
                                                        Topics                                                                  Topics                                                                  Topics                                                                   Topics

    ………..	
                                                       doc# 11                                                                 doc# 12                                                                 doc# 13                                                                  doc# 14

Topic#4	
                          1.0




                                                                                                  1.0




                                                                                                                                                                          1.0




                                                                                                                                                                                                                                                  1.0




                                                                                                                                                                                                                                                                                                                           1.0
    keyword 0.52
                          0.8




                                                                                                  0.8




                                                                                                                                                                          0.8




                                                                                                                                                                                                                                                  0.8




                                                                                                                                                                                                                                                                                                                           0.8
                          0.6




                                                                                                  0.6




                                                                                                                                                                          0.6




                                                                                                                                                                                                                                                  0.6




                                                                                                                                                                                                                                                                                                                           0.6
    keyword 0.48
                   Freq




                                                                                           Freq




                                                                                                                                                                   Freq




                                                                                                                                                                                                                                           Freq




                                                                                                                                                                                                                                                                                                                    Freq
                                                                                           1.	
                          0.4




                                                                                                  0.4




                                                                                                                                                                          0.4




                                                                                                                                                                                                                                                  0.4




                                                                                                                                                                                                                                                                                                                           0.4
    keyword 0.41
                          0.2




                                                                                                  0.2




                                                                                                                                                                          0.2




                                                                                                                                                                                                                                                  0.2




                                                                                                                                                                                                                                                                                                                           0.2
    ………..	
                          0.0




                                                                                                  0.0




                                                                                                                                                                          0.0




                                                                                                                                                                                                                                                  0.0




                                                                                                                                                                                                                                                                                                                           0.0
                                                                                                                                                                                                                                                        …..	
                                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                0 4 8   13   19   25    31   37   43   49   55   61   67                 0 4 8   13   19   25    31   37   43   49   55   61   67

                                                        Topics                                                                  Topics                                                                  Topics                                                                   Topics




                                                                                                                                                                                                                                                                                                 18
LDAの適用実験	
•  実験データ
   –  SVMの適用実験で用いた入力文書	
•  Mallet
   –  McCallumらによる(2011)
   –  LDAを含む言語処理用機械学習パッケージ
   –  Gibbs sampling
   –  Javaで実装
•  パラメータ設定
   –  Gibbs samplingの回数は2000回
   –  トピック数 60
      •  既知のノイズである語が、トピックを構成する語の特徴として、一
         つのトピックにだけ現れるように設定した	

                                      19
LDAトピックの例	

topic#     Word (weight) [Rank>21]	
[K=60]	
           研究 (326) 連携 (232) 的 (229) 社会 (199) 東京大学 (186) 大学 (147) 共同 (134) 学
           (122) 企業 (105) 者 (100) 分野 (99) 産学 (89) 推進 (87) 東京 (72) 等 (70) 教育 (69) 化
  37	
     (69) 活動 (68) テーマ (67) 大学院 (65)
           温度 (130) プラズマ (73) 超電導 (69) 表面 (56) 化 (54) 粒子 (54) 装置 (46) 線 (40) 低
           温 (36) 分布 (33) 材料 (33) ガス (31) 材 (28) 反応 (28) 分光 (27) ホウ素 (25) 電流 (25)    研究内容	
  43	
     処理 (25) エッチング (24) 高温 (23)
           データ (85) 解析 (81) データベース (77) シミュレーション (75) ストレージ (72) 検索 (71)
           計算 (66) システム (62) 高速 (54) 規模 (51) 文書 (48) 処理 (45) メッシュ (34) エンジン          産学連携の
  49	
     (30) 性能 (30) スパコン (29) 的 (29) 形状 (28) HDD (28) ソフトウェア (27)
           研究 (1313) 技術 (875) 開発 (709) 科学 (334) 年 (270) 世界 (240) 共同 (214) 法人
                                                                                     キーワード	
           (209) 大学 (205) プロジェクト (202) センター (183) 機構 (177) 産業 (174) 株式会社
  55	
     (173) 成果 (157) 的 (157) 事業 (155) 利用 (140) 行政 (132) 研究所 (118)
           東京大学 (315) 発表 (243) 月 (227) 必要 (202) 日 (197) ページ (196) 設定 (190) オン
           (186) リロード (181) JavaScript (176) ブラウザ (174) 表示 (174) 研究 (144) 開催 (118)    ノイズ	
  59	
     年 (109) 者 (103) 下記 (90) 研究所 (89) 内容 (79) 記者 (75)




                                                                                         20
#37 topic probability	




                                                     0.4




                         0
                             0.1
                                   0.2
                                         0.3
                                                                                       0.5
                                                                                             0.6
                                                                                                   0.7
                                                                                                         0.8
                                                                                                               0.9
                                                                                                                     1
                         1
                         9
                        17
                        25
                        33
                        41
                        49
                        57
                        65
                        73
                        81
                        89
                        97
                       105
                       113
                       121
                       129
                       137
                       145
                       153
                       161
                       169
                       177




       Document rank
                       185
                       193
                       201
                       209
                       217
                       225
                       233
                       241
                       249
                       257
                       265
                       273
                       281
                       289
                       297
                       305
                       313
                       321
                                                                      positive documents
                                                 negative documents
                                                                                                                          正例・負例文書ごとの比較	




                       329
                                                                                                                         産学連携関連トピック#37の確率




21
#55 topic probability	




                                                        0.4




                           0
                               0.1
                                     0.2
                                           0.3
                                                                                         0.5
                                                                                               0.6
                                                                                                     0.7
                                                                                                           0.8
                                                                                                                 0.9
                                                                                                                       1
                           1
                           9
                          17
                          25
                          33
                          41
                          49
                          57
                          65
                          73
                          81
                          89
                          97
                         105
                         113
                         121
                         129
                         137
                         145
                         153
                         161
                         169
                         177
                         185




       Document rank	
                         193
                         201
                         209
                         217
                         225
                         233
                         241
                         249
                         257
                         265
                         273
                         281
                         289
                         297
                         305
                         313
                         321
                                                                        positive documents
                                                   negative documents
                                                                                                                            正例・負例文書ごとの比較	




                         329
                                                                                                                           産学連携関連トピック#55の確率




22
LDA適用結果の考察	
•  トピック分類は通常、内容に関する分類に用
   いられるが、産学連携研究関連文書の判別
   に作用できる可能性が示唆された	




                          23
結論と展望	
•  結論
  –  Web上の産学連携関連文書を抽出するフレームワークの提案
    •  SVMによる文書判別
    •  LDAによるトピック分類
  –  SVMによる文書判別では
    •  産学連携キーワードによるフィーチャーの詳細化にあわせて、
       AccuracyとF値は徐々に増加
    •  一文に大学と会社の記号があることが、産学連携関連として反応し
       ている
  –  LDAによるトピック分類では
    •  産学連携研究関連文書の判別に作用できる
•  展望
  –  SVMとLDAを組み合わせた、産学連携関連文書抽出を試みる	


                                    24

More Related Content

What's hot

Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Kota Matsui
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法y-uti
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門TanUkkii
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画までShunji Umetani
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII
 
東大計数特別講義20130528
東大計数特別講義20130528東大計数特別講義20130528
東大計数特別講義20130528Yoichi Motomura
 
それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習Yuki Igarashi
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Satoshi Kato
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)Takuma Yagi
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説Preferred Networks
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術Yoshihiro Mizoguchi
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法Shunji Umetani
 
PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)Hidekazu Oiwa
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデルYuya Yoshikawa
 
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15Matlantis
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案Mitsuo Yamamoto
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理Ryo Nakamura
 

What's hot (20)

Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
潜在ディリクレ配分法
潜在ディリクレ配分法潜在ディリクレ配分法
潜在ディリクレ配分法
 
ディープニューラルネット入門
ディープニューラルネット入門ディープニューラルネット入門
ディープニューラルネット入門
 
FOBOS
FOBOSFOBOS
FOBOS
 
組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで組合せ最適化入門:線形計画から整数計画まで
組合せ最適化入門:線形計画から整数計画まで
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
東大計数特別講義20130528
東大計数特別講義20130528東大計数特別講義20130528
東大計数特別講義20130528
 
それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習
 
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages. Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
Dimensionality reduction with t-SNE(Rtsne) and UMAP(uwot) using R packages.
 
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
オープンワールド認識 (第34回全脳アーキテクチャ若手の会 勉強会)
 
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
LCCC2010:Learning on Cores,  Clusters and Cloudsの解説LCCC2010:Learning on Cores,  Clusters and Cloudsの解説
LCCC2010:Learning on Cores, Clusters and Cloudsの解説
 
Ym20121122
Ym20121122Ym20121122
Ym20121122
 
行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術行列計算を利用したデータ解析技術
行列計算を利用したデータ解析技術
 
大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法大規模な組合せ最適化問題に対する発見的解法
大規模な組合せ最適化問題に対する発見的解法
 
PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)PoisoningAttackSVM (ICMLreading2012)
PoisoningAttackSVM (ICMLreading2012)
 
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
2012-06-15-トピックを考慮したソーシャルネットワーク上の情報拡散モデル
 
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
汎用ニューラルネットワークポテンシャル「PFP」による材料探索_MRS-J2021招待講演_2021/12/15
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案情報検索における評価指標の最新動向と新たな提案
情報検索における評価指標の最新動向と新たな提案
 
機械学習と深層学習の数理
機械学習と深層学習の数理機械学習と深層学習の数理
機械学習と深層学習の数理
 

Similar to 機械学習を用いたWeb上の産学連携関連文書の抽出

楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用についてRakuten Group, Inc.
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarKodaira Tomonori
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用Yuya Unno
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスShintaro Takemura
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究Hirokatsu Kataoka
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generationharmonylab
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) gsis gsis
 
R言語勉強会#4.pdf
R言語勉強会#4.pdfR言語勉強会#4.pdf
R言語勉強会#4.pdfTakuya Kubo
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開Seiya Tokui
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門Yuichiro Kobayashi
 
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出National Institute of Informatics
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkunsYohei Sato
 
kagamicomput201801
kagamicomput201801kagamicomput201801
kagamicomput201801swkagami
 
テーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdfテーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdfTakuya Kubo
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニングgenroku
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vecDeNA
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-Koichi Hamada
 

Similar to 機械学習を用いたWeb上の産学連携関連文書の抽出 (20)

楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について楽天におけるビッグデータとその活用について
楽天におけるビッグデータとその活用について
 
4thNLPDL
4thNLPDL4thNLPDL
4thNLPDL
 
bigdata2012ml okanohara
bigdata2012ml okanoharabigdata2012ml okanohara
bigdata2012ml okanohara
 
Abstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminarAbstractive Text Summarization @Retrieva seminar
Abstractive Text Summarization @Retrieva seminar
 
Chainerの使い方と 自然言語処理への応用
Chainerの使い方と自然言語処理への応用Chainerの使い方と自然言語処理への応用
Chainerの使い方と 自然言語処理への応用
 
WordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービスWordNetで作ろう! 言語横断検索サービス
WordNetで作ろう! 言語横断検索サービス
 
【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究【SSII2015】人を観る技術の先端的研究
【SSII2015】人を観る技術の先端的研究
 
Variational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text GenerationVariational Template Machine for Data-to-Text Generation
Variational Template Machine for Data-to-Text Generation
 
第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授) 第64回情報科学談話会(岡﨑 直観 准教授)
第64回情報科学談話会(岡﨑 直観 准教授)
 
R言語勉強会#4.pdf
R言語勉強会#4.pdfR言語勉強会#4.pdf
R言語勉強会#4.pdf
 
深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開深層学習フレームワーク Chainer の開発と今後の展開
深層学習フレームワーク Chainer の開発と今後の展開
 
LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門LET2011: Rによる教育データ分析入門
LET2011: Rによる教育データ分析入門
 
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
レコードリンケージに基づく科研費分野-WoS分野マッピングの導出
 
Sakuteki02 yokkuns
Sakuteki02 yokkunsSakuteki02 yokkuns
Sakuteki02 yokkuns
 
kagamicomput201801
kagamicomput201801kagamicomput201801
kagamicomput201801
 
テーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdfテーマ別勉強会(R言語)#2.pdf
テーマ別勉強会(R言語)#2.pdf
 
蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング蔵書選定のための学位論文タイトルマイニング
蔵書選定のための学位論文タイトルマイニング
 
ipsjifat201909
ipsjifat201909ipsjifat201909
ipsjifat201909
 
サブカルのためのWord2vec
サブカルのためのWord2vecサブカルのためのWord2vec
サブカルのためのWord2vec
 
ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-ソーシャルデザインパターン -評判と情報収集-
ソーシャルデザインパターン -評判と情報収集-
 

More from National Institute of Informatics

Application of a Novel Subject Classification Scheme for a Bibliographic Data...
Application of a Novel Subject Classification Scheme for a Bibliographic Data...Application of a Novel Subject Classification Scheme for a Bibliographic Data...
Application of a Novel Subject Classification Scheme for a Bibliographic Data...National Institute of Informatics
 
Applying a new subject classification scheme for a database by a data-driven ...
Applying a new subject classification scheme for a database by a data-driven ...Applying a new subject classification scheme for a database by a data-driven ...
Applying a new subject classification scheme for a database by a data-driven ...National Institute of Informatics
 
Toward universal information access on the digital object cloud
Toward universal information access on the digital object cloudToward universal information access on the digital object cloud
Toward universal information access on the digital object cloudNational Institute of Informatics
 
Making data typing efforts or automatically detecting data types for automat...
Making data typing efforts or automatically detecting data types  for automat...Making data typing efforts or automatically detecting data types  for automat...
Making data typing efforts or automatically detecting data types for automat...National Institute of Informatics
 
Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...National Institute of Informatics
 
Emerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksEmerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksNational Institute of Informatics
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較National Institute of Informatics
 
離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出National Institute of Informatics
 
レコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングレコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングNational Institute of Informatics
 
科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用National Institute of Informatics
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -National Institute of Informatics
 
科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析National Institute of Informatics
 
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...National Institute of Informatics
 
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...National Institute of Informatics
 
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -National Institute of Informatics
 
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張National Institute of Informatics
 
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~National Institute of Informatics
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向National Institute of Informatics
 

More from National Institute of Informatics (19)

Application of a Novel Subject Classification Scheme for a Bibliographic Data...
Application of a Novel Subject Classification Scheme for a Bibliographic Data...Application of a Novel Subject Classification Scheme for a Bibliographic Data...
Application of a Novel Subject Classification Scheme for a Bibliographic Data...
 
Applying a new subject classification scheme for a database by a data-driven ...
Applying a new subject classification scheme for a database by a data-driven ...Applying a new subject classification scheme for a database by a data-driven ...
Applying a new subject classification scheme for a database by a data-driven ...
 
Toward universal information access on the digital object cloud
Toward universal information access on the digital object cloudToward universal information access on the digital object cloud
Toward universal information access on the digital object cloud
 
Making data typing efforts or automatically detecting data types for automat...
Making data typing efforts or automatically detecting data types  for automat...Making data typing efforts or automatically detecting data types  for automat...
Making data typing efforts or automatically detecting data types for automat...
 
Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...Applying tensor decompositions to author name disambiguation of common Japane...
Applying tensor decompositions to author name disambiguation of common Japane...
 
Emerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networksEmerging domain agnostic functionalities on the handle-centered networks
Emerging domain agnostic functionalities on the handle-centered networks
 
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較
 
研究者識別子の重要性とORCIDアップデート
研究者識別子の重要性とORCIDアップデート研究者識別子の重要性とORCIDアップデート
研究者識別子の重要性とORCIDアップデート
 
離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出離散一般化ベータ分布を仮定した研究分野マッピングの導出
離散一般化ベータ分布を仮定した研究分野マッピングの導出
 
レコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピングレコードリンケージに基づく科研費分野-WoS分野マッピング
レコードリンケージに基づく科研費分野-WoS分野マッピング
 
科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用科研費分野-トピック分類マトリックスへの主成分分析の適用
科研費分野-トピック分類マトリックスへの主成分分析の適用
 
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
学術情報流通のための識別子とメタデータDBを対象とした融合研究シーズ探索 - 超高層物理学分野における観測データを例として -
 
科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析科研費データベースの分野分類とトピック分類の比較分析
科研費データベースの分野分類とトピック分類の比較分析
 
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
A SVM Applied Text Categorization of Academia-Industry Collaborative Research...
 
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...Researcher Identifiers and National Federated Search Portal for Japanese Inst...
Researcher Identifiers and National Federated Search Portal for Japanese Inst...
 
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
著者の同定・識別について- JAIRO著者名検索プロジェクトへ -
 
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
1.研究者リゾルバーとJAIRO著者名検索、2.KAKENデータベースの機能拡張
 
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
なぜ研究者の名寄せが必要か ~ 世界の動向と研究者リゾルバー ~
 
ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向ORCIDのプロトタイプシステムと著者ID関連技術の動向
ORCIDのプロトタイプシステムと著者ID関連技術の動向
 

機械学習を用いたWeb上の産学連携関連文書の抽出

  • 1. 機械学習を用いた
 Web上の産学連携関連文書の抽出 蔵川 圭1, 孫 媛1, 馬場 康維2 1)国立情報学研究所, 2)統計数理研究所 情報処理学会 第75回全国大会 2013年3月6日〜8日 東北大学 川内キャンパス
  • 2. U-I-G relations •  科学技術政策立案のための情報 University 源として産官学連携の実態を把 U 握することが重要 (Leydesdorff and Meyer, 2003). I G Industry Government •  Web上の情報は実態把握のための有用な情 報源の一つである 2
  • 3. 目的 •  Web上の文書を収集・整理することを前提と して,Web上の大学や企業のプレスリリース に着目し,産学連携関連情報の収集および 分類する手法の構築を目的とする U I G 3
  • 4. Web上の産学連携関連文書を 判別、分類するフレームワーク 大学や企業の Webサイトに掲 載されたプレスリ •  Webから収集した文 リース 書を2つの観点から 分類する 1.  Web文書   クローリング クロール   文書 –  文書の産学連携関連 かどうかの判別 –  産学連携関連文書の 2.  文書からテキストの 抽出 抽出   トピックによる分類 テキスト 3.  文書判別の学習 学習済み   4.  文書判別 5.  トピッククラスタリング モデル 判別結果 トピック分布 4
  • 5. Web上の産学連携関連文書 •  Web文書から抽出したテキストは、内容解析に はノイズが多い –  無関係なテキスト, 例えば、メニューラベルのテキスト、 ページのヘッダとフッタ、広告が残ってしまう •  我々の観察によると –  無関係なテキストは文を構成しない –  産学関連の判定には、関連の根拠は2、3の連続し た形式的な文に現れる •  ”東京大学とオムロン株式会社は、共同研究により、重なり や隠れに強く....” •  句点を含んだテキストをフィルタリングすれば、 形式的な文を十分抽出できる 5
  • 6. Support Vector Machine (1) (Vapnik, 1995) y=1 •  Two class classifier y=0 y(x) = wT (x) + b y= 1 Bias parameter Fixed feature space transformation •  N input vectors margin –  Input vector: x1 , . . . , xN –  Target values: t1 , . . . , tN where tn 2 { 1, 1} Support Vector •  For all input vectors, tn y(xn ) > 0 •  Maximize margin between hyperplane y(x) = 1 and y(x) = 1 6
  • 7. Support Vector Machine (2) •  Optimization problem 1 2 arg min kwk . w,b 2 T subject to the constraints tn (w (x) + b) 1, n = 1, . . . , N •  By means of Lagrangian method N X y(x) = an tn k(x, xn ) + b. n=1 where kernel function is defined by k(x, x0 ) = (x)T (x0 ) ,and an > 0 is Lagrange multipliers 7
  • 8. フィーチャーの選択 •  tf-idf (Term Frequency – Inverse Document Frequency) •  tf-idf の定義 tf-idf(t, d, D) = tf(t, d) ⇥ idf(t, D) a term a document all document •  フィーチャーの定義 xt,d = tf-idf(t, d, D) ⇥ bt,d xd = (xt1 ,d , xt2 ,d , · · · , xtM ,d ) ⇢ 1 if t 2 d bt,d = 0 if t 2 d / •  ここでのタームは、文書内の語に加えて、形態素の 品詞POS (part-of-speech)、言語解析ツール (Mecab, Cabocha)の出力結果を対象とする 8
  • 9. 文書からフィーチャーベクトルへの変換 A document 東北大学は、NECとの共同研究によりCPU内で使用される電子回路 (CAM:連想メモリプロセッサ)において、世界で初めて、既存回路と同 等の高速動作と、処理中に電源を切ってもデータを回路上に保持でき る不揮発動作、を両立する技術を開発、実証しました。 Feature selection x = (tf-idf( 産官学 , d, D), tf-idf( 協力 , d, D), tf-idf( 開始+動詞 , d, D),tf-idf( 受託+動詞 , d, D), tf-idf( 研究+動詞 , d, D),tf-idf( 実験+動詞 , d, D), tf-idf( 開始+名詞,サ変接続 , d, D),tf-idf( 発見+動詞 , d, D), tf-idf( 研究員 , d, D),tf-idf( , d, D), 研究+名詞,サ変接続 tf-idf( 開発+名詞,サ変接続 , d, D), tf-idf( 共同 , d, D) ) A feature vector x = (0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.1473467, 2.4748564) 9
  • 10. フィーチャー(1) 1)  BoW –  Bag of Words. Mecab (Japanese morphological analyzer)の出 力形態素. すべての形態素のtf-idfがフィーチャーベクトル xn を構 成 2)  BoW(N) –  名詞のみ選択 3)  BoW(N-3) –  語を固有名詞、一般名詞、名詞-サ変接続に限定 4)  K(14) –  産学関連の14のキーワード ”研究“, ”開発“, ”実験“, ”成功“, ”発見“, ”開始“, ”受賞“, ”表彰“, ”共同“, ”協同“, ”協力“, ”産学“, ”産官学“, ”連携“. 5)  K(18) –  K(14) + 4 キーワード ”受託“, ”委託“, ”締結“, ”研究員“. 10
  • 11. フィーチャー(2) 6)  K(18)+NM –  18キーワードに後接の形態素の品詞が、動詞、助動詞、名詞-サ 変接続 7)  Corp. –  会社の文字列、記号 –  ”株式会社“, (株)( an unicode character as U+3231), (株),or (株) . 8)  Univ. –  大学を示す文字列. –  ”大学“, ”大“ 9)  C.+U. –  一文に、会社と大学の文字列、記号がある 10)  ORG –  Cabochaの固有表現抽出機能で、組織にタグ付けされる 11
  • 12. フィーチャーの選択とSVM カーネル関数 TF-IDF feature element (1) (2) (3) (4) (5) (6) (7) (8) (9) (10) Test ID BoW BoW(N) BoW(N-3) K(14) K(18) K(18)+NM Corp. Univ. C.+U. ORG Kernel function 1-1 ✔ Linear 1-2 ✔ Linear 1-3 ✔ Linear 2-1 ✔ Linear 2-2 ✔ Polynomial 2-3 ✔ RBF 3-1 ✔ Linear 3-2 ✔ Polynomial 3-3 ✔ RBF 4-1 ✔ Linear 4-2 ✔ Polynomial 4-3 ✔ RBF 5-1 ✔ ✔ Linear 5-2 ✔ ✔ Polynomial 5-3 ✔ ✔ RBF 6-1 ✔ ✔ ✔ ✔ Linear 6-2 ✔ ✔ ✔ ✔ Polynomial 6-3 ✔ ✔ ✔ ✔ RBF 7-1 ✔ ✔ ✔ ✔ Linear 7-2 ✔ ✔ ✔ ✔ Polynomial 7-3 ✔ ✔ ✔ ✔ RBF 7-4 ✔ ✔ ✔ ✔ RBF ( γ tuned) 8-1 ✔ ✔ ✔ ✔ ✔ Linear 8-2 ✔ ✔ ✔ ✔ ✔ Polynomial 8-3 ✔ ✔ ✔ ✔ ✔ RBF 8-4 ✔ ✔ ✔ ✔ ✔ RBF ( γ tuned) 12
  • 13. 実験に用いたデータセット 組織 クロールした記事 実験に用いる記事 正例記事 負例記事 正例記事 負例記事 東北大学 44 499 44 44 東京大学 106 848 106 106 京都大学 40 329 40 40 東京工業大学 37 343 37 37 日立製作所 103 450 103 103 Total 330 2469 330 330 13
  • 14. SVM分類の結果 (SVM light (Joachims)) Average points in 10 fold cross validation Test ID Accuracy Precision Recall F-measure 1-1 61.21 64.04 42.12 47.28 BoW 1-2 60.61 63.75 40.00 45.54 1-3 61.52 67.44 40.00 46.72 2-1 67.58 72.02 61.52 63.70 K(14) 2-2 58.03 69.76 23.33 34.45 2-3 66.51 62.53 86.37 71.89 3-1 68.18 72.02 63.33 64.78 K(18) 3-2 57.88 69.00 23.03 34.08 3-3 66.67 62.22 88.18 72.43 4-1 70.61 74.66 63.64 67.40 K(18)+NM 4-2 - - - - 4-3 70.76 65.49 90.30 75.66 5-1 70.61 74.61 63.64 67.31 K(18)+NM, ORG 5-2 - - - - 5-3 70.76 65.49 90.30 75.66 6-1 - - - - K(18)+NM, Corp, Univ., ORG 6-2 - - - - 6-3 70.15 64.64 93.64 76.09 7-1 78.79 85.01 71.52 76.99 K(18)+NM, Corp, Univ., C+U 7-2 7-3 - 72.27 - 66.07 - 94.85 - 77.61 7-4 80.15 78.81 83.94 81.05 8-1 78.94 85.03 71.82 77.16 K(18)+NM, Corp, Univ., C+U, ORG 8-2 8-3 - - - - 71.82 65.73 94.85 77.35 8-4 79.85 78.51 83.94 80.86 - Not calculated because of precision zero or learning optimization fault 14
  • 15. SVM分類結果の考察 •  テストID 1- 1, 1-2, 1-3のフィーチャーの次元は、 それぞ れ15800, 13000, 12000。F値から、学習できていない様 子。次元に対して、データサイズが少なすぎる。 •  テストID 2-1 から 8-3では、フィーチャーの次元は14から 33。産学連携キーワードによるフィーチャーの詳細化にあ わせて、AccuracyとF値は徐々に増加。 •  テストID 7-* and 8-* は、大学と会社の記号の出現に関与。 特にID 7-3は recall、F値ともに高い。一文に大学と会社 の記号があることが、産学連携関連として反応しているこ とを示している。 •  カーネル関数の選択もスコアに影響する。カーネル関数と 損失関数のパラメータにより、precisionとrecallのバランス をとり、F値を最大化できる。 15
  • 16. LDA [Blei et.al. 2003] トピック数: k パラメータ: ↵, トピック分布: ✓ ドキュメント数: M 2 k ⇥ V matrix 文書 d の単語数: N N 個のトピック: z N 個の単語: w ↵ ✓ z w N M ↵ 2 k-vector zn ⇠ Multinomial(✓) ✓ ⇠ Dir(↵) N ⇠ Poisson(⇠) ✓ 2 k-vector on (k 1)-simplex 16
  • 17. LDAモデルの推論 トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、 N Y p(✓, z, w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) n=1 ↵ ✓ z w N M ✓ と z で周辺化すると、文書wの確率が得られ、 Z N X ! Y p(w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) d✓ n=1 zn さらに、積を取ると、コーパス全体 D の確率が得られる M Z Nd ! Y Y X p(D|↵, ) = p(✓ d |↵) p(zdn |✓ d )p(wdn |zdn , ) d✓ d d=1 n=1 zdn 17
  • 18. LDAの直感的イメージ トピック 2. 文書ごとに トピック分布 Topic#1 keyword 0.64 doc# 1 doc# 2 doc# 3 doc# 4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 keyword 0.49 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq ……….. 文書 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2 Topic#2 0.0 0.0 0.0 0.0 0.0 keyword 0.89 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 keyword 0.82 keyword 0.76 doc# 6 doc# 7 doc# 8 doc# 9 1.0 1.0 1.0 1.0 1.0 ……….. 3. 0.8 0.8 0.8 0.8 0.8 Topic#3 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq トピックトークン 0.4 0.4 0.4 0.4 0.4 keyword 0.73 0.2 0.2 0.2 0.2 0.2 keyword 0.68 0.0 0.0 0.0 0.0 0.0 keyword 0.64 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 コーパス Topics Topics Topics Topics ……….. doc# 11 doc# 12 doc# 13 doc# 14 Topic#4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 keyword 0.48 Freq Freq Freq Freq Freq 1. 0.4 0.4 0.4 0.4 0.4 keyword 0.41 0.2 0.2 0.2 0.2 0.2 ……….. 0.0 0.0 0.0 0.0 0.0 ….. 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 Topics Topics Topics Topics 18
  • 19. LDAの適用実験 •  実験データ –  SVMの適用実験で用いた入力文書 •  Mallet –  McCallumらによる(2011) –  LDAを含む言語処理用機械学習パッケージ –  Gibbs sampling –  Javaで実装 •  パラメータ設定 –  Gibbs samplingの回数は2000回 –  トピック数 60 •  既知のノイズである語が、トピックを構成する語の特徴として、一 つのトピックにだけ現れるように設定した 19
  • 20. LDAトピックの例 topic# Word (weight) [Rank>21] [K=60] 研究 (326) 連携 (232) 的 (229) 社会 (199) 東京大学 (186) 大学 (147) 共同 (134) 学 (122) 企業 (105) 者 (100) 分野 (99) 産学 (89) 推進 (87) 東京 (72) 等 (70) 教育 (69) 化 37 (69) 活動 (68) テーマ (67) 大学院 (65) 温度 (130) プラズマ (73) 超電導 (69) 表面 (56) 化 (54) 粒子 (54) 装置 (46) 線 (40) 低 温 (36) 分布 (33) 材料 (33) ガス (31) 材 (28) 反応 (28) 分光 (27) ホウ素 (25) 電流 (25) 研究内容 43 処理 (25) エッチング (24) 高温 (23) データ (85) 解析 (81) データベース (77) シミュレーション (75) ストレージ (72) 検索 (71) 計算 (66) システム (62) 高速 (54) 規模 (51) 文書 (48) 処理 (45) メッシュ (34) エンジン 産学連携の 49 (30) 性能 (30) スパコン (29) 的 (29) 形状 (28) HDD (28) ソフトウェア (27) 研究 (1313) 技術 (875) 開発 (709) 科学 (334) 年 (270) 世界 (240) 共同 (214) 法人 キーワード (209) 大学 (205) プロジェクト (202) センター (183) 機構 (177) 産業 (174) 株式会社 55 (173) 成果 (157) 的 (157) 事業 (155) 利用 (140) 行政 (132) 研究所 (118) 東京大学 (315) 発表 (243) 月 (227) 必要 (202) 日 (197) ページ (196) 設定 (190) オン (186) リロード (181) JavaScript (176) ブラウザ (174) 表示 (174) 研究 (144) 開催 (118) ノイズ 59 年 (109) 者 (103) 下記 (90) 研究所 (89) 内容 (79) 記者 (75) 20
  • 21. #37 topic probability 0.4 0 0.1 0.2 0.3 0.5 0.6 0.7 0.8 0.9 1 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 Document rank 185 193 201 209 217 225 233 241 249 257 265 273 281 289 297 305 313 321 positive documents negative documents 正例・負例文書ごとの比較 329 産学連携関連トピック#37の確率 21
  • 22. #55 topic probability 0.4 0 0.1 0.2 0.3 0.5 0.6 0.7 0.8 0.9 1 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 185 Document rank 193 201 209 217 225 233 241 249 257 265 273 281 289 297 305 313 321 positive documents negative documents 正例・負例文書ごとの比較 329 産学連携関連トピック#55の確率 22
  • 23. LDA適用結果の考察 •  トピック分類は通常、内容に関する分類に用 いられるが、産学連携研究関連文書の判別 に作用できる可能性が示唆された 23
  • 24. 結論と展望 •  結論 –  Web上の産学連携関連文書を抽出するフレームワークの提案 •  SVMによる文書判別 •  LDAによるトピック分類 –  SVMによる文書判別では •  産学連携キーワードによるフィーチャーの詳細化にあわせて、 AccuracyとF値は徐々に増加 •  一文に大学と会社の記号があることが、産学連携関連として反応し ている –  LDAによるトピック分類では •  産学連携研究関連文書の判別に作用できる •  展望 –  SVMとLDAを組み合わせた、産学連携関連文書抽出を試みる 24