機械学習を用いた
Web上の産学連携関連文書の抽出	    蔵川 圭1, 孫 媛1, 馬場 康維2 1)国立情報学研究所, 2)統計数理研究所	                  情報処理学会 第75回全国大会                 ...
U-I-G relations	•  科学技術政策立案のための情報              University	   源として産官学連携の実態を把                   U	   握することが重要 (Leydesdorff  ...
目的	•  Web上の文書を収集・整理することを前提と   して,Web上の大学や企業のプレスリリース   に着目し,産学連携関連情報の収集および   分類する手法の構築を目的とする 	            U	      I	       ...
Web上の産学連携関連文書を 判別、分類するフレームワーク	  大学や企業の Webサイトに掲 載されたプレスリ                                  •  Webから収集した文    リース	           ...
Web上の産学連携関連文書	•  Web文書から抽出したテキストは、内容解析に   はノイズが多い –  無関係なテキスト, 例えば、メニューラベルのテキスト、    ページのヘッダとフッタ、広告が残ってしまう•  我々の観察によると –  無...
Support Vector Machine (1)          (Vapnik, 1995)	                                                              y=1•  Two...
Support Vector Machine (2)	•  Optimization problem                1   2         arg min kwk .           w,b  2            ...
フィーチャーの選択	•  tf-idf (Term Frequency – Inverse Document   Frequency)•  tf-idf の定義            tf-idf(t, d, D) = tf(t, d) ⇥ i...
文書からフィーチャーベクトルへの変換	A document	     東北大学は、NECとの共同研究によりCPU内で使用される電子回路     (CAM:連想メモリプロセッサ)において、世界で初めて、既存回路と同     等の高速動作と、処理中...
フィーチャー(1)	1)         BoW      –      Bag of Words. Mecab (Japanese morphological analyzer)の出             力形態素. すべての形態素のtf-...
フィーチャー(2)	6)         K(18)+NM      –       18キーワードに後接の形態素の品詞が、動詞、助動詞、名詞-サ              変接続7)         Corp.      –       会社...
フィーチャーの選択とSVM カーネル関数	            TF-IDF feature element	            (1)          (2)           (3)         (4)        (5) ...
実験に用いたデータセット	組織	       クロールした記事	               実験に用いる記事	           正例記事	      負例記事	       正例記事	      負例記事	東北大学	          4...
SVM分類の結果                                   (SVM light (Joachims))	                                        Average points i...
SVM分類結果の考察	•  テストID 1- 1, 1-2, 1-3のフィーチャーの次元は、 それぞ   れ15800, 13000, 12000。F値から、学習できていない様   子。次元に対して、データサイズが少なすぎる。•  テストID ...
LDA [Blei et.al. 2003]	トピック数:	    kパラメータ:	   ↵,トピック分布:	   ✓ドキュメント数:	 M                        2 k ⇥ V matrix文書 d の単語数:	NN ...
LDAモデルの推論	トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、	                                 N                                 Y    p...
LDAの直感的イメージ	     トピック	                                                                                2.	                 ...
LDAの適用実験	•  実験データ   –  SVMの適用実験で用いた入力文書	•  Mallet   –  McCallumらによる(2011)   –  LDAを含む言語処理用機械学習パッケージ   –  Gibbs sampling   ...
LDAトピックの例	topic#     Word (weight) [Rank>21]	[K=60]	           研究 (326) 連携 (232) 的 (229) 社会 (199) 東京大学 (186) 大学 (147) 共同 (...
#37 topic probability	                                                     0.4                         0                  ...
#55 topic probability	                                                        0.4                           0             ...
LDA適用結果の考察	•  トピック分類は通常、内容に関する分類に用   いられるが、産学連携研究関連文書の判別   に作用できる可能性が示唆された	                          23
結論と展望	•  結論  –  Web上の産学連携関連文書を抽出するフレームワークの提案    •  SVMによる文書判別    •  LDAによるトピック分類  –  SVMによる文書判別では    •  産学連携キーワードによるフィーチャー...
Upcoming SlideShare
Loading in …5
×

機械学習を用いたWeb上の産学連携関連文書の抽出

831 views

Published on

情報処理学会 第75回全国大会
2013年3月6日〜8日 東北大学 川内キャンパス

  • Be the first to comment

  • Be the first to like this

機械学習を用いたWeb上の産学連携関連文書の抽出

  1. 1. 機械学習を用いた
Web上の産学連携関連文書の抽出 蔵川 圭1, 孫 媛1, 馬場 康維2 1)国立情報学研究所, 2)統計数理研究所 情報処理学会 第75回全国大会 2013年3月6日〜8日 東北大学 川内キャンパス
  2. 2. U-I-G relations •  科学技術政策立案のための情報 University 源として産官学連携の実態を把 U 握することが重要 (Leydesdorff and Meyer, 2003). I G Industry Government •  Web上の情報は実態把握のための有用な情 報源の一つである 2
  3. 3. 目的 •  Web上の文書を収集・整理することを前提と して,Web上の大学や企業のプレスリリース に着目し,産学連携関連情報の収集および 分類する手法の構築を目的とする U I G 3
  4. 4. Web上の産学連携関連文書を 判別、分類するフレームワーク 大学や企業の Webサイトに掲 載されたプレスリ •  Webから収集した文 リース 書を2つの観点から 分類する 1.  Web文書   クローリング クロール   文書 –  文書の産学連携関連 かどうかの判別 –  産学連携関連文書の2.  文書からテキストの 抽出 抽出   トピックによる分類 テキスト 3.  文書判別の学習 学習済み   4.  文書判別 5.  トピッククラスタリング モデル 判別結果 トピック分布 4
  5. 5. Web上の産学連携関連文書 •  Web文書から抽出したテキストは、内容解析に はノイズが多い –  無関係なテキスト, 例えば、メニューラベルのテキスト、 ページのヘッダとフッタ、広告が残ってしまう•  我々の観察によると –  無関係なテキストは文を構成しない –  産学関連の判定には、関連の根拠は2、3の連続し た形式的な文に現れる •  ”東京大学とオムロン株式会社は、共同研究により、重なり や隠れに強く....”•  句点を含んだテキストをフィルタリングすれば、 形式的な文を十分抽出できる 5
  6. 6. Support Vector Machine (1) (Vapnik, 1995) y=1•  Two class classifier y=0 y(x) = wT (x) + b y= 1 Bias parameter Fixed feature space transformation •  N input vectors margin –  Input vector: x1 , . . . , xN –  Target values: t1 , . . . , tN where tn 2 { 1, 1} Support Vector •  For all input vectors, tn y(xn ) > 0•  Maximize margin between hyperplane y(x) = 1 and y(x) = 1 6
  7. 7. Support Vector Machine (2) •  Optimization problem 1 2 arg min kwk . w,b 2 T subject to the constraints tn (w (x) + b) 1, n = 1, . . . , N•  By means of Lagrangian method N X y(x) = an tn k(x, xn ) + b. n=1 where kernel function is defined by k(x, x0 ) = (x)T (x0 ) ,and an > 0 is Lagrange multipliers 7
  8. 8. フィーチャーの選択 •  tf-idf (Term Frequency – Inverse Document Frequency)•  tf-idf の定義 tf-idf(t, d, D) = tf(t, d) ⇥ idf(t, D) a term a document all document •  フィーチャーの定義 xt,d = tf-idf(t, d, D) ⇥ bt,d xd = (xt1 ,d , xt2 ,d , · · · , xtM ,d ) ⇢ 1 if t 2 d bt,d = 0 if t 2 d /•  ここでのタームは、文書内の語に加えて、形態素の 品詞POS (part-of-speech)、言語解析ツール (Mecab, Cabocha)の出力結果を対象とする 8
  9. 9. 文書からフィーチャーベクトルへの変換 A document 東北大学は、NECとの共同研究によりCPU内で使用される電子回路 (CAM:連想メモリプロセッサ)において、世界で初めて、既存回路と同 等の高速動作と、処理中に電源を切ってもデータを回路上に保持でき る不揮発動作、を両立する技術を開発、実証しました。 Feature selection x = (tf-idf( 産官学 , d, D), tf-idf( 協力 , d, D), tf-idf( 開始+動詞 , d, D),tf-idf( 受託+動詞 , d, D), tf-idf( 研究+動詞 , d, D),tf-idf( 実験+動詞 , d, D), tf-idf( 開始+名詞,サ変接続 , d, D),tf-idf( 発見+動詞 , d, D), tf-idf( 研究員 , d, D),tf-idf( , d, D), 研究+名詞,サ変接続 tf-idf( 開発+名詞,サ変接続 , d, D), tf-idf( 共同 , d, D) )A feature vector x = (0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.1473467, 2.4748564) 9
  10. 10. フィーチャー(1) 1)  BoW –  Bag of Words. Mecab (Japanese morphological analyzer)の出 力形態素. すべての形態素のtf-idfがフィーチャーベクトル xn を構 成2)  BoW(N) –  名詞のみ選択3)  BoW(N-3) –  語を固有名詞、一般名詞、名詞-サ変接続に限定4)  K(14) –  産学関連の14のキーワード ”研究“, ”開発“, ”実験“, ”成功“, ”発見“, ”開始“, ”受賞“, ”表彰“, ”共同“, ”協同“, ”協力“, ”産学“, ”産官学“, ”連携“.5)  K(18) –  K(14) + 4 キーワード ”受託“, ”委託“, ”締結“, ”研究員“. 10
  11. 11. フィーチャー(2) 6)  K(18)+NM –  18キーワードに後接の形態素の品詞が、動詞、助動詞、名詞-サ 変接続7)  Corp. –  会社の文字列、記号 –  ”株式会社“, (株)( an unicode character as U+3231), (株),or (株) .8)  Univ. –  大学を示す文字列. –  ”大学“, ”大“9)  C.+U. –  一文に、会社と大学の文字列、記号がある10)  ORG –  Cabochaの固有表現抽出機能で、組織にタグ付けされる 11
  12. 12. フィーチャーの選択とSVM カーネル関数 TF-IDF feature element (1) (2) (3) (4) (5) (6) (7) (8) (9) (10)Test ID BoW BoW(N) BoW(N-3) K(14) K(18) K(18)+NM Corp. Univ. C.+U. ORG Kernel function 1-1 ✔ Linear 1-2 ✔ Linear 1-3 ✔ Linear 2-1 ✔ Linear 2-2 ✔ Polynomial 2-3 ✔ RBF 3-1 ✔ Linear 3-2 ✔ Polynomial 3-3 ✔ RBF 4-1 ✔ Linear 4-2 ✔ Polynomial 4-3 ✔ RBF 5-1 ✔ ✔ Linear 5-2 ✔ ✔ Polynomial 5-3 ✔ ✔ RBF 6-1 ✔ ✔ ✔ ✔ Linear 6-2 ✔ ✔ ✔ ✔ Polynomial 6-3 ✔ ✔ ✔ ✔ RBF 7-1 ✔ ✔ ✔ ✔ Linear 7-2 ✔ ✔ ✔ ✔ Polynomial 7-3 ✔ ✔ ✔ ✔ RBF 7-4 ✔ ✔ ✔ ✔ RBF ( γ tuned) 8-1 ✔ ✔ ✔ ✔ ✔ Linear 8-2 ✔ ✔ ✔ ✔ ✔ Polynomial 8-3 ✔ ✔ ✔ ✔ ✔ RBF 8-4 ✔ ✔ ✔ ✔ ✔ RBF ( γ tuned) 12
  13. 13. 実験に用いたデータセット 組織 クロールした記事 実験に用いる記事 正例記事 負例記事 正例記事 負例記事 東北大学 44 499 44 44 東京大学 106 848 106 106 京都大学 40 329 40 40 東京工業大学 37 343 37 37 日立製作所 103 450 103 103 Total 330 2469 330 330 13
  14. 14. SVM分類の結果 (SVM light (Joachims)) Average points in 10 fold cross validation Test ID Accuracy Precision Recall F-measure 1-1 61.21 64.04 42.12 47.28BoW 1-2 60.61 63.75 40.00 45.54 1-3 61.52 67.44 40.00 46.72 2-1 67.58 72.02 61.52 63.70K(14) 2-2 58.03 69.76 23.33 34.45 2-3 66.51 62.53 86.37 71.89 3-1 68.18 72.02 63.33 64.78K(18) 3-2 57.88 69.00 23.03 34.08 3-3 66.67 62.22 88.18 72.43 4-1 70.61 74.66 63.64 67.40K(18)+NM 4-2 - - - - 4-3 70.76 65.49 90.30 75.66 5-1 70.61 74.61 63.64 67.31K(18)+NM, ORG 5-2 - - - - 5-3 70.76 65.49 90.30 75.66 6-1 - - - - K(18)+NM, Corp, Univ., ORG 6-2 - - - - 6-3 70.15 64.64 93.64 76.09 7-1 78.79 85.01 71.52 76.99K(18)+NM, Corp, Univ., C+U 7-2 7-3 - 72.27 - 66.07 - 94.85 - 77.61 7-4 80.15 78.81 83.94 81.05 8-1 78.94 85.03 71.82 77.16K(18)+NM, Corp, Univ., C+U, ORG 8-2 8-3 - - - - 71.82 65.73 94.85 77.35 8-4 79.85 78.51 83.94 80.86 - Not calculated because of precision zero or learning optimization fault 14
  15. 15. SVM分類結果の考察 •  テストID 1- 1, 1-2, 1-3のフィーチャーの次元は、 それぞ れ15800, 13000, 12000。F値から、学習できていない様 子。次元に対して、データサイズが少なすぎる。•  テストID 2-1 から 8-3では、フィーチャーの次元は14から 33。産学連携キーワードによるフィーチャーの詳細化にあ わせて、AccuracyとF値は徐々に増加。•  テストID 7-* and 8-* は、大学と会社の記号の出現に関与。 特にID 7-3は recall、F値ともに高い。一文に大学と会社 の記号があることが、産学連携関連として反応しているこ とを示している。•  カーネル関数の選択もスコアに影響する。カーネル関数と 損失関数のパラメータにより、precisionとrecallのバランス をとり、F値を最大化できる。 15
  16. 16. LDA [Blei et.al. 2003] トピック数: kパラメータ: ↵,トピック分布: ✓ドキュメント数: M 2 k ⇥ V matrix文書 d の単語数: NN 個のトピック: zN 個の単語: w ↵ ✓ z w N M ↵ 2 k-vector zn ⇠ Multinomial(✓) ✓ ⇠ Dir(↵) N ⇠ Poisson(⇠) ✓ 2 k-vector on (k 1)-simplex 16
  17. 17. LDAモデルの推論 トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、 N Y p(✓, z, w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) n=1 ↵ ✓ z w N M✓ と z で周辺化すると、文書wの確率が得られ、 Z N X ! Y p(w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) d✓ n=1 znさらに、積を取ると、コーパス全体 D の確率が得られる M Z Nd ! Y Y X p(D|↵, ) = p(✓ d |↵) p(zdn |✓ d )p(wdn |zdn , ) d✓ d d=1 n=1 zdn 17
  18. 18. LDAの直感的イメージ トピック 2. 文書ごとに トピック分布 Topic#1 keyword 0.64 doc# 1 doc# 2 doc# 3 doc# 4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 keyword 0.49 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq ……….. 文書 0.4 0.4 0.4 0.4 0.4 0.2 0.2 0.2 0.2 0.2Topic#2 0.0 0.0 0.0 0.0 0.0 keyword 0.89 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 0 4 8 13 19 25 31 37 Topics 43 49 55 61 67 keyword 0.82 keyword 0.76 doc# 6 doc# 7 doc# 8 doc# 9 1.0 1.0 1.0 1.0 1.0 ……….. 3. 0.8 0.8 0.8 0.8 0.8Topic#3 0.6 0.6 0.6 0.6 0.6 Freq Freq Freq Freq Freq トピックトークン 0.4 0.4 0.4 0.4 0.4 keyword 0.73 0.2 0.2 0.2 0.2 0.2 keyword 0.68 0.0 0.0 0.0 0.0 0.0 keyword 0.64 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 コーパス Topics Topics Topics Topics ……….. doc# 11 doc# 12 doc# 13 doc# 14Topic#4 1.0 1.0 1.0 1.0 1.0 keyword 0.52 0.8 0.8 0.8 0.8 0.8 0.6 0.6 0.6 0.6 0.6 keyword 0.48 Freq Freq Freq Freq Freq 1. 0.4 0.4 0.4 0.4 0.4 keyword 0.41 0.2 0.2 0.2 0.2 0.2 ……….. 0.0 0.0 0.0 0.0 0.0 ….. 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 Topics Topics Topics Topics 18
  19. 19. LDAの適用実験 •  実験データ –  SVMの適用実験で用いた入力文書 •  Mallet –  McCallumらによる(2011) –  LDAを含む言語処理用機械学習パッケージ –  Gibbs sampling –  Javaで実装•  パラメータ設定 –  Gibbs samplingの回数は2000回 –  トピック数 60 •  既知のノイズである語が、トピックを構成する語の特徴として、一 つのトピックにだけ現れるように設定した 19
  20. 20. LDAトピックの例 topic# Word (weight) [Rank>21] [K=60] 研究 (326) 連携 (232) 的 (229) 社会 (199) 東京大学 (186) 大学 (147) 共同 (134) 学 (122) 企業 (105) 者 (100) 分野 (99) 産学 (89) 推進 (87) 東京 (72) 等 (70) 教育 (69) 化 37 (69) 活動 (68) テーマ (67) 大学院 (65) 温度 (130) プラズマ (73) 超電導 (69) 表面 (56) 化 (54) 粒子 (54) 装置 (46) 線 (40) 低 温 (36) 分布 (33) 材料 (33) ガス (31) 材 (28) 反応 (28) 分光 (27) ホウ素 (25) 電流 (25) 研究内容 43 処理 (25) エッチング (24) 高温 (23) データ (85) 解析 (81) データベース (77) シミュレーション (75) ストレージ (72) 検索 (71) 計算 (66) システム (62) 高速 (54) 規模 (51) 文書 (48) 処理 (45) メッシュ (34) エンジン 産学連携の 49 (30) 性能 (30) スパコン (29) 的 (29) 形状 (28) HDD (28) ソフトウェア (27) 研究 (1313) 技術 (875) 開発 (709) 科学 (334) 年 (270) 世界 (240) 共同 (214) 法人 キーワード (209) 大学 (205) プロジェクト (202) センター (183) 機構 (177) 産業 (174) 株式会社 55 (173) 成果 (157) 的 (157) 事業 (155) 利用 (140) 行政 (132) 研究所 (118) 東京大学 (315) 発表 (243) 月 (227) 必要 (202) 日 (197) ページ (196) 設定 (190) オン (186) リロード (181) JavaScript (176) ブラウザ (174) 表示 (174) 研究 (144) 開催 (118) ノイズ 59 年 (109) 者 (103) 下記 (90) 研究所 (89) 内容 (79) 記者 (75) 20
  21. 21. #37 topic probability 0.4 0 0.1 0.2 0.3 0.5 0.6 0.7 0.8 0.9 1 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 Document rank 185 193 201 209 217 225 233 241 249 257 265 273 281 289 297 305 313 321 positive documents negative documents 正例・負例文書ごとの比較 329 産学連携関連トピック#37の確率21
  22. 22. #55 topic probability 0.4 0 0.1 0.2 0.3 0.5 0.6 0.7 0.8 0.9 1 1 9 17 25 33 41 49 57 65 73 81 89 97 105 113 121 129 137 145 153 161 169 177 185 Document rank 193 201 209 217 225 233 241 249 257 265 273 281 289 297 305 313 321 positive documents negative documents 正例・負例文書ごとの比較 329 産学連携関連トピック#55の確率22
  23. 23. LDA適用結果の考察 •  トピック分類は通常、内容に関する分類に用 いられるが、産学連携研究関連文書の判別 に作用できる可能性が示唆された 23
  24. 24. 結論と展望 •  結論 –  Web上の産学連携関連文書を抽出するフレームワークの提案 •  SVMによる文書判別 •  LDAによるトピック分類 –  SVMによる文書判別では •  産学連携キーワードによるフィーチャーの詳細化にあわせて、 AccuracyとF値は徐々に増加 •  一文に大学と会社の記号があることが、産学連携関連として反応し ている –  LDAによるトピック分類では •  産学連携研究関連文書の判別に作用できる•  展望 –  SVMとLDAを組み合わせた、産学連携関連文書抽出を試みる 24

×