機械学習を用いたWeb上の産学連携関連文書の抽出

機械学習を用いた 
Web上の産学連携関連文書の抽出
蔵川圭1, 孫媛1, 馬場康維2

1)国立情報学研究所, 2)統計数理研究所

情報処理学会第75回全国大会
2013年3月6日〜８日東北大学川内キャンパス

U-I-G relations
•  科学技術政策立案のための情報 University

源として産官学連携の実態を把 U
握することが重要 (Leydesdorff
and Meyer, 2003).
I
G
Industry
Government

•  Web上の情報は実態把握のための有用な情
報源の一つである

2

目的
•  Web上の文書を収集・整理することを前提と
して，Web上の大学や企業のプレスリリース
に着目し，産学連携関連情報の収集および
分類する手法の構築を目的とする

U

I
G

3

Web上の産学連携関連文書を
判別、分類するフレームワーク
大学や企業の
Webサイトに掲
載されたプレスリ
•  Webから収集した文
リース
書を２つの観点から
分類する
1.
Web文書

クローリング
クロール

文書
–  文書の産学連携関連
かどうかの判別
–  産学連携関連文書の
2.
文書からテキストの
抽出
抽出
トピックによる分類
テキスト

3.
文書判別の学習
学習済み
4.
文書判別
5.
トピッククラスタリング
モデル

判別結果
トピック分布
4

Web上の産学連携関連文書
•  Web文書から抽出したテキストは、内容解析に
はノイズが多い
–  無関係なテキスト, 例えば、メニューラベルのテキスト、
ページのヘッダとフッタ、広告が残ってしまう
•  我々の観察によると
–  無関係なテキストは文を構成しない
–  産学関連の判定には、関連の根拠は２、３の連続し
た形式的な文に現れる
•  ”東京大学とオムロン株式会社は、共同研究により、重なり
や隠れに強く....”
•  句点を含んだテキストをフィルタリングすれば、
形式的な文を十分抽出できる
5

Support Vector Machine (1)
(Vapnik, 1995)
y=1
•  Two class classifier y=0
y(x) = wT (x) + b y= 1

Bias parameter
Fixed feature space transformation
•  N input vectors
margin
–  Input vector: x1 , . . . , xN
–  Target values: t1 , . . . , tN where tn 2 { 1, 1} Support Vector

•  For all input vectors, tn y(xn ) > 0
•  Maximize margin between
hyperplane y(x) = 1 and y(x) = 1

6

Support Vector Machine (2)
•  Optimization problem
1 2
arg min kwk .
w,b 2
T
subject to the constraints
tn (w (x) + b) 1, n = 1, . . . , N

•  By means of Lagrangian method
N
X
y(x) = an tn k(x, xn ) + b.
n=1

where kernel function is defined by
k(x, x0 ) = (x)T (x0 )

,and an > 0 is Lagrange multipliers
7

フィーチャーの選択
•  tf-idf (Term Frequency – Inverse Document
Frequency)
•  tf-idf の定義 tf-idf(t, d, D) = tf(t, d) ⇥ idf(t, D)
a term
a document
all document

•  フィーチャーの定義
xt,d = tf-idf(t, d, D) ⇥ bt,d
xd = (xt1 ,d , xt2 ,d , · · · , xtM ,d ) ⇢
1 if t 2 d
bt,d =
0 if t 2 d
/

•  ここでのタームは、文書内の語に加えて、形態素の
品詞POS (part-of-speech)、言語解析ツール
(Mecab, Cabocha)の出力結果を対象とする 8

文書からフィーチャーベクトルへの変換
A document
東北大学は、ＮＥＣとの共同研究によりCPU内で使用される電子回路
（CAM：連想メモリプロセッサ）において、世界で初めて、既存回路と同
等の高速動作と、処理中に電源を切ってもデータを回路上に保持でき
る不揮発動作、を両立する技術を開発、実証しました。

Feature selection
x = (tf-idf( 産官学
, d, D), tf-idf( 協力
, d, D),
tf-idf( 開始+動詞
, d, D),tf-idf( 受託+動詞
, d, D),
tf-idf( 研究+動詞
, d, D),tf-idf( 実験+動詞
, d, D),
tf-idf( 開始+名詞,サ変接続
, d, D),tf-idf( 発見+動詞
, d, D),
tf-idf( 研究員
, d, D),tf-idf( , d, D),
研究+名詞,サ変接続

tf-idf( 開発+名詞,サ変接続
, d, D), tf-idf( 共同
, d, D) )

A feature vector
x = (0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 0.0, 2.1473467, 2.4748564)
9

フィーチャー(1)
1)  BoW
–  Bag of Words. Mecab (Japanese morphological analyzer)の出
力形態素. すべての形態素のtf-idfがフィーチャーベクトル xn を構
成
2)  BoW(N)
–  名詞のみ選択
3)  BoW(N-3)
–  語を固有名詞、一般名詞、名詞-サ変接続に限定
4)  K(14)
–  産学関連の１４のキーワード
”研究“, ”開発“, ”実験“, ”成功“, ”発見“, ”開始“, ”受賞“, ”表彰“,
”共同“, ”協同“, ”協力“, ”産学“, ”産官学“, ”連携“.
5)  K(18)
–  K(14) + 4 キーワード
”受託“, ”委託“, ”締結“, ”研究員“.

10

フィーチャー(2)
6)  K(18)+NM
–  １８キーワードに後接の形態素の品詞が、動詞、助動詞、名詞-サ
変接続
7)  Corp.
–  会社の文字列、記号
–  ”株式会社“, (株)( an unicode character as U+3231), (株),or
(株) .
8)  Univ.
–  大学を示す文字列.
–  ”大学“, ”大“
9)  C.+U.
–  一文に、会社と大学の文字列、記号がある
10)  ORG
–  Cabochaの固有表現抽出機能で、組織にタグ付けされる

11

フィーチャーの選択とSVM カーネル関数
TF-IDF feature element

(1) (2) (3) (4) (5) (6) (7) (8) (9) (10)
Test ID
BoW
BoW(N)
BoW(N-3)
K(14)
K(18)
K(18)+NM
Corp.
Univ.
C.+U.
ORG
Kernel function
1-1
✔
Linear
1-2
✔
Linear
1-3
✔
Linear
2-1
✔
Linear
2-2
✔
Polynomial
2-3
✔
RBF
3-1
✔
Linear
3-2
✔
Polynomial
3-3
✔
RBF
4-1
✔
Linear
4-2
✔
Polynomial
4-3
✔
RBF
5-1
✔
✔
Linear
5-2
✔
✔
Polynomial
5-3
✔
✔
RBF
6-1
✔
✔
✔
✔
Linear
6-2
✔
✔
✔
✔
Polynomial
6-3
✔
✔
✔
✔
RBF
7-1
✔
✔
✔
✔
Linear
7-2
✔
✔
✔
✔
Polynomial
7-3
✔
✔
✔
✔
RBF
7-4
✔
✔
✔
✔
RBF ( γ tuned)
8-1
✔
✔
✔
✔
✔
Linear
8-2
✔
✔
✔
✔
✔
Polynomial
8-3
✔
✔
✔
✔
✔
RBF
8-4
✔
✔
✔
✔
✔
RBF ( γ tuned)
12

実験に用いたデータセット
組織
クロールした記事
実験に用いる記事
正例記事
負例記事
正例記事
負例記事
東北大学
44
499
44
44
東京大学
106
848
106
106
京都大学 40
329
40
40
東京工業大学
37
343
37
37
日立製作所
103
450
103
103
Total
330
2469
330
330

13

SVM分類の結果
(SVM light (Joachims))
Average points in 10 fold cross validation
Test ID
Accuracy
Precision
Recall
F-measure
1-1
61.21 64.04 42.12 47.28
BoW
1-2
60.61 63.75 40.00 45.54
1-3
61.52 67.44 40.00 46.72
2-1
67.58 72.02 61.52 63.70
K(14)
2-2
58.03 69.76 23.33 34.45
2-3
66.51 62.53 86.37 71.89
3-1
68.18 72.02 63.33 64.78
K(18)
3-2
57.88 69.00 23.03 34.08
3-3
66.67 62.22 88.18 72.43
4-1
70.61 74.66 63.64 67.40
K(18)+NM
4-2
-
-
-
-
4-3
70.76 65.49 90.30 75.66
5-1
70.61 74.61 63.64 67.31
K(18)+NM, ORG
5-2
-
-
-
-
5-3
70.76 65.49 90.30 75.66
6-1
-
-
-
-
K(18)+NM, Corp, Univ., ORG
6-2
-
-
-
-
6-3
70.15 64.64 93.64 76.09
7-1
78.79 85.01 71.52 76.99
K(18)+NM, Corp, Univ., C+U
7-2
7-3
-
72.27
-
66.07
-
94.85
-
77.61
7-4
80.15 78.81 83.94 81.05
8-1
78.94 85.03 71.82 77.16
K(18)+NM, Corp, Univ., C+U, ORG
8-2
8-3
-
-
-
-
71.82 65.73 94.85 77.35
8-4
79.85 78.51 83.94 80.86
- Not calculated because of precision zero or learning optimization fault
14

SVM分類結果の考察
•  テストID 1- 1, 1-2, 1-3のフィーチャーの次元は、それぞ
れ15800, 13000, 12000。F値から、学習できていない様
子。次元に対して、データサイズが少なすぎる。
•  テストID 2-1 から 8-3では、フィーチャーの次元は14から
33。産学連携キーワードによるフィーチャーの詳細化にあ
わせて、AccuracyとF値は徐々に増加。
•  テストID 7-* and 8-* は、大学と会社の記号の出現に関与。
特にID 7-3は recall、F値ともに高い。一文に大学と会社
の記号があることが、産学連携関連として反応しているこ
とを示している。
•  カーネル関数の選択もスコアに影響する。カーネル関数と
損失関数のパラメータにより、precisionとrecallのバランス
をとり、F値を最大化できる。

15

LDA [Blei et.al. 2003]
トピック数：
k
パラメータ:
↵,
トピック分布:
✓
ドキュメント数:
M 2 k ⇥ V matrix
文書 d の単語数:
N
N 個のトピック:
z
N 個の単語:
w

↵ ✓ z w N
M
↵ 2 k-vector zn ⇠ Multinomial(✓)
✓ ⇠ Dir(↵) N ⇠ Poisson(⇠)
✓ 2 k-vector on (k 1)-simplex 16

LDAモデルの推論

トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、
N
Y
p(✓, z, w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , )
n=1

↵ ✓ z w N
M
✓ と z で周辺化すると、文書wの確率が得られ、
Z N X
!
Y
p(w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) d✓
n=1 zn

さらに、積を取ると、コーパス全体 D の確率が得られる
M Z Nd
!
Y Y X
p(D|↵, ) = p(✓ d |↵) p(zdn |✓ d )p(wdn |zdn , ) d✓ d
d=1 n=1 zdn
17

LDAの直感的イメージ
トピック
2.
文書ごとに
トピック分布
Topic#1
keyword 0.64 doc# 1 doc# 2 doc# 3 doc# 4
1.0

1.0

1.0

1.0

1.0
keyword 0.52
0.8

0.8

0.8

0.8

0.8
keyword 0.49
0.6

0.6

0.6

0.6

0.6
Freq

Freq

Freq

Freq

Freq
………..
文書
0.4

0.4

0.4

0.4

0.4
0.2

0.2

0.2

0.2

0.2
Topic#2
0.0

0.0

0.0

0.0

0.0
keyword 0.89 0 4 8 13 19 25 31 37

Topics
43 49 55 61 67 0 4 8 13 19 25 31 37

Topics
43 49 55 61 67 0 4 8 13 19 25 31 37

Topics
43 49 55 61 67 0 4 8 13 19 25 31 37

Topics
43 49 55 61 67

keyword 0.82
keyword 0.76 doc# 6 doc# 7 doc# 8 doc# 9
1.0

1.0

1.0

1.0

1.0
………..
3.
0.8

0.8

0.8

0.8

0.8
Topic#3
0.6

0.6

0.6

0.6

0.6
Freq

Freq

Freq

Freq

Freq
トピックトークン
0.4

0.4

0.4

0.4

0.4
keyword 0.73
0.2

0.2

0.2

0.2

0.2
keyword 0.68
0.0

0.0

0.0

0.0

0.0
keyword 0.64 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67

コーパス
Topics Topics Topics Topics

………..
doc# 11 doc# 12 doc# 13 doc# 14

Topic#4
1.0

1.0

1.0

1.0

1.0
keyword 0.52
0.8

0.8

0.8

0.8

0.8
0.6

0.6

0.6

0.6

0.6
keyword 0.48
Freq

Freq

Freq

Freq

Freq
1.
0.4

0.4

0.4

0.4

0.4
keyword 0.41
0.2

0.2

0.2

0.2

0.2
………..
0.0

0.0

0.0

0.0

0.0
…..
0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67 0 4 8 13 19 25 31 37 43 49 55 61 67

Topics Topics Topics Topics

18

LDAの適用実験
•  実験データ
–  SVMの適用実験で用いた入力文書
•  Mallet
–  McCallumらによる(2011)
–  LDAを含む言語処理用機械学習パッケージ
–  Gibbs sampling
–  Javaで実装
•  パラメータ設定
–  Gibbs samplingの回数は2000回
–  トピック数 60
•  既知のノイズである語が、トピックを構成する語の特徴として、一
つのトピックにだけ現れるように設定した

19

LDAトピックの例

topic# Word (weight) [Rank>21]
[K=60]
研究 (326) 連携 (232) 的 (229) 社会 (199) 東京大学 (186) 大学 (147) 共同 (134) 学
(122) 企業 (105) 者 (100) 分野 (99) 産学 (89) 推進 (87) 東京 (72) 等 (70) 教育 (69) 化
37
(69) 活動 (68) テーマ (67) 大学院 (65)
温度 (130) プラズマ (73) 超電導 (69) 表面 (56) 化 (54) 粒子 (54) 装置 (46) 線 (40) 低
温 (36) 分布 (33) 材料 (33) ガス (31) 材 (28) 反応 (28) 分光 (27) ホウ素 (25) 電流 (25) 研究内容
43
処理 (25) エッチング (24) 高温 (23)
データ (85) 解析 (81) データベース (77) シミュレーション (75) ストレージ (72) 検索 (71)
計算 (66) システム (62) 高速 (54) 規模 (51) 文書 (48) 処理 (45) メッシュ (34) エンジン産学連携の
49
(30) 性能 (30) スパコン (29) 的 (29) 形状 (28) HDD (28) ソフトウェア (27)
研究 (1313) 技術 (875) 開発 (709) 科学 (334) 年 (270) 世界 (240) 共同 (214) 法人
キーワード
(209) 大学 (205) プロジェクト (202) センター (183) 機構 (177) 産業 (174) 株式会社
55
(173) 成果 (157) 的 (157) 事業 (155) 利用 (140) 行政 (132) 研究所 (118)
東京大学 (315) 発表 (243) 月 (227) 必要 (202) 日 (197) ページ (196) 設定 (190) オン
(186) リロード (181) JavaScript (176) ブラウザ (174) 表示 (174) 研究 (144) 開催 (118) ノイズ
59
年 (109) 者 (103) 下記 (90) 研究所 (89) 内容 (79) 記者 (75)

20

#37 topic probability

0.4

0
0.1
0.2
0.3
0.5
0.6
0.7
0.8
0.9
1
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137
145
153
161
169
177

Document rank
185
193
201
209
217
225
233
241
249
257
265
273
281
289
297
305
313
321
positive documents
negative documents
正例・負例文書ごとの比較

329
産学連携関連トピック#37の確率

21

#55 topic probability

0.4

0
0.1
0.2
0.3
0.5
0.6
0.7
0.8
0.9
1
1
9
17
25
33
41
49
57
65
73
81
89
97
105
113
121
129
137
145
153
161
169
177
185

Document rank
193
201
209
217
225
233
241
249
257
265
273
281
289
297
305
313
321
positive documents
negative documents
正例・負例文書ごとの比較

329
産学連携関連トピック#55の確率

22

LDA適用結果の考察
•  トピック分類は通常、内容に関する分類に用
いられるが、産学連携研究関連文書の判別
に作用できる可能性が示唆された

23

結論と展望
•  結論
–  Web上の産学連携関連文書を抽出するフレームワークの提案
•  SVMによる文書判別
•  LDAによるトピック分類
–  SVMによる文書判別では
•  産学連携キーワードによるフィーチャーの詳細化にあわせて、
AccuracyとF値は徐々に増加
•  一文に大学と会社の記号があることが、産学連携関連として反応し
ている
–  LDAによるトピック分類では
•  産学連携研究関連文書の判別に作用できる
•  展望
–  SVMとLDAを組み合わせた、産学連携関連文書抽出を試みる

24

機械学習を用いたWeb上の産学連携関連文書の抽出

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 機械学習を用いたWeb上の産学連携関連文書の抽出

Similar to 機械学習を用いたWeb上の産学連携関連文書の抽出 (20)

More from National Institute of Informatics

More from National Institute of Informatics (19)

機械学習を用いたWeb上の産学連携関連文書の抽出