2. U-I-G relations
• 科学技術政策立案のための情報 University
源として産官学連携の実態を把 U
握することが重要 (Leydesdorff
and Meyer, 2003).
I
G
Industry
Government
• Web上の情報は実態把握のための有用な情
報源の一つである
2
6. Support Vector Machine (1)
(Vapnik, 1995)
y=1
• Two class classifier y=0
y(x) = wT (x) + b y= 1
Bias parameter
Fixed feature space transformation
• N input vectors
margin
– Input vector: x1 , . . . , xN
– Target values: t1 , . . . , tN where tn 2 { 1, 1} Support Vector
• For all input vectors, tn y(xn ) > 0
• Maximize margin between
hyperplane y(x) = 1 and y(x) = 1
6
7. Support Vector Machine (2)
• Optimization problem
1 2
arg min kwk .
w,b 2
T
subject to the constraints
tn (w (x) + b) 1, n = 1, . . . , N
• By means of Lagrangian method
N
X
y(x) = an tn k(x, xn ) + b.
n=1
where kernel function is defined by
k(x, x0 ) = (x)T (x0 )
,and an > 0 is Lagrange multipliers
7
8. フィーチャーの選択
• tf-idf (Term Frequency – Inverse Document
Frequency)
• tf-idf の定義 tf-idf(t, d, D) = tf(t, d) ⇥ idf(t, D)
a term
a document
all document
• フィーチャーの定義
xt,d = tf-idf(t, d, D) ⇥ bt,d
xd = (xt1 ,d , xt2 ,d , · · · , xtM ,d ) ⇢
1 if t 2 d
bt,d =
0 if t 2 d
/
• ここでのタームは、文書内の語に加えて、形態素の
品詞POS (part-of-speech)、言語解析ツール
(Mecab, Cabocha)の出力結果を対象とする 8
16. LDA [Blei et.al. 2003]
トピック数:
k
パラメータ:
↵,
トピック分布:
✓
ドキュメント数:
M 2 k ⇥ V matrix
文書 d の単語数:
N
N 個のトピック:
z
N 個の単語:
w
↵ ✓ z w N
M
↵ 2 k-vector zn ⇠ Multinomial(✓)
✓ ⇠ Dir(↵) N ⇠ Poisson(⇠)
✓ 2 k-vector on (k 1)-simplex 16
17. LDAモデルの推論
トピック分布 ✓ 、N 個のトピック z 、N 個の単語 w の同時分布は、
N
Y
p(✓, z, w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , )
n=1
↵ ✓ z w N
M
✓ と z で周辺化すると、文書wの確率が得られ、
Z N X
!
Y
p(w|↵, ) = p(✓|↵) p(zn |✓)p(wn |zn , ) d✓
n=1 zn
さらに、積を取ると、コーパス全体 D の確率が得られる
M Z Nd
!
Y Y X
p(D|↵, ) = p(✓ d |↵) p(zdn |✓ d )p(wdn |zdn , ) d✓ d
d=1 n=1 zdn
17