テンソル分解の著者名寄せへの応用と
潜在変数を持つモデルとの比較
蔵川圭
国立情報学研究所
馬場康維
統計数理研究所
情報処理学会第78回全国大会, 2016.03.10-12,
慶應義塾大学 矢上キャンパス(横浜市港北区日吉)
背景
• データベースの一つとして書誌データベース
を想定する。それに関連する代表的な問題の
一つに、著者名曖昧性解消がある。
2
小林 誠,渡部 欣忍,松下 隆",大腿骨骨折をmipoで治療する場合の
問題点,骨折, (2009)
小林 誠,マーケティング概念のシステム論的再構成 : マーケ
ティング・コミュニケーション・ミックスを例として,社会環境研究,
(2003)
小林 誠,Chiral Symmetry,素粒子論研究, (1970)
「小林 誠」 「小林 誠」
著者名曖昧性解消手法の分類
3
[Ferreira, et.al., 2012]
データベースにおける名前曖昧性解消は1950年代から検討*される問題であり、
すでにいくつもの解法が提案されているがいまだ十分な解決をみていない
* NEWCOMBE, H. B., KENNEDY, J. M., AXFORD, S. J., & JAMES, A. P. (1959). Automatic linkage of vital records. Science
(New York, N.Y.), 130, 954–959. doi:http://dx.doi.org/10.1126%252Fscience.130.3381.954
Ferreira, A. A., Gonçalves, M. A., & Laender, A. H. F. (2012). A brief survey of automatic methods for author name
disambiguation. ACM SIGMOD Record, 41(2), 15. doi:10.1145/2350036.2350040
目的
• 本研究では、近年様々な情報分析や予測に
おいてとりあげられるテンソル分解を用いて、
著者名の曖昧性解消を試みる
• 他の手法との比較を行う
4
テンソルの数学的定義
2階のテンソル
双線形性をもつ2個のベクトル変数の関数 を2階のテンソルという
内積は、2階のテンソルとなる
5See: 田代嘉宏. (1981). テンソル解析 (基礎数学選書 23). 裳華房.
テンソルの数学的定義
p階のテンソル
6
p個の任意のベクトル に対して、実数値
を対応させる が存在して、それぞれのベクトル変数について線型性
が成り立つ時、関数 をp階のテンソルといい、pをそのテンソルの階数という
を2階のテンソル の基底 に関する成分という
直交基底 をとるとき、
テンソルの成分
とおくと、
を知れば、 がわかる
7
3階のテンソルの成分も同様に定義できる
Tensor (a third-order tensor)
8
Element-wise representation
See: Kolda, T. G., & Bader, B. W. (2009). Tensor Decompositions and Applications. SIAM Review, 51(3), 455–500.
doi:10.1137/07070111X
Mode-n fibers
of a third-order tensor
9
Mode-1 (column) fibers Mode-2 (row) fibers Mode-3 (tube) fibers
Slices of a third-order tensor
10
Horizontal slices Lateral slices Frontal slices
Rank-one tensor
11
Rank-one tensor is written as the outer product of N vectors
Element-wise representation,
n-mode product
12
Element-wise representation
CP decomposition
• CP(CANDECOMP: Canonical decomposition (by Carroll and Chang, 1970) / PARAFAC:
Parallel factors (by Harshman, 1970)) (by Kiers, 2000)
• Hitchcock (1927) already proposed the idea of the polyadic form of a tensor as the sum of
a finite number of rank-one tensors.
13
[Kolda and Bader, 2009]の表記による
Tucker decomposition
• Proposed by Tucker (1966)
14
[Kolda and Bader, 2009]の表記による
のとき、Tucker2 decompositionという
のとき、Tucker1 decompositionといい
Core tensor
Factor matrices as the principal components in each mode
テンソル分解のためのツール
• In Python
– scikit-tensor 0.1
• CP, Tucker, INDSCAL, DEDICOM, RESCAL, tensor operations, etc.
• 2013年にリリース
• Maximilian Nickelによる
• https://pypi.python.org/pypi/scikit-tensor
– pytensor
• MatlabのTensor Toolboxをベース
• Computational biology への応用研究のために作成
• Yoo, J. O., Ramanathan, A., & Langmead, C. (2010). PyTensor: A Python based Tensor
Library. Carnegie Melon University, Computer Science Department.
• https://code.google.com/p/pytensor/
• In Matlab
– MATLAB Tensor Toolbox Version 2.6
• CP, Tucker, Tensor operations, etc.
• 2005年の初期リリース以来改定を続けている
• Tarama G. Koldaら, Sandia National Labs による
• http://www.sandia.gov/~tgkolda/TensorToolbox/index-2.6.html
– Tensorlab
• CP, Tucker, Block term decomposition (CP+Tucker), tensor operations, utilities, etc.
• 2013年に初期リリース
• Laurent Sorber, Marc Van Barel and Lieven De Lathauwer. Tensorlab v2.0, Available online,
January 2014
• http://www.tensorlab.net 15
テンソル分解を利用した
著者クラスタ化の方法
• アプローチの考え方
– CPやTuckerによるテンソル分解は、テンソル空間上に表現された特徴量の
潜在特徴量を抽出できる
– 書誌の特徴量をテンソル空間上に表現し、抽出される潜在特徴量を著者の
特徴量とみなしてみる
– 逆に、抽出される潜在特徴量が著者の特徴量となるように、書誌の特徴量を
表現する
– データを適用して著者の特徴量を抽出し、この特徴量に対しクラスタリングを
行う
• アプローチ
– 著者特徴ベクトルの導出
• 書誌とその著者名をキーとしたレコード(ここでは、著者フラグメントと呼ぶ)セットに対し、
3階のテンソルのスライス上に、属性ごとに同一著者であれば成分量が大きくなる類似
度行列をいくつか構成する
• テンソル分解を行い、著者フラグメントの潜在特徴ベクトルを抽出する
– たとえば、CP, Tucker, INDSCAL, DEDICOM, RESCAL
– 著者クラスタリング
• 著者フラグメントの潜在特徴ベクトルを用いて、著者クラスタ化する
– たとえば、k-means, Agglomerative clustering, DBSCAN, Affinity propagation, Spectral
clustering
16
AFIDのクラスタ化
CiNii書誌を利用したデータセット
17
CID,AFID,JNAME,ENAME,YNAME,JAFF,EAFF,YEAR,CO-AUTH,TITLE,JRNL
16,B-10002917029-1-CJP,松本健一,:NA,マツモト ケンイチ,国立遺伝研・進化,:NA,1996,
"松本 健一,山本 博士,白吉 安昭,竹田 直樹,相沢 慎一,池村 淑道,中辻 憲夫",
遺伝子ターゲティングによる細胞外マトリックス・テネイシンxの機能解析,日本分子生物学会年会プログラム・講演要旨集
20,B-10003797238-1-CJP,松本健一,:NA,マツモト ケンイチ,日新製鋼(株)呉製鉄所 圧延部,Wakamatsu Works Hitachi Metals Ltd.,1997,
"松本 健一,村重 進,石川 淳,森野 泰司,早川 一,空野 博明",
熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発,材料とプロセス : 日本鉄鋼協会講演論文
集 = Current Advances In Materials And Processes : Report Of The Isij Meeting
20,B-10003797238-1-JIC,松本健一,Matsumoto Ken'ichi,マツモト ケンイチ,日新製鋼 呉製鉄所,Nisshin Steel Co. Ltd. Kure Work.,1997,
"松本 健一,村重 進,石川 淳,森野 泰司,早川 一,空野 博明",
熱間薄板圧延仕上げ前段ミルロールにおける表面損傷の超音波法による評価技術の開発,材料とプロセス : 日本鉄鋼協会講演論文
集 = Current Advances In Materials And Processes : Report Of The Isij Meeting
3. 比較
AFID:=著者フラグメントID
JNAME:=著者名
YEAR:=出版年
CO-AUTH:=共著者名
TITLE:=論文題目
JRNL:=雑誌名
CID:=同一著者のクラスター
ID
1. 著者特徴量抽出
2. クラスタリグ
正解
判別解
CO-AUTH
TITLE
JRNL
YEAR
テンソルスライス上の
著者フラグメント類似度行列
18
AFID
AFID 類似度行列
Similarity matrix
JNAME
類似度行列の要素
• 著者フラグメントID a, bを比較する
• 属性ごとの類似性尺度(similarity measure)の定義
– JNAME
• 著者名の一致
• 1: 一致のとき、 0: 不一致のとき
– YEAR
• 出版年の一致
• 1: 一致のとき、 0: 不一致のとき
– CO-AUTH
• 共著者名(JNAMEを除く)の一致数
– TITLE
• 形態素(名詞、未知語)の一致数
– JRNL
• 形態素(名詞、未知語)の一致数
19
CPによる著者特徴ベクトルの抽出
20
Each rank-one-factor represents a community.
Latent features for author fragment
制約付きTucker 2であるRESCAL*による
著者特徴ベクトルの抽出
21
and are calculated by solving the following regularized minimization problem
Rank-R factorization for tensor
Tensor frontal slice-k
Latent features for author fragment
* Nickel, M., Tresp, V., & Kriegel, H.-P. (2011). A Three-Way Model for Collective Learning on Multi-Relational Data. 28th
International Conference on Machine Learning, 809–816.
実験
• 著者クラスター化の方法の選択
– テンソル分解を用いた方法
• テンソル分解アルゴリズムの選択
– CP ALS (alternating least squares)
– RESCAL ALS
• クラスタリングアルゴリズムの選択
– k-means
– 潜在変数を持つ別のモデルを用いた方法
• LDAによる著者クラスタ化
• 著者クラスター化性能指標
– PurityおよびInverse-purity指標
• 書誌データセット
– 著者クラスターのサイズが一般的な分布となるデータセット
– 著者クラスターのサイズが偏って、2クラスターだけ大きいデータセッ
ト
• その他の実験条件
– データセットに応じて、著者クラスター数は既知とする 22
テンソル分解には、scikit-
tensor, k-meansにはscikit-
learn, LDAにはMalletの実
装を用いた
比較対象とする潜在変数を持つモデル
• LDAによる著者クラスター化
– 著者クラスターと著者フラグメントの関係を、LDAのトピッ
クとドキュメントの関係に割り当てる
• 著者クラスター=LDAトピック
• 著者フラグメント=LDAドキュメント
– LDAのドキュメントは著者フラグメントの属性で構成する
• JNAMEの著者名
• YEARの出版年
• CO-AUTHの共著者名
• TITLEの形態素(名詞および未知語)
• JRNLの形態素(名詞および未知語)
– 著者フラグメントごとに算出されるトピック分布のうち最頻
のトピックを著者クラスターと判定する
23
著者クラスター化の性能判定
• PurityおよびInverse-Purityで測る
– アイテムが一つのクラスターに属す場合の、クラスタリング評価
指標
– Web people search task I (2007)で使用された
24
Precision measure
Recall measure
2つのデータセットの特徴
25
0
20
40
60
80
100
120
140
160
180
1
6
11
16
21
26
31
36
41
46
51
56
61
66
71
76
81
86
91
96
101
106
111
116
要素数
ラベル付きクラスターID
小林誠データセット (Koba-ci dataset)
:レコード数 = 1121, クラスター数=119
119人の同姓同名が含まれている
松本健一データセット (Matu-ci dataset)
:レコード数=1568, クラスター数=48
48人の同姓同名が含まれている
0
100
200
300
400
500
600
700
800
900
1 3 5 7 9 11 13 15 17 19 21 23 25 27 29 31 33 35 37 39 41 43 45 47
要素数
ラベル付きクラスターID
実験結果 (10-fold CV)
26
Koba-ci dataset
因子数と性能および実行時間の関係
(CP ALS and k-means)
27
因子数と性能および実行時間の関係
(RESCAL ALS and k-means)
Koba-ci dataset
28
結果に対する考察
• テンソル分解方法の違いによる比較
– RESCAL ALSは、概してCP ALSより良い性能を示
し、実行時間では103の差があった
• テンソル分解およびk-meansを用いた方法と
LDAを用いた方法との比較
– テンソル分解の因子数をうまく選べば、LDAを用いた
方法と同程度の性能を示した
• 異なる分布を持つデータセットにおける比較
– 極端に大きいサイズのクラスターをもつデータセット
では、Purityが高くなりInverse-purityが低くなる傾向
があるが、適応手法の違いが性能に影響を与えるこ
とが見て取れる
29
結論と展望
• 潜在変数を持つモデルは、著者を潜在変数に結
びつけることで著者同一性判定に有効である
• テンソルを用いた方法は多次元データをテンソ
ル空間上に素直に表現することが可能である
• 著者同一性判定の性能向上のため、今後の展
開として、多次元データのテンソル空間上への
新たな表現方法の提案、新たな演算方法の提
案が考えられる
30

テンソル分解の著者名寄せへの応用と潜在変数を持つモデルとの比較