SlideShare a Scribd company logo
1 of 29
Download to read offline
能動学習による
多関係データセットの構築
梶野 洸1, 岸本 章宏2, Adi Botea2,
Elizabeth Daly2, Spyros Kotoulas2
1. 東京大学
2. IBM Research - Ireland
1
WWW-2015採択論文
/29
■ 研究対象: 手作業での多関係データセット構築
テキストからの自動抽出が困難なデータが存在
Q: 効率的に構築するにはどうしたらよいか?
■ 提案: 能動学習 + 多関係データ学習
能動学習により人間へのクエリ数を削減
手作業での多関係データセット構築支援という新たな枠組みを提案
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
2
/29
■ 目次
□ 問題設定:
• 多関係データとその応用
• 2つの定式化:
– データセット構築問題
– 予測モデル構築問題
□ 提案手法 (AMDC):
• 能動学習を用いた枠組み
• 多関係データ学習
□ 実験
3
/29
■ 目次
□ 問題設定:
• 多関係データとその応用
• 2つの定式化:
– データセット構築問題
– 予測モデル構築問題
□ 提案手法 (AMDC):
• 能動学習を用いた枠組み
• 多関係データ学習
□ 実験
4
/29
■ 多関係データ: 三つ組 + ラベル
□ 三つ組: t = (i, j, k)
• 主体: i, j ∈ E
• 関係: k ∈ R
□ ラベル:
• t が正例 ⇔ 主体 i が主体 j に対して関係 k にある
• t が負例 ⇔ 主体 i が主体 j に対して関係 k にない
□ 多関係データセット: (Δp, Δn)
Δp = {t ∈ Δ | t が正例}, Δn = {t ∈ Δ | t が負例}
(仮定: |Δp| ≪ |Δ|, ラベルなし三つ組も存在)
多関係データセットは、二値ラベル付き三つ組の集合
犬 動物
人間
部分集合同じ
部分集合
全三つ組の集合
5
|E
|
|E
|
|R
|
/29
■ 手作業によるデータセット構築の動機
□ 知識ベース: 人間の知識を多関係データで表現
ポイント: 常識的な知識は文書に明示的には現れない
→ 自動抽出が難しい
□ 生物学のデータベース:
→ ラベル付けには実験が必要
人によるアノテーションが必要なデータが存在
データセット 正例の例
WordNet [Miller, 95] (dog, canine, synset), (dog, poodle, hypernym)
ConceptNet [Liu+,04]
(saxophone, jazz, UsedFor),
(learn, knowledge, MotivatedByGoal)
相互作用 参加
タンパク質 DNA 細胞周期
6
/29
■ 2つの定式化
□ 入力:
主体の集合 E, 関係の集合 R, オラクル O: Δ→{正例, 負例}
□ 問題 1: データセット構築問題
目標: なるべく多くの正例を収集
□ 問題 2: 予測モデル構築問題
目標: 多関係データモデル M: Δ → R を学習(出力: 正例らしさ)
※ モデルが欲しい場合、より直接的な定式化
データセットの用途に応じて2つの定式化をする
・ 誤りなし
・ B 回クエリ可能
7
/29
■ 目次
□ 問題設定:
• 多関係データとその応用
• 2つの定式化:
– データセット構築問題
– 予測モデル構築問題
□ 提案手法 (AMDC):
• 能動学習を用いた枠組み
• 多関係データ学習
□ 実験
8
/29
■ Active Multi-relational Data Construction (AMDC)
□ 概要:
AMDC はラベル取得と学習を B 回繰り返す
訓練データ (Δp, Δn)
現状のデータセットでモデルを学習
9
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ Active Multi-relational Data Construction (AMDC)
□ 概要:
AMDC はラベル取得と学習を B 回繰り返す
AMDC は予測スコア st を計算可能
0より 大きい / 小さい st ⇔ t を 正例 / 負例 と予測
10
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
訓練データ (Δp, Δn)
/29
■ Active Multi-relational Data Construction (AMDC)
□ 概要:
AMDC はラベル取得と学習を B 回繰り返す
予測スコア st を用いて クエリスコア qt を計算
qt が小さい ⇔ t のラベルが欲しい
11
訓練データ (Δp, Δn)
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ Active Multi-relational Data Construction (AMDC)
□ 概要:
AMDC はラベル取得と学習を B 回繰り返す
12
訓練データ (Δp, Δn)
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ Active Multi-relational Data Construction (AMDC)
□ 詳細:
• クエリスコア qt
• 予測スコア st (多関係データモデル)
AMDC を構成する2つのスコアを紹介する
13
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ Active Multi-relational Data Construction (AMDC)
□ 詳細:
• クエリスコア qt
• 予測スコア st (多関係データモデル)
AMDC を構成する2つのスコアを紹介する
14
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ AMDC (1/2): クエリスコア qt (t ∈ Δ)
qt が小さいほどデータセット構築に有用
出力:
• 正例スコア (問題 1): qt := - st
正例と予測された三つ組 (st が大)を選択
• 不確実スコア (問題 2): qt = |st |
予測が不確実な三つ組(境界上)を選択
※ クエリスコアを切り替えることで2つの問題設定に対応
2つの定式化それぞれに対しクエリスコアを設計
15
入力: 予測スコア st
st > 0 (< 0) 正例 (負例) と予測
/29
■ AMDC (1/2): クエリスコア qt (t ∈ Δ)
qt が小さいほどデータセット構築に有用
出力:
• 正例スコア (問題 1): qt := - st
正例と予測された三つ組 (st が大)を選択
• 不確実スコア (問題 2): qt = |st |
予測が不確実な三つ組(境界上)を選択
※ クエリスコアを切り替えることで2つの問題設定に対応
2つの定式化それぞれに対しクエリスコアを設計
16
入力: 予測スコア st
st > 0 (< 0) 正例 (負例) と予測
効果を実験で検証
/29
■ Active Multi-relational Data Construction (AMDC)
□ 詳細:
• クエリスコア qt
• 予測スコア st (多関係データモデル)
AMDC を構成する2つのスコアを紹介する
17
多関係データ
モデル 人間1. モデルがデータを選択
ラベルを要求
2. ラベルを返送
3. データセットを更新・モデルの再学習
/29
■ AMDC (2/2): 多関係データモデル
□ ベース: RESCAL [Nickel+,11]
• モデル:
– ai ∈ RD : 主体 i の潜在表現(ベクトル)
– Rk ∈ RD D : 関係 k の潜在表現(行列(対称とは限らな
い))
• 予測スコア: st = ai
T Rk aj
大きい / 小さい st ⇔ t は 正例 / 負例
□ 新たな制約: |ai| = 1, Rk = 回転行列
初期段階(ラベル数が少ない)の学習を安定化
(→ 実験で検証)
過学習防止のために制約を導入
New
18
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
ランキングベースの目的関数を利用
s(正例) > s(非正例)
s(non-neg) > s(neg)
s(pos) > 0 s(neg) < 0
,
19
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
ランキングベースの目的関数を利用
s(正例) > s(非正例)
s(non-neg) > s(neg)
s(pos) > 0 s(neg) < 0
,
20
・ラベル無しと負例を区別していない
・正例 / 負例 の境界が 0 となるとは限らない
毎反復で得られるラベルの
多くは負例
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
ランキングベースの目的関数を利用
s(正例) > s(非正例)
s(非負例) > s(負例)
s(pos) > 0 s(neg) < 0
,
21
・ラベル無しと負例を区別していない
・正例 / 負例 の境界が 0 となるとは限らない
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
ランキングベースの目的関数を利用
s(正例) > s(非正例)
s(正例) > 0 s(負例) < 0
,
22
s(非負例) > s(負例)
・ラベル無しと負例を区別していない
・正例 / 負例 の境界が 0 となるとは限らない
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
毎反復、複数のモデルをSGDで最適化し、最良のものを選択
s(正例) > s(非正例)
s(正例) > 0 s(負例) < 0
,
23
s(非負例) > s(負例)
/29
■ AMDC (2/2): 最適化問題
□ アルゴリズム: SGD
□ パラメタ:
□ ハイパーパラメタ: γ, γ’, Cn, Ce, D
毎反復、検証用データセットを用いて決定
毎反復、複数のモデルをSGDで最適化し、最良のものを選択
s(正例) > s(非正例)
s(正例) > 0 s(負例) < 0
,
24
s(非負例) > s(負例)
効果を実験で検証
/29
■ 目次
□ 問題設定:
• 多関係データとその応用
• 2つの定式化:
– データセット構築問題
– 予測モデル構築問題
□ 提案手法 (AMDC):
• 能動学習を用いた枠組み
• 多関係データ学習
□ 実験
25
/29
■ 実験
□ 目的: 3つの改良点の貢献を2つの問題設定で検証
• クエリスコア (vs. AMDC + random query)
• Neg AUC-loss (vs. AMDC - neg-AUC)
• RESCAL に加えた制約 (vs. AMDC - constraints)
□ データセット:
既に与えられているラベルを用いてオラクルをシミュレート
3つの改良点の貢献を検証する
#(主体) #(関係) #(正例) #(負例)
Kinships [Denham, 73] 104 26 10,790 270,426
Nations [Rummel, 50-65] 125 57 2,565 8,626
UMLS [McCray,03] 135 49 6,752 886,273
26
/29
■ 実験 (1/2): データセット構築問題
評価指標: %(AMDC が収集した正例ラベル)
□ クエリスコア: Random の 2.4 – 19 倍の正例を収集
□ Neg AUC loss: 負例が多い場合に有効 (K, U)
□ 制約: 性能が下がることもある
AMDC はベースラインと比べ 2.4 – 19 倍の正例を収集
10 trials, (Q, q) = (105, 103) ((2 103,102) for Nations)
Nations
0 200 400 600 800 1000 1200 1400 1600
#(Queries)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
Completionrate
AMDC
AMDC rand
AMDC pos only
AMDC no const
UMLS
0 2000 4000 6000 8000 10000 12000 14000 16000
#(Queries)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
Completionrate
AMDC
AMDC rand
AMDC pos only
AMDC no const
Kinships
0 2000 4000 6000 8000 10000 12000 14000 16000
#(Queries)
0.00
0.05
0.10
0.15
0.20
0.25
0.30
0.35
0.40
0.45
Completionrate
AMDC
AMDC rand
AMDC pos only
AMDC no const
w/o neg-AUC
Random
Full AMDC
w/o constraints
27
/29
■ 実験 (2/2): 予測モデル構築問題
評価指標: ROC-AUC
□ クエリスコア: Random と比べ、有意に高いAUC (K, U)
□ Neg AUC loss: どのデータでも有効
□ 制約: 過学習を防ぎ、高い予測性能を達成
AMDC はほぼ常に最良の予測スコアを達成
Kinships
0 2000 4000 6000 8000 10000 12000 14000 16000
#(Queries)
0.4
0.5
0.6
0.7
0.8
0.9
1.0
ROC-AUC
AMDC
AMDC rand
AMDC pos only
AMDC no const
Nations
0 200 400 600 800 1000 1200 1400 1600
#(Queries)
0.4
0.5
0.6
0.7
0.8
0.9
1.0
ROC-AUC
AMDC
AMDC rand
AMDC pos only
AMDC no const
UMLS
0 2000 4000 6000 8000 10000 12000 14000 16000
#(Queries)
0.3
0.4
0.5
0.6
0.7
0.8
0.9
1.0
ROC-AUC
AMDC
AMDC rand
AMDC pos only
AMDC no const
10 trials, (Q, q) = (105, 103) ((2 103,102) for Nations)
w/o neg-AUC
Random
Full AMDC
w/o constraints
28
/29
■ 結論
□ 手作業での多関係データセット構築は未だに重要
• ある種のデータは人によるアノテーションが必要
• クラウドソーシングを通じて依頼可能
□ AMDC = 能動学習 + 多関係データ学習
RESCAL を元に、データが少ない時の学習を安定化
□ 3 つの工夫により性能向上することを確認
• 能動学習によりコストを大幅に削減
• RESCALに加えた制約により過学習を防止
• 負例が多い場合に neg AUC-loss が有効
手作業による多関係データセット構築問題を導入した
29

More Related Content

What's hot

Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Ken Morishita
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Shunsuke Kozawa
 
パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0sleipnir002
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレストKinki University
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forestYasunori Ozaki
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析hnisiji
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component AnalysisKoji Matsuda
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章Masanori Takano
 
03_深層学習
03_深層学習03_深層学習
03_深層学習CHIHIROGO
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...Yusuke Iwasawa
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめsleepy_yoshi
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習Yuki Igarashi
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレストTeppei Baba
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)Kota Matsui
 
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習Masanari Kimura
 

What's hot (19)

Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識Pythonとdeep learningで手書き文字認識
Pythonとdeep learningで手書き文字認識
 
Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...Active learning with efficient feature weighting methods for improving data q...
Active learning with efficient feature weighting methods for improving data q...
 
パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0パターン認識02 k平均法ver2.0
パターン認識02 k平均法ver2.0
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 
ランダムフォレスト
ランダムフォレストランダムフォレスト
ランダムフォレスト
 
10分でわかるRandom forest
10分でわかるRandom forest10分でわかるRandom forest
10分でわかるRandom forest
 
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
Tokyo r#10 Rによるデータサイエンス 第五章:クラスター分析
 
Vanishing Component Analysis
Vanishing Component AnalysisVanishing Component Analysis
Vanishing Component Analysis
 
みどりぼん読書会 第4章
みどりぼん読書会 第4章みどりぼん読書会 第4章
みどりぼん読書会 第4章
 
Random Forestsとその応用
Random Forestsとその応用Random Forestsとその応用
Random Forestsとその応用
 
03_深層学習
03_深層学習03_深層学習
03_深層学習
 
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
[DL輪読会] “Asymmetric Tri-training for Unsupervised Domain Adaptation (ICML2017...
 
DSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめDSIRNLP#1 ランキング学習ことはじめ
DSIRNLP#1 ランキング学習ことはじめ
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
Random Forests
Random ForestsRandom Forests
Random Forests
 
それっぽく感じる機械学習
それっぽく感じる機械学習それっぽく感じる機械学習
それっぽく感じる機械学習
 
機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト機会学習ハッカソン:ランダムフォレスト
機会学習ハッカソン:ランダムフォレスト
 
機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)機械学習による統計的実験計画(ベイズ最適化を中心に)
機械学習による統計的実験計画(ベイズ最適化を中心に)
 
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
[Ridge-i 論文読み会] ICLR2019における不完全ラベル学習
 

Similar to 能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)

能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築Hiroshi Kajino
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案__106__
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)Wataru Shito
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...Kotaro Yamazaki
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesKei Nakagawa
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法Takeshi Yamamuro
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎Daiyu Hatakeyama
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...Insight Technology, Inc.
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...Toru Tamaki
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Ranksleepy_yoshi
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Seiya Tokui
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論Akihiro Nitta
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classificationKazuki Fujikawa
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classificationDeep Learning JP
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)智啓 出川
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介Masayoshi Kondo
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)Morpho, Inc.
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介Narihira Takuya
 

Similar to 能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演) (20)

能動学習による多関係データセットの構築
能動学習による多関係データセットの構築能動学習による多関係データセットの構築
能動学習による多関係データセットの構築
 
確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案確率的深層学習における中間層の改良と高性能学習法の提案
確率的深層学習における中間層の改良と高性能学習法の提案
 
第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)第9回 大規模データを用いたデータフレーム操作実習(3)
第9回 大規模データを用いたデータフレーム操作実習(3)
 
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...Paper Introduction "RankCompete:Simultaneous ranking and clustering of info...
Paper Introduction "RankCompete: Simultaneous ranking and clustering of info...
 
Risk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matricesRisk based portfolio with large dynamic covariance matrices
Risk based portfolio with large dynamic covariance matrices
 
CAE/SIM meets AI
CAE/SIM meets AICAE/SIM meets AI
CAE/SIM meets AI
 
研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法研究動向から考えるx86/x64最適化手法
研究動向から考えるx86/x64最適化手法
 
エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎エンジニアのための機械学習の基礎
エンジニアのための機械学習の基礎
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
[db tech showcase Tokyo 2017] D15: ビッグデータ x 機械学習の高速分析をVerticaで実現!by ヒューレット・パッ...
 
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
文献紹介:Deep Analysis of CNN-Based Spatio-Temporal Representations for Action Re...
 
SIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to RankSIGIR2011読み会 3. Learning to Rank
SIGIR2011読み会 3. Learning to Rank
 
Deep learning実装の基礎と実践
Deep learning実装の基礎と実践Deep learning実装の基礎と実践
Deep learning実装の基礎と実践
 
PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論PRML 1.5-1.5.5 決定理論
PRML 1.5-1.5.5 決定理論
 
A closer look at few shot classification
A closer look at few shot classificationA closer look at few shot classification
A closer look at few shot classification
 
[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification[DL輪読会]A closer look at few shot classification
[DL輪読会]A closer look at few shot classification
 
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
2015年度GPGPU実践プログラミング 第10回 行列計算(行列-行列積の高度な最適化)
 
attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介attention_is_all_you_need_nips17_論文紹介
attention_is_all_you_need_nips17_論文紹介
 
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
(文献紹介)Deep Unrolling: Learned ISTA (LISTA)
 
CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介CVPR 2011 ImageNet Challenge 文献紹介
CVPR 2011 ImageNet Challenge 文献紹介
 

More from Hiroshi Kajino

Graph generation using a graph grammar
Graph generation using a graph grammarGraph generation using a graph grammar
Graph generation using a graph grammarHiroshi Kajino
 
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)Hiroshi Kajino
 
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionActive Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionHiroshi Kajino
 
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Hiroshi Kajino
 
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingPreserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingHiroshi Kajino
 
プライバシ保護クラウドソーシング
プライバシ保護クラウドソーシングプライバシ保護クラウドソーシング
プライバシ保護クラウドソーシングHiroshi Kajino
 

More from Hiroshi Kajino (9)

Graph generation using a graph grammar
Graph generation using a graph grammarGraph generation using a graph grammar
Graph generation using a graph grammar
 
化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)化学構造式のためのハイパーグラフ文法(JSAI2018)
化学構造式のためのハイパーグラフ文法(JSAI2018)
 
Active Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data ConstructionActive Learning for Multi-relational Data Construction
Active Learning for Multi-relational Data Construction
 
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)Instance-privacy Preserving Crowdsourcing (HCOMP2014)
Instance-privacy Preserving Crowdsourcing (HCOMP2014)
 
Preserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in CrowdsourcingPreserving Worker Privacy in Crowdsourcing
Preserving Worker Privacy in Crowdsourcing
 
プライバシ保護クラウドソーシング
プライバシ保護クラウドソーシングプライバシ保護クラウドソーシング
プライバシ保護クラウドソーシング
 
20130716 aaai13-short
20130716 aaai13-short20130716 aaai13-short
20130716 aaai13-short
 
20130605-JSAI2013
20130605-JSAI201320130605-JSAI2013
20130605-JSAI2013
 
20130304-DEIM2013
20130304-DEIM201320130304-DEIM2013
20130304-DEIM2013
 

能動学習による多関係データセットの構築(IBIS2015 博士課程招待講演)

  • 1. 能動学習による 多関係データセットの構築 梶野 洸1, 岸本 章宏2, Adi Botea2, Elizabeth Daly2, Spyros Kotoulas2 1. 東京大学 2. IBM Research - Ireland 1 WWW-2015採択論文
  • 2. /29 ■ 研究対象: 手作業での多関係データセット構築 テキストからの自動抽出が困難なデータが存在 Q: 効率的に構築するにはどうしたらよいか? ■ 提案: 能動学習 + 多関係データ学習 能動学習により人間へのクエリ数を削減 手作業での多関係データセット構築支援という新たな枠組みを提案 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習 2
  • 3. /29 ■ 目次 □ 問題設定: • 多関係データとその応用 • 2つの定式化: – データセット構築問題 – 予測モデル構築問題 □ 提案手法 (AMDC): • 能動学習を用いた枠組み • 多関係データ学習 □ 実験 3
  • 4. /29 ■ 目次 □ 問題設定: • 多関係データとその応用 • 2つの定式化: – データセット構築問題 – 予測モデル構築問題 □ 提案手法 (AMDC): • 能動学習を用いた枠組み • 多関係データ学習 □ 実験 4
  • 5. /29 ■ 多関係データ: 三つ組 + ラベル □ 三つ組: t = (i, j, k) • 主体: i, j ∈ E • 関係: k ∈ R □ ラベル: • t が正例 ⇔ 主体 i が主体 j に対して関係 k にある • t が負例 ⇔ 主体 i が主体 j に対して関係 k にない □ 多関係データセット: (Δp, Δn) Δp = {t ∈ Δ | t が正例}, Δn = {t ∈ Δ | t が負例} (仮定: |Δp| ≪ |Δ|, ラベルなし三つ組も存在) 多関係データセットは、二値ラベル付き三つ組の集合 犬 動物 人間 部分集合同じ 部分集合 全三つ組の集合 5 |E | |E | |R |
  • 6. /29 ■ 手作業によるデータセット構築の動機 □ 知識ベース: 人間の知識を多関係データで表現 ポイント: 常識的な知識は文書に明示的には現れない → 自動抽出が難しい □ 生物学のデータベース: → ラベル付けには実験が必要 人によるアノテーションが必要なデータが存在 データセット 正例の例 WordNet [Miller, 95] (dog, canine, synset), (dog, poodle, hypernym) ConceptNet [Liu+,04] (saxophone, jazz, UsedFor), (learn, knowledge, MotivatedByGoal) 相互作用 参加 タンパク質 DNA 細胞周期 6
  • 7. /29 ■ 2つの定式化 □ 入力: 主体の集合 E, 関係の集合 R, オラクル O: Δ→{正例, 負例} □ 問題 1: データセット構築問題 目標: なるべく多くの正例を収集 □ 問題 2: 予測モデル構築問題 目標: 多関係データモデル M: Δ → R を学習(出力: 正例らしさ) ※ モデルが欲しい場合、より直接的な定式化 データセットの用途に応じて2つの定式化をする ・ 誤りなし ・ B 回クエリ可能 7
  • 8. /29 ■ 目次 □ 問題設定: • 多関係データとその応用 • 2つの定式化: – データセット構築問題 – 予測モデル構築問題 □ 提案手法 (AMDC): • 能動学習を用いた枠組み • 多関係データ学習 □ 実験 8
  • 9. /29 ■ Active Multi-relational Data Construction (AMDC) □ 概要: AMDC はラベル取得と学習を B 回繰り返す 訓練データ (Δp, Δn) 現状のデータセットでモデルを学習 9 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 10. /29 ■ Active Multi-relational Data Construction (AMDC) □ 概要: AMDC はラベル取得と学習を B 回繰り返す AMDC は予測スコア st を計算可能 0より 大きい / 小さい st ⇔ t を 正例 / 負例 と予測 10 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習 訓練データ (Δp, Δn)
  • 11. /29 ■ Active Multi-relational Data Construction (AMDC) □ 概要: AMDC はラベル取得と学習を B 回繰り返す 予測スコア st を用いて クエリスコア qt を計算 qt が小さい ⇔ t のラベルが欲しい 11 訓練データ (Δp, Δn) 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 12. /29 ■ Active Multi-relational Data Construction (AMDC) □ 概要: AMDC はラベル取得と学習を B 回繰り返す 12 訓練データ (Δp, Δn) 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 13. /29 ■ Active Multi-relational Data Construction (AMDC) □ 詳細: • クエリスコア qt • 予測スコア st (多関係データモデル) AMDC を構成する2つのスコアを紹介する 13 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 14. /29 ■ Active Multi-relational Data Construction (AMDC) □ 詳細: • クエリスコア qt • 予測スコア st (多関係データモデル) AMDC を構成する2つのスコアを紹介する 14 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 15. /29 ■ AMDC (1/2): クエリスコア qt (t ∈ Δ) qt が小さいほどデータセット構築に有用 出力: • 正例スコア (問題 1): qt := - st 正例と予測された三つ組 (st が大)を選択 • 不確実スコア (問題 2): qt = |st | 予測が不確実な三つ組(境界上)を選択 ※ クエリスコアを切り替えることで2つの問題設定に対応 2つの定式化それぞれに対しクエリスコアを設計 15 入力: 予測スコア st st > 0 (< 0) 正例 (負例) と予測
  • 16. /29 ■ AMDC (1/2): クエリスコア qt (t ∈ Δ) qt が小さいほどデータセット構築に有用 出力: • 正例スコア (問題 1): qt := - st 正例と予測された三つ組 (st が大)を選択 • 不確実スコア (問題 2): qt = |st | 予測が不確実な三つ組(境界上)を選択 ※ クエリスコアを切り替えることで2つの問題設定に対応 2つの定式化それぞれに対しクエリスコアを設計 16 入力: 予測スコア st st > 0 (< 0) 正例 (負例) と予測 効果を実験で検証
  • 17. /29 ■ Active Multi-relational Data Construction (AMDC) □ 詳細: • クエリスコア qt • 予測スコア st (多関係データモデル) AMDC を構成する2つのスコアを紹介する 17 多関係データ モデル 人間1. モデルがデータを選択 ラベルを要求 2. ラベルを返送 3. データセットを更新・モデルの再学習
  • 18. /29 ■ AMDC (2/2): 多関係データモデル □ ベース: RESCAL [Nickel+,11] • モデル: – ai ∈ RD : 主体 i の潜在表現(ベクトル) – Rk ∈ RD D : 関係 k の潜在表現(行列(対称とは限らな い)) • 予測スコア: st = ai T Rk aj 大きい / 小さい st ⇔ t は 正例 / 負例 □ 新たな制約: |ai| = 1, Rk = 回転行列 初期段階(ラベル数が少ない)の学習を安定化 (→ 実験で検証) 過学習防止のために制約を導入 New 18
  • 19. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 ランキングベースの目的関数を利用 s(正例) > s(非正例) s(non-neg) > s(neg) s(pos) > 0 s(neg) < 0 , 19
  • 20. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 ランキングベースの目的関数を利用 s(正例) > s(非正例) s(non-neg) > s(neg) s(pos) > 0 s(neg) < 0 , 20 ・ラベル無しと負例を区別していない ・正例 / 負例 の境界が 0 となるとは限らない 毎反復で得られるラベルの 多くは負例
  • 21. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 ランキングベースの目的関数を利用 s(正例) > s(非正例) s(非負例) > s(負例) s(pos) > 0 s(neg) < 0 , 21 ・ラベル無しと負例を区別していない ・正例 / 負例 の境界が 0 となるとは限らない
  • 22. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 ランキングベースの目的関数を利用 s(正例) > s(非正例) s(正例) > 0 s(負例) < 0 , 22 s(非負例) > s(負例) ・ラベル無しと負例を区別していない ・正例 / 負例 の境界が 0 となるとは限らない
  • 23. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 毎反復、複数のモデルをSGDで最適化し、最良のものを選択 s(正例) > s(非正例) s(正例) > 0 s(負例) < 0 , 23 s(非負例) > s(負例)
  • 24. /29 ■ AMDC (2/2): 最適化問題 □ アルゴリズム: SGD □ パラメタ: □ ハイパーパラメタ: γ, γ’, Cn, Ce, D 毎反復、検証用データセットを用いて決定 毎反復、複数のモデルをSGDで最適化し、最良のものを選択 s(正例) > s(非正例) s(正例) > 0 s(負例) < 0 , 24 s(非負例) > s(負例) 効果を実験で検証
  • 25. /29 ■ 目次 □ 問題設定: • 多関係データとその応用 • 2つの定式化: – データセット構築問題 – 予測モデル構築問題 □ 提案手法 (AMDC): • 能動学習を用いた枠組み • 多関係データ学習 □ 実験 25
  • 26. /29 ■ 実験 □ 目的: 3つの改良点の貢献を2つの問題設定で検証 • クエリスコア (vs. AMDC + random query) • Neg AUC-loss (vs. AMDC - neg-AUC) • RESCAL に加えた制約 (vs. AMDC - constraints) □ データセット: 既に与えられているラベルを用いてオラクルをシミュレート 3つの改良点の貢献を検証する #(主体) #(関係) #(正例) #(負例) Kinships [Denham, 73] 104 26 10,790 270,426 Nations [Rummel, 50-65] 125 57 2,565 8,626 UMLS [McCray,03] 135 49 6,752 886,273 26
  • 27. /29 ■ 実験 (1/2): データセット構築問題 評価指標: %(AMDC が収集した正例ラベル) □ クエリスコア: Random の 2.4 – 19 倍の正例を収集 □ Neg AUC loss: 負例が多い場合に有効 (K, U) □ 制約: 性能が下がることもある AMDC はベースラインと比べ 2.4 – 19 倍の正例を収集 10 trials, (Q, q) = (105, 103) ((2 103,102) for Nations) Nations 0 200 400 600 800 1000 1200 1400 1600 #(Queries) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 Completionrate AMDC AMDC rand AMDC pos only AMDC no const UMLS 0 2000 4000 6000 8000 10000 12000 14000 16000 #(Queries) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 Completionrate AMDC AMDC rand AMDC pos only AMDC no const Kinships 0 2000 4000 6000 8000 10000 12000 14000 16000 #(Queries) 0.00 0.05 0.10 0.15 0.20 0.25 0.30 0.35 0.40 0.45 Completionrate AMDC AMDC rand AMDC pos only AMDC no const w/o neg-AUC Random Full AMDC w/o constraints 27
  • 28. /29 ■ 実験 (2/2): 予測モデル構築問題 評価指標: ROC-AUC □ クエリスコア: Random と比べ、有意に高いAUC (K, U) □ Neg AUC loss: どのデータでも有効 □ 制約: 過学習を防ぎ、高い予測性能を達成 AMDC はほぼ常に最良の予測スコアを達成 Kinships 0 2000 4000 6000 8000 10000 12000 14000 16000 #(Queries) 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ROC-AUC AMDC AMDC rand AMDC pos only AMDC no const Nations 0 200 400 600 800 1000 1200 1400 1600 #(Queries) 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ROC-AUC AMDC AMDC rand AMDC pos only AMDC no const UMLS 0 2000 4000 6000 8000 10000 12000 14000 16000 #(Queries) 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 ROC-AUC AMDC AMDC rand AMDC pos only AMDC no const 10 trials, (Q, q) = (105, 103) ((2 103,102) for Nations) w/o neg-AUC Random Full AMDC w/o constraints 28
  • 29. /29 ■ 結論 □ 手作業での多関係データセット構築は未だに重要 • ある種のデータは人によるアノテーションが必要 • クラウドソーシングを通じて依頼可能 □ AMDC = 能動学習 + 多関係データ学習 RESCAL を元に、データが少ない時の学習を安定化 □ 3 つの工夫により性能向上することを確認 • 能動学習によりコストを大幅に削減 • RESCALに加えた制約により過学習を防止 • 負例が多い場合に neg AUC-loss が有効 手作業による多関係データセット構築問題を導入した 29