Successfully reported this slideshow.
Your SlideShare is downloading. ×

教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)

Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad
Ad

Check these out next

1 of 82 Ad

More Related Content

Slideshows for you (20)

Viewers also liked (19)

Advertisement

Similar to 教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー) (20)

More from STAIR Lab, Chiba Institute of Technology (7)

Advertisement

Recently uploaded (20)

教師なしオブジェクトマッチング(第2回ステアラボ人工知能セミナー)

  1. 1. Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング NTTコミュニケーション科学基礎研究所 岩田具治
  2. 2. 2Copyright©2016 NTT corp. All Rights Reserved. 研究してきたこと Recommender system Clustering Topic modeling Information diffusion Object matching Visualization Active Learning Domain adaptation
  3. 3. 3Copyright©2016 NTT corp. All Rights Reserved. 今日の目次 • 教師なしオブジェクトマッチングの導入 • 具体的な手法 – 潜在確率モデルによる教師なしクラスタマッチン グ – ネットワークデータのための教師なしクラスタマッ チング – 多言語文書データからの普遍文法の抽出
  4. 4. 4Copyright©2016 NTT corp. All Rights Reserved. 機械学習 • 教師あり学習 – 入力と出力のペアから未知の出力を予測する – 例1:スパムメールフィルタ – 例2:画像認識 • 強化学習 – 入力に対する正解の出力は与えられないが,出力の 評価は与えられ,最適な出力を学習する – 例1:ロボット制御 – 例2:ゲーム • 教師なし学習 – データの背後に存在する隠れた構造を抽出する
  5. 5. 5Copyright©2016 NTT corp. All Rights Reserved. 教師なし学習 • 例1:クラスタリング – 似た購買行動をする消費者グループを見つける – 関連する文書のまとまりを見つける
  6. 6. 6Copyright©2016 NTT corp. All Rights Reserved. 教師なし学習 • 例2:次元削減 – 高次元データを2次元に変換して可視化する – 本質的な次元だけ残すことでノイズを除去する
  7. 7. 7Copyright©2016 NTT corp. All Rights Reserved. オブジェクトマッチング • 異なるドメインのオブジェクト間を対応付ける • 例 – 画像とタグ – 英語と日本語の単語 – 異なるデータベースのID(名寄せ) クラスタ 教師なし マッチング unsupervised cluster matching English Japanese
  8. 8. 8Copyright©2016 NTT corp. All Rights Reserved. 教師ありオブジェクトマッチング • 対応データが教師データとして与えられる • 対応が未知のテストデータを対応付ける annotation ドメイン1 ドメイン2 教師データ ドメイン1 ドメイン2 テストデータ ?
  9. 9. 9Copyright©2016 NTT corp. All Rights Reserved. 既存手法:正準相関分析 • 学習フェーズ – 正解対応データが低次元潜在空間で同じ位置に 埋め込まれるように線形写像を学習する 低次元潜在空間 ドメイン1高次元空間 ドメイン2高次元空間 線形写像𝑊1 線形写像𝑊2
  10. 10. 10Copyright©2016 NTT corp. All Rights Reserved. 既存手法:正準相関分析 • テストフェーズ – 学習した線形写像を使ってテストデータを低次元 潜在空間に写像したときに,近くに配置された データが対応すると推定学習する ドメイン1高次元空間 ドメイン2高次元空間
  11. 11. 11Copyright©2016 NTT corp. All Rights Reserved. 既存手法:正準相関分析 • テストフェーズ – 学習した線形写像を使ってテストデータを低次元 潜在空間に写像したときに,近くに配置された データが対応すると推定学習する 低次元潜在空間 ドメイン1高次元空間 ドメイン2高次元空間 線形写像𝑊1 線形写像𝑊2
  12. 12. 12Copyright©2016 NTT corp. All Rights Reserved. 既存手法:正準相関分析 • テストフェーズ – 学習した線形写像を使ってテストデータを低次元 潜在空間に写像したときに,近くに配置された データが対応すると推定学習する 低次元潜在空間 ドメイン1高次元空間 ドメイン2高次元空間 線形写像𝑊1 線形写像𝑊2
  13. 13. 13Copyright©2016 NTT corp. All Rights Reserved. 教師ありマッチング手法の問題点 • 対応データが必要 – 例:対訳文,辞書 • 対応データが入手困難・不可能な状況もある – プライバシーの保護 • 異なる企業間で顧客情報の共有ができない – データの入手目的や方法が異なる • すでに入手したデータの場合,対応が消えている場合もあ る – 人手による対応付け高コストが高い • 辞書や対訳データが整備されていない使用人数が少ない 言語もある
  14. 14. 14Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • 対応データなしで対応を見つける ドメイン1 ドメイン2 ?
  15. 15. 15Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • ドメイン間のオブジェクトの距離は測れない C A B ドメイン1空間 3 2 1 ドメイン2空間
  16. 16. 16Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • ドメイン間のオブジェクトの距離は測れない • ドメイン内のオブジェクトの距離は測れる C A B ドメイン1空間 3 2 1 ドメイン2空間
  17. 17. 17Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • ドメイン間のオブジェクトの距離は測れない • ドメイン内のオブジェクトの距離は測れる C A B ドメイン1空間 3 2 1 ドメイン2空間 Cだけ離れている 1だけ離れている
  18. 18. 18Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • ドメイン間のオブジェクトの距離は測れない • ドメイン内のオブジェクトの距離は測れる C A B ドメイン1空間 3 2 1 ドメイン2空間 Cだけ離れている AはBよりもCに近い 1だけ離れている 2は3よりも1に近い
  19. 19. 19Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング • ドメイン間のオブジェクトの距離は測れない • ドメイン内のオブジェクトの距離は測れる C A B ドメイン1空間 3 2 1 ドメイン2空間 Cだけ離れている AはBよりもCに近い 1だけ離れている 2は3よりも1に近い
  20. 20. 20Copyright©2016 NTT corp. All Rights Reserved. 今日の目次 • 教師なしオブジェクトマッチングの基礎 • 具体的な手法 – 潜在確率モデルによる教師なしクラスタマッチン グ – ネットワークデータのための教師なしクラスタマッ チング – 多言語文書データからの普遍文法の抽出
  21. 21. Copyright©2016 NTT corp. All Rights Reserved. 潜在確率モデルによる 教師なしクラスタマッチング Tomoharu Iwata joint work with Tsutomu Hirao and Naonori Ueda
  22. 22. 22Copyright©2016 NTT corp. All Rights Reserved. 教師なしオブジェクトマッチング手法 • 既存手法 – kernelized sorting [Quadrianto et al. 2010] – convex kernelized sorting [Djuric, Grbovic, Vucetic, 2012] – least squares object matching [Yamada and Sugiyama, 2011] – matching canonical correlation analysis [Haghighi et al. 2008] • 問題点 – 1対1対応のみ発見 – ドメイン毎のオブジェクト数が同じでないといけない – 2ドメイン以上に対応
  23. 23. 23Copyright©2016 NTT corp. All Rights Reserved. タスク:教師なしクラスタマッチング • 異なるドメイン間のクラスタの対応を教師なし で見つける – 1対1対応とは限らない – ドメイン数は2以上 – オブジェクト数は異なってもよい car automobile motorcar wagen automobil 車 自動車 乗用車 English German Japanese
  24. 24. 24Copyright©2016 NTT corp. All Rights Reserved. 提案法:教師なしクラスタマッチングの ための潜在変数モデル 1. 各ドメインのデータを共通の低次元潜在空間へ 埋め込む 2. 潜在空間でクラスタリング 3. 同じクラスタになったオブジェクトが対応 ドメイン1高次元空間 ドメイン2高次元空間
  25. 25. 25Copyright©2016 NTT corp. All Rights Reserved. 提案法:教師なしクラスタマッチングの ための潜在変数モデル 1. 各ドメインのデータを共通の低次元潜在空間へ 埋め込む 2. 潜在空間でクラスタリング 3. 同じクラスタになったオブジェクトが対応 ドメイン1高次元空間 ドメイン2高次元空間 低次元潜在空間
  26. 26. 26Copyright©2016 NTT corp. All Rights Reserved. 提案法:教師なしクラスタマッチングの ための潜在変数モデル 1. 各ドメインのデータを共通の低次元潜在空間へ 埋め込む 2. 潜在空間でクラスタリング 3. 同じクラスタになったオブジェクトが対応 ドメイン1高次元空間 ドメイン2高次元空間 低次元潜在空間
  27. 27. 27Copyright©2016 NTT corp. All Rights Reserved. 提案法:教師なしクラスタマッチングの ための潜在変数モデル 1. 各ドメインのデータを共通の低次元潜在空間へ 埋め込む 2. 潜在空間でクラスタリング 3. 同じクラスタになったオブジェクトが対応 ドメイン1高次元空間 ドメイン2高次元空間 低次元潜在空間
  28. 28. 28Copyright©2016 NTT corp. All Rights Reserved. 確率的生成モデルによるクラスタリング • クラスタが与えられたときにデータが生成される 過程を確率を用いて定義 • 実際にはデータが与えられる • データを生成したもっともらしいクラスタを推論 • 利点 – 不確実性を考慮できる – 確率論の枠組みで異種データを統合できる クラスタ データ 生成 推論
  29. 29. 29Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2)
  30. 30. 30Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1
  31. 31. 31Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1 1 2 3 𝜃
  32. 32. 32Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1 1 2 3 𝜃 1つ目のオブジェクトの クラスタ割当: 𝑧1 = 2
  33. 33. 33Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1 1 2 3 𝜃 1つ目のオブジェクトの クラスタ割当: 𝑠1 = 2 𝒙1
  34. 34. 34Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1 1 2 3 𝜃 1つ目のオブジェクトの クラスタ割当: 𝑠2 = 1 𝒙1 𝒙2
  35. 35. 35Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • k平均法の確率版 • 生成過程 – クラスタ毎の平均は{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾} – For オブジェクト 𝑛 = 1, ⋯ , 𝑁 • クラスタ割当を決める 𝑠 𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝜇 𝑠 𝑛 , 𝜎2) 𝜇2 𝜇3 𝜇1 1 2 3 𝜃 𝒙1 𝒙2 𝒙5 𝒙7 𝒙6 𝒙9 𝒙4 𝒙8 𝒙3
  36. 36. 36Copyright©2016 NTT corp. All Rights Reserved. 混合正規分布によるクラスタリング • 推論 – オブジェクト集合{𝒙1, 𝒙2, ⋯ , 𝒙 𝑁}を生成したもっと もらしいクラスタ割当集合 𝑠1, 𝑠2, ⋯ , 𝑠 𝑁 、クラスタ 平均集合{𝜇1, 𝜇2, ⋯ , 𝜇 𝐾}、クラスタ割合𝜃を求める 𝒙1 𝒙2 𝒙5 𝒙7 𝒙6 𝒙9 𝒙4 𝒙8 𝒙3 𝜇2 𝜇3 𝜇1 𝒙1 𝒙2 𝒙5 𝒙7 𝒙6 𝒙9 𝒙4 𝒙8 𝒙3
  37. 37. 37Copyright©2016 NTT corp. All Rights Reserved. 教師なしクラスタマッチング生成モデル • 潜在空間に無限個の潜在ベクトル{𝒛1, 𝒛2, 𝒛3 ⋯ } • 潜在空間から各ドメインの線形写像行列{𝑊1, ⋯ , 𝑊𝐷} • For ドメイン 𝑑 = 1, ⋯ , 𝐷 – For オブジェクト 𝑛 = 1, ⋯ , 𝑁𝑑 • クラスタ割当を決める 𝑠 𝑑𝑛 ∼ Categorical(𝜃) • オブジェクトを生成 𝒙 𝑛 ∼ Normal(𝑊𝑑 𝑧 𝑠 𝑑𝑛 , 𝛼−1 𝐼)
  38. 38. 38Copyright©2016 NTT corp. All Rights Reserved. 教師なしクラスタマッチング生成モデル • 無限混合正規分布 潜在空間 ドメイン1観測空間 z1z2 z3 W1z1 W2z2 W2z3 W2z1 W1z3 W1z2 ドメイン2観測空間 𝛼−1 𝑝 𝒙 𝑑𝑑 𝒁, 𝑾, 𝜽 = � 𝜃𝑗 𝑁(𝒙 𝑑𝑑|𝑾 𝑑 𝒛𝑗, 𝛼−1 𝑰) ∞ 𝑗=1 線形写像行列 潜在ベクトル 精度(分散の逆数)クラスタ割合
  39. 39. 39Copyright©2016 NTT corp. All Rights Reserved. 提案法の入出力 • 入力:Dドメインのオブ ジェクト集合 – 𝒙 𝑑𝑑 ∈ 𝑅 𝑀 𝑑 はドメインdのn番 目のオブジェクトの特徴ベクト ル – オブジェクト数や特徴数はドメ イン事に異なってよい 𝑁 𝑑 ≠ 𝑁 𝑑′, 𝑀 𝑑 ≠ 𝑀 𝑑′ • 出力:オブジェクト毎のク ラスタ割当 – 𝑠 𝑑𝑑 ∈ {1, ⋯ , ∞} はドメインd のn番目のオブジェクトのク ラスタ割当で、クラスタは全 ドメインで共通 39 𝑿1 = {𝒙11, 𝒙12, ⋯ , 𝒙1𝑁1 }, ⋯ , 𝑿 𝐷 domain2domain1 object→ feature→ feature→ 𝑺1 = {𝑠11, 𝑠12, ⋯ , 𝑠1𝑁1 }, ⋯ , 𝑺 𝐷 objects indomain2 objects indomain1 clusters
  40. 40. 40Copyright©2016 NTT corp. All Rights Reserved. 提案法の特徴 • クラスタ数を自動推定できる – ディリクレ過程を用いて無限個のクラスタを想定 • 異なるドメインのオブジェクトを共通のクラスタに 割当できる – 潜在ベクトルを全ドメインで共有 • ドメイン毎に異なる特徴次元や統計的性質を考 慮できる – ドメイン固有の線形写像行列 • ドメイン毎に異なるオブジェクト数でもよい – 潜在ベクトルが与えられたとき、各ドメイン独立にオ ブジェクトを生成
  41. 41. 41Copyright©2016 NTT corp. All Rights Reserved. 推論 • 確率的EMアルゴリズム – Eステップ:クラスタ割当sをギブスサンプリング – Mステップ:写像行列Wを最尤推定 – 潜在ベクトルz、クラスタ割合θ、精度αは解析的に積分消去 41 𝑝 𝑠 𝑑𝑑 = 𝑗 𝑿, 𝑺∖𝑑𝑑, 𝑾 ∝ 𝑝(𝑠 𝑑𝑑 = 𝑗, 𝑺∖𝑑𝑑) 𝑝(𝑺∖𝑑𝑑) 𝑝(𝑿|𝑠 𝑑𝑑 = 𝑗, 𝑺∖𝑑𝑑, 𝑾) 𝑝(𝑿∖𝑑𝑑|𝑺∖𝑑𝑑, 𝑾) 𝑝(𝑠 𝑑𝑑 = 𝑗, 𝑺∖𝑑𝑑) 𝑝(𝑺∖𝑑𝑑) ∝ � 𝑁𝑗∖𝑑𝑑 𝛾 for an existing cluster for a new cluster 𝑝(𝑿|𝑠 𝑑𝑑 = 𝑗, 𝑺∖𝑑𝑑, 𝑾) 𝑝(𝑿∖𝑑𝑑|𝑺∖𝑑𝑑, 𝑾) = 2𝜋 −𝑀 𝑑/2 𝑟 𝑏∖𝑑𝑑 ′ 𝑎∖𝑑𝑑 ′ 𝑏𝑠 𝑑𝑑=𝑗 ′ 𝑎 𝑠 𝑑𝑑=𝑗 ′ Γ(𝑎 𝑠 𝑑𝑑=𝑗 ′ ) Γ(𝑎∖𝑑𝑑 ′ ) 𝑪𝑗,𝑠 𝑑𝑑=𝑗 1/2 𝑪𝑗∖𝑑𝑑 1/2 a θ z γ s x W α r ∞ DN bmixture weight precision latent vector projection matrix objectcluster assignment
  42. 42. 42Copyright©2016 NTT corp. All Rights Reserved. 回転手書き数字のマッチング • ドメイン1:元画像 • ドメイン2:90度回転 • ドメイン3:180回転 42
  43. 43. 43Copyright©2016 NTT corp. All Rights Reserved. 異なるドメインへの写像 • ドメインdから潜在空間への写像 𝒛� = 𝑾 𝑑 𝑇 𝑾 𝑑 −1 𝑾 𝑑 𝑇 𝒙 • 潜在空間からドメインd’への写像 𝒙� 𝑑 = 𝑊𝑑𝑑 𝒛� • ドメインdからドメインd’への写像行列 𝑾 𝑑𝑑 𝑾 𝑑 𝑇 𝑾 𝑑 −1 𝑾 𝑑 𝑇 43 latent space domain d domain d’
  44. 44. 44Copyright©2016 NTT corp. All Rights Reserved. 実験 • 3つの人工データ、4つの実データ • 特徴をランダムに2つに分割して2つのドメイン を作成 • 同じクラスラベルを持つオブジェクトをマッチン グさせたい • 評価尺度:adjusted Rand index(高いほど良い) 44 𝑝 𝑠 𝑑𝑑 = 𝑗 𝑋, 𝑆∖𝑑𝑑, 𝑊 ∝ � 𝑁𝑗∖𝑑𝑑 ⋅ 𝑝(𝑥 𝑑𝑛|𝑠 𝑑𝑛 = 𝑗, 𝑆∖𝑑𝑛, 𝑊) 𝛾 ⋅ 𝑝 𝑥 𝑑𝑑 𝑊 clustering each domain individually clustering, then one-to-one matching one-to-one matching one-to-one matching, then clustering KM: k-means, CKS: convex kernelized sorting object→ feature→
  45. 45. 45Copyright©2016 NTT corp. All Rights Reserved. 実験 • 真の潜在空間次元K*=5の場合の人工データ • 真の次元と同じ場合に最も高い性能 • 提案法はベイズ推定により潜在次元に対して頑健 45 adjustedRandindex latent dimensionality Proposed KM-CKS CKS-KM KM CKS
  46. 46. 46Copyright©2016 NTT corp. All Rights Reserved. 実験 • ドメイン数を変化させても提案法は最も高い精度を達成 46 adjustedRandindex #domains D Proposed CKS-KM KM-CKS KM CKS
  47. 47. 47Copyright©2016 NTT corp. All Rights Reserved. 半教師あり • 少数の対応データが得られる場合もある • Eステップで対応データは必ず同じクラスタに 割り当てられるとする 𝑝 𝑠 𝑑𝑑 = 𝑠 𝑑′ 𝑛′ = 𝑗 𝑿, 𝑺∖𝑑𝑑𝑑′ 𝑛𝑛, 𝑾 unsupervised semi-supervised
  48. 48. 48Copyright©2016 NTT corp. All Rights Reserved. 半教師あり実験 labeled object rate adjustedRandindex
  49. 49. 49Copyright©2016 NTT corp. All Rights Reserved. 結論 • 教師なしクラスタマッチング手法を提案 – 対応データ不要 – 多ドメイン、多対多、任意のオブジェクト数に対応 • 今後の展開 – 非線形写像 – 実応用 • バイオ、購買、多言語解析 49
  50. 50. Copyright©2016 NTT corp. All Rights Reserved. ネットワークデータのための 教師なしクラスタマッチング NTTコミュニケーション科学基礎研究所 岩田具治 joint work with James Lloyd and Zoubin Ghahramani
  51. 51. Introduction • Networks have common latent groups – lexical networks from different languages – social networks from different research labs – biological networks from different species – user-item networks from different stores 車 自動車 運転する 動かす ドライバー 運転手 car motorcar drive run driver operator
  52. 52. Introduction • Find correspondence between clusters in multiple networks without node correspondence – e.g. discover shared word clusters from multi- lingual document-word networks without cross- language alignment information • Networks from different fields exhibit common characteristics – e.g. Scale-free, small world, community structure • Multi-task learning for networks
  53. 53. Input: two user-item networks user user item item
  54. 54. Output: common user/item clusterssortedusers user sorted items sortedusers sorted items
  55. 55. Task Input
  56. 56. Task Input Output clustering
  57. 57. Task Input Output matching
  58. 58. Proposed Method: ReMatch • based on Infinite Relational Models (IRM) [Kemp, et. al. 2006] – infinite version of stochastic block models – clustering nodes based on connectivity • a single network is modeled by an IRM • multiple IRMs are generated from shared connectivity and cluster proportions • different networks can share clusters and their interaction patterns
  59. 59. Generative process of ReMatch
  60. 60. ReMatch: IRM with a combined matrix missing missing Network1 Network2
  61. 61. Inference • collapsed Gibbs sampling
  62. 62. Unidentifiable Networks A B C a b c A B a b Identifiable Networks A B C a c b
  63. 63. clusterindex→ node index → clustering and matching simultaneously (user) (item) ×:network1 ○:network2
  64. 64. Experiments with synthetic data Adjusted Rand Index
  65. 65. Experiments with real-world user-item data user item
  66. 66. Experiments with real-world document-word data (Wikipedia in English and German)
  67. 67. Conclusion • We proposed the probabilistic model for unsupervised cluster matching for networks. • Future work – investigate other common properties • e.g. small world, scale free – apply the proposed framework to other network models • e.g. latent feature model, dynamic IRM
  68. 68. Copyright©2016 NTT corp. All Rights Reserved. 多言語文書データからの 普遍文法の抽出 Tomoharu Iwata joint work with Daichi Mochihashi and Hiroshi Sawada
  69. 69. Introduction • Languages share certain common properties – word order in most European languages is SVO • Reasons for commonalities – a common ancestor language – borrowing from nearby languages – innate abilities of humans 69 protolang lang 1 lang 2 lang 1 lang 2 lang 1 lang 2 brain
  70. 70. Task • Extract a common grammar from multilingual corpora 70 non-parallel and non-annotated multilingual corporaINPUT ・ common grammar ・ language dependent grammars OUTPUT
  71. 71. Our approach • Hierarchical Bayesian modeling – Monolingual grammar: probabilistic context-free grammar (PCFG) • Each sentence is generated from the language dependent PCFG – PCFG for each language is generated from a prior (common grammar) 71 PCFG PCFG prior (common grammar) English sentences PCFG German sentences PCFG Swedish sentences
  72. 72. Probabilistic context free grammar 72 S NP VP V NP Det N I saw a dog S → NP VP : 0.5 S → VP VP : 0.1 probability of nontermial production nontermial terminal probability of termial emission V → saw : 0.002 V → study : 0.001 probability of choosing production or emission S: emission: 0.0 V: emission: 0.9
  73. 73. Generative model of PCFG 73 ( , , )l l l=G K W ΦPCFG of language l nonterminals terminals rule probabilities *nonterminals are shared among languages { }, ,l lA lA lA A∈ = K Φ θ φ ψ emit|S prod|S en,l S=φ en,l S=θ S→learn S→universal S→from S→grammar S→multi en,l S=ψ emit|S prod|S de,l S=φ de,l S=θ S→dieser S→vortrag S→sehr S→ist S→gut de,l S=ψ emit|S prod|S S ϕ α S θ α English German Commonprobability of terminal emission (multinomial) A→w probability of nontermial production (multinomial) A→BC probability of choosing emission or production (multinomial) (Dirichlet) (Dirichlet) S→NN S→NV S→VN S→VV S→SN S→NN S→NV S→VN S→VV S→SN S→NN S→NV S→VN S→VV S→SN rule probability parameters S S S
  74. 74. Inference • variational Bayesian method – estimate posterior – via a tractable variational distribution – so as to minimize the KL divergence 74 parse trees language dependent PCFG parameters common grammar parameters multilingual corpora [ ] , , arg min KL ( , , ) || ( , , | )q p Z Φ α Z Φ α Z Φ α X
  75. 75. Parameter update • The parameters can be updated efficiently using the inside- outside algorithm 75 language dependent parameters parse tree common parameters
  76. 76. Experiments • Data – EuroParl corpus in 11 languages – 100,000 sentences for each language – not sentence-aligned – 20 nonterminals • Probable terminals for each nonterminals – only nonterminals with high probabilities of selecting the emission rule • Common grammar rule probability 76 1 0 1 ˆ ABC A BC AB CB C ϕθ θ θ ϕ αα ϕ α α α→ ′ ′′ ′ = ⋅ + ∑
  77. 77. Probable terminals for nonterminal 9 77 da: of for in and to with on from de: and in for on of to with to also el: and in that from be of for es: of that to in by with and for on fi: and Europe is-like or are nor-is English translation fr: of has that for on in of and by it: of and of of of in to ‘s of by nl: of in for and on with to about but pt: of of of and to in of and with sv: in and for of to on with as
  78. 78. Probable terminals for nonterminal 2 78 da: it I we there they therefore this debate what de: is are have shall has must might my will can el: be for to must not and this with that es: is there thanks morning that you-have we is place are fi: is not are should was sent not may concerns can-be English translation fr: new is in has place will you have it: and that not one debate take-place president are nl: is be must has have must can shall will is pt: that and not mr. parliament of approves tommorow with sv: the I we this what therefore they debate you it
  79. 79. Probable terminals for nonterminal 11 79
  80. 80. Inferred common grammar 80 * We named nonterminals using grammatical categories after the inference = = = = = = = R: root, S: sentence, SBJ: subject VP: verb phrase, V: verb, NP: noun phrase DT: determiner, N: noun, PR: preposition
  81. 81. Conclusion • Bayesian approach for capturing commonalities at the syntax level for non-parallel multilingual corpora • Future work – model improvement • more sophisticated probabilistic grammar models • infer #nonterminals with nonparametric Bayes • more hierarchy for modeling a evolutionary tree of languages – experiments with a greater diversity of languages – finding a universal grammar 81lang 1 lang 2 lang 3
  82. 82. 82Copyright©2016 NTT corp. All Rights Reserved. 今日の目次 • 潜在確率モデルによる教師なしクラスタマッ チング • ネットワークデータのための教師なしクラスタ マッチング • 多言語文書データからの普遍文法の抽出

×