Recommended
PDF
PDF
PDF
PDF
Probabilistic Graphical Models 輪読会 #1
PDF
PDF
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
PDF
A Study of the Learnability of Relational Properties - Model Counting Meets M...
PDF
Practical recommendations for gradient-based training of deep architectures
PDF
PDF
PDF
PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
PDF
PDF
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
PPTX
PPTX
PPTX
PPTX
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
PDF
Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)
PDF
PDF
A Machine Learning Framework for Programming by Example
PDF
PDF
PDF
PDF
PDF
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PPTX
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
PDF
PDF
More Related Content
PDF
PDF
PDF
PDF
Probabilistic Graphical Models 輪読会 #1
PDF
PDF
Align, Disambiguate and Walk : A Unified Approach forMeasuring Semantic Simil...
PDF
A Study of the Learnability of Relational Properties - Model Counting Meets M...
PDF
Practical recommendations for gradient-based training of deep architectures
Similar to いまさら聞けない “モデル” の話 @DSIRNLP#5
PDF
PDF
PDF
PDF
スタートアップが提案する2030年の材料開発 - 2022/11/11 QPARC講演
PDF
PDF
AGenT Zero: Zero-shot Automatic Multiple-Choice Question Generation for Skill...
PPTX
PPTX
PPTX
PPTX
機械学習 / Deep Learning 大全 (1) 機械学習基礎編
PDF
Language Models as Representations for Weakly-Supervised NLP Tasks (CoNLL2011)
PDF
PDF
A Machine Learning Framework for Programming by Example
PDF
PDF
PDF
PDF
PDF
PDF
CluBERT: A Cluster-Based Approach for Learning Sense Distributions in Multipl...
PPTX
Improving Coreference Resolution by Learning Entity-Level Distributed Represe...
More from Koji Matsuda
PDF
PDF
PDF
Information-Theoretic Metric Learning
PDF
「今日から使い切る」ための GNU Parallelによる並列処理入門
PDF
PPTX
Approximate Scalable Bounded Space Sketch for Large Data NLP
PPTX
Reading Wikipedia to Answer Open-Domain Questions (ACL2017) and more...
PPTX
Large-Scale Information Extraction from Textual Definitions through Deep Syn...
PDF
Unified Expectation Maximization
PDF
Joint Modeling of a Matrix with Associated Text via Latent Binary Features
PDF
Word Sense Induction & Disambiguaon Using Hierarchical Random Graphs (EMNLP2010)
PPTX
PPTX
Entity linking meets Word Sense Disambiguation: a unified approach(TACL 2014)の紹介
PPTX
Vanishing Component Analysis
PPTX
KB + Text => Great KB な論文を多読してみた
いまさら聞けない “モデル” の話 @DSIRNLP#5 1. 2. 3. 4. 5. 6. 7. 8. 「モデル」という言葉の意味
• 人によってさまざま.
– アプリケーション屋さんが使う「モデル」
– 数理屋さんが使う「モデル」
• これほど多義な言葉もそうそう無い
• この多義性が,「つかめなさ」を生んでいる一因
• 天下り的に「モデル」とはこういう意味だ!と定義
するのは難しい(というか,議論が終わらない)
• そこで今回は,自然言語処理においてよく用いら
れる幾つかのモデルから共通の特徴を抜き出す
ことができないか考えてみます
8
9. 10. 11. 12. 13. 14. 15. (脇道)複雑さと信頼性のトレードオフ
• しかし,その
<仮定>/<捨象>
は,正しいですか?
• できることなら,捨象をできるだけ行わず,用い
ることのできる情報をすべて使いたい
– しかし,モデルが複雑性を増せば増すほど,「稀な」
事象に対応するパラメータが増えていきます
• n-‐gramモデルにおいて
n
を大きくした場合
• サイコロを一度だけふって「このサイコロは6しか出ない」と
言っているようなもの
• 何を用い何を捨てるか,というのは腕の見せ所
– ただし,比較的ロバストな学習モデルもあります
15
16. 17. 18. ここまでのまとめ
• 「モデル」とは何か
– ある現象をとらえるために(大胆な)仮定を置くこと
仮定
問題がどのような構造をしているのか
枠組みだけ残し不要な要素を捨象
データ
アルゴリズム
<仮定>
のもとで,データから
パラメータを導きだす方法
パラメータ
<仮定>では定まっていない,モデルの詳
細な状態を表す変数
18
19. モデルを考えよう/
Playing
with
your
Problem
•
問題の性質を考えましょう
– その問題は「分類」で表すのが本当に適切ですか?
• じつは「選好関係」ではないか?「回帰」ではないか?
– ある事例に対するラベルが,他の事例のラベルに影
響を与える場合,構造を扱えるモデルを検討
• 例)品詞ラベルは,周囲の語の品詞に依存する
– モデルの内部の状態を他のモデルへ渡すようなこと
を考えているなら,確率モデルが有用かもしれません
• 全体を一つの確率モデルとして記述することができれば,
見通しが良くなるかも
19
20. (脇道)確率モデルを組み上げる時は
• 推論が効率的にできる構造になっているか
– 鎖状(クリークの数え上げが楽)
• ループがあると,ちょっと難しくなる
– 仮定する分布が共役ペアになっているか
• Dirichlet
/
MulAnomialなど
• 条件付き確率のモデル化で十分ではないか
– 同時確率より表現能力は劣るが,リッチな素性を
入れ込める
– HMM(同時確率)に対するCRF(条件付き確率)
20
21. 「モデル」を中心に据えた論文を
いっぱい読みましょう
• 結局のところ,自分の中に「モデルのモデル/モ
デルの索引」をつくり上げることが必要になる
• 確率モデルを扱った論文は難しい,と言われま
すが,コツさえつかめば何とかなる
– その論文は「何をモデル化しているか」
– それぞれの変数について
• 何を表しているか:現実世界の何と対応しているか
• ドメインはなにか:スカラーか,ベクトルか,確率分布か
– どういう
<仮定>
を置いているか
•
何を
<捨象>
しているか,それは重要ではないのか
背景のグラフィカルモデルは
21
“Joint
Modeling
of
a
Matrix
with
Associated
Text
via
Latent
Binary
Features”
[Zhang
and
Carin,
NIPS
2012]
より
22. 23. モデルを「実装」する
(確率モデルの例)
• ProbabilisAc
Programming
– 確率モデルの
<仮定>
を記述して,データを与えるとよし
なに推論してくれる枠組み
– See
also
:
hpp://probabilisAc-‐programming.org/
– 例) HBC:
Hierarchical
Bayes
Compiler
による
LDA
alpha
eta
beta_{k}
theta_{d}
z_{d,n}
w_{d,n}
~
~
~
~
~
~
Gam(0.1,1)!
Gam(0.1,1)!
DirSym(eta, V)
,
DirSym(alpha, K)
,
Mult(theta_{d})
,
Mult(beta_{z_{d,n}}),
k
d
d
d
in
in
in
in
[1,K]!
[1,D]!
[1,D] , n in [1,N_{d}]!
[1,D] , n in [1,N_{d}]
HBCは現在メンテナンスされていないので,あまりおすすめはできません
実際に使うなら,
BUGS,
Stan,
infer.net(非商用のみ)がホットなようです
BUGS/Stan
は勉強会があるそうです
[検索]
23
24. モデルを「実装」する
(HBCによるLDAの例)
η
α
z
θ
β
w
単語
文書
alpha
eta
beta_{k}
theta_{d}
z_{d,n}
w_{d,n}
~
~
~
~
~
~
Gam(0.1,1)!
Gam(0.1,1)!
DirSym(eta, V)
,
DirSym(alpha, K)
,
Mult(theta_{d})
,
Mult(beta_{z_{d,n}}),
k
d
d
d
in
in
in
in
[1,K]!
[1,D]!
[1,D] , n in [1,N_{d}]!
[1,D] , n in [1,N_{d}]
24
25. モデルを「実装」する
(ニューラルネットの例)
• Torch7
(
hpp://torch.ch/
)
の例
100U
25U
50U
require "nn”!
mlp = nn.Sequential()
-- 多層のネットワーク!
mlp:add( nn.Linear(100, 25) ) – 入力100ユニット -> 中間25ユニット!
mlp:add( nn.Tanh() ) – 活性化関数は tanh!
mlp:add( nn.Linear(25, 50) ) – 出力層は50クラス!
mlp:add( nn.SoftMax() )!
criterion = nn.ClassNLLCriterion()!
trainer
= nn.StochasticGradient(mlp, criterion) – 最適化はSGD!
trainer:train(dataset)
25
26. 27. まとめ(後半)
Playing
with
your
Model
• 「モデルを考える」ときには,
– 直面している問題の性質を考えましょう
• 分類で表すことが適切な問題なのか
• 構造(他の変数との絡み)を考慮する必要があるのか
– 「アルゴリズム」については先人の知恵を借りるこ
とが可能か,時間を割いて調べてみる価値があ
りそうです
というようなことを,研究を始めたばかり(始めるつもり)
の人に伝えたいです
27