20200420 lime skype_

論⽂共有会＠Skype 2020/4/20 19:30
＠tmhssk1

ABSTRACT
機械学習モデルの応⽤が増えている⼀⽅、依然としてそのほとんどのモデルの中⾝はブラックボックスである。
モデルの予測の信憑性、またその予測の実⽤に対する信憑性の担保のために予測メカニズムへの理解は重要である。
本論⽂では、⼈間にとって解釈可能な新たなモデルを、出⼒された予測の周辺領域のサンプルによって学習し、予測に対す
る解釈を⾏う⼿法（LIME）を提案する。
また、同⼿法に劣モジュラ最適化を⽤いることで、代表的な予測に対する説明を統合してモデル全体についての説明性を表
現する⼿法を提案する。
これらの⼿法はタスク、機械学習⼿法を問わない適応性を有する。
またこれらの⼿法は「被験者が実際にその予測を信⽤するか判断する」、「より汎化性のあるモデルを選択する」、「得られた説
明性に基づいてモデルを改善する」、「モデルの信⽤できない点を指摘する」実験で有⽤性を⽰した。

1. INTRODUCTION
実際に作り上げた機械学習モデルが実⽤に資するかどうか
→ ユーザーがそのモデル、またはその予測を信⽤しなければ実⽤できない。
モデルの信憑性には2つの要素がある
① 結果として得られた予測が信⽤できるか
② モデル⾃体が信⽤できるか
→ Local Interpretable Model-agnostic Explanations (LIME) を提案
→ Submodular Pick - Local Interpretable Model-agnostic Explanations (LIME) を提案

2. THE CASE FOR EXPLANATIONS
予測結果を説明するとは
⼊⼒したデータの構成要素 (例︓テキストであれば単語、画像であれば特定の領域) と予測結果の関係性
を⽰す⾔語的または視覚的な表現

Desired Characteristics for Explainers
⼊⼒と出⼒の間の質的な理解を与えるものではなくてはならない。
機械学習の専⾨家でなくとも解釈できることが好ましい。
Local fidelity
Model-agnostic
Providing a global perspective
Interpretable
予測結果の説明性については局所的な忠実性が保たれなくてはならない。
どのようなモデルにも適⽤可能でなくてはならない。
モデル全体の信憑性の評価に⽤いることが可能であることが重要である。

3. LOCAL INTERPRETABLE MODEL-AGNOSTIC EXPLANATIONS
3.1 Interpretable Data Representations
→
解釈性を得るために、元の⼊⼒データを⼈間にとって理解しやすい形にして表現する
3.2 Fidelity-Interpretability Trade-off
：解釈のためのモデル
：モデルの複雑さを⽰す関数
：説明したいモデル
：z と x の距離を⽰す関数
本論⽂では g にSparse linear modelを⽤いる

3.3 Sampling for Local Exploration
説明⽤モデルとして線形モデルをおく
3.4 Sparse Linear Explanations
g の f に対する近似によって⽣じる差を以下とする
→
x’ の0でない要素をランダムに変更し、z’ を⽣成
→
f(z) をそれぞれの z’ のラベルとしてデータセット Z を⽣成する
但しとして
近いデータにより⼤きな重みがかかるようにする

3.5 Example 1: Text classification with SVMs
the 20 newsgroup datasetを⽤い、 SVMで “Christianity” か “Atheism” を判別するモデルを作成。
Accuracy 94%であったが、予測の根拠を可視化すると全然汎化できていないことがわかる。

3.6 Example 2: Deep networks for images
学習済みのInceptionモデルにaの画像を⼊⼒してその説明性を検討。
予測の根拠となっている領域は、⼈間の感覚で妥当と⾔えることがわかる。

4. SUBMODULAR PICK FOR EXPLAINING MODELS
submodular pick(SP)︓複数の予測に対して得られた説明を、劣モジュラ最適化を⽤いて統合
少ない説明件数でカバーされる特徴数が最⼤化されるように統合する
ここまでの⼿法では、「① 結果として得られた予測が信⽤できるか」しか評価できない。
では、「② モデル⾃体が信⽤できるか」をどう評価するか。
→ インスタンス X から適切に評価に⽤いる B をピックアップし、Bに対する説明を統合してモデル全体を評価する。

Intermission: 劣モジュラ最適化って何ですか
https://www.slideshare.net/ssuser77b8c6/1-71256266
https://www.youtube.com/watch?v=Z7eMzSHGGAE
このスライドがわかりやすいという話でしたが、私には難しかったです。
下記の動画がなんとなくの理解に有⽤でした。本当になんとなくの理解ですが。
劣モジュラ最適化 (submodular optimization) とは, 劣モジュラ関数を制約条件または⽬的関数に含んだ離散最適化を指
す。 https://www.weblio.jp/content/劣モジュラ最適化
有限集合V上の集合関数fは、任意のX, Y⊆Vに対して f(X) +f(Y) ≥ f(X∪Y) + f(X∩Y) を満たすとき、f は劣モジュラ関数
と呼ばれる。 https://www.ai-gakkai.or.jp/sigdmsm/009/iwata-resume.pdf

5. SIMULATED USER EXPERIMENTS
(1) ⽣成された予測の説明はモデルに対して忠実か
(2) ⽣成された予測の説明はユーザーがその予測を信⽤できるかどうか判断するのに有⽤か
(3) ⽣成された予測の説明はユーザーがそのモデル全体を信⽤できるかどうか判断するのに有⽤か
・・・を検証する。
5.1 Experiment Setup
感情分析⽤のBooksデータセット、DVDデータセット(それぞれ2000インスタンス、うち1600を学習⽤、400をテスト⽤)
を利⽤。
・decision trees (DT)
・logistic regression with L2 regularization (LR)
・nearest neighbors (NN)
・support vector machines with RBF kernel (SVM)
・LIME
・parzen: カーネル密度推定を⽤いモデルを近似し、得られた確率密度関数のgradientを⽤いる
(D. Baehrens et al. Journal of Machine Learning Research, 2010)
・greedy: 出⼒する予測が変わってしまうまで特徴を除去し続ける (D. Martens et al.MIS Q, 2014)
説明⽣成の際の近似インスタンス数はN = 15, 000に設定、説明に提⽰する特徴数はK = 10とした。
・Random forest (RF)
Bag of wordsを特徴量として、以下のモデルを作成 word2vecの分散表現を特徴量として、以下のモデルを作成
モデル全体の説明⽣成の際にはrandom pick(RP)、submodular pick(SP)を⽐較した。
説明⽣成⼿法として下記を⽐較

5.2 Are explanations faithful to the model?
(1) ⽣成された予測の説明はモデルに対して忠実か、を検証
特徴数の最⼤が10となるようSparse linear regression
とDecision treeを構築し、確実に有⽤な特徴を同定。
テストデータに対する説明⽣成で同定した重要な特徴がどれ
だけ再現されるかをRecallを⽤いて評価した。
LIMEは常に90%以上のRecallを達成した。

5.3 Should I trust this prediction?
“untrustworthy”である特徴を除去して予測結果が変
わった場合には、そのテストデータに対する予測を
“untrustworthy” とラベル付けし、変わらなければ
“trustworthy” とそれぞれの説明に対してラベル付けする。
説明に表⽰された特徴の中の“untrustworthy” に該当す
る特徴を除去して予測結果が変わった場合にはユーザーは
説明を信⽤しないと仮定し、ラベルに対するF1スコアを算出
した。
(2) ⽣成された予測の説明はユーザーがその予測を信⽤できるかどうか
判断するのに有⽤か、を検証
結果はLIMEが他を圧倒した。

5.4 Can I trust this model?
(3) ⽣成された予測の説明はユーザーがそのモデル全体を信⽤できるか
どうか判断するのに有⽤か、を検証
Trainデータの中で特定のクラスに偏り、Testデータでは偏ら
ないノイズとなる特徴を意図的に⽣成。
ノイズとなる特徴が⽣成された説明に出現した場合、ユー
ザーはモデルを信⽤しないと仮定。
決定⽊数30のRandom forestの分類器をペアで作成し、
検証データで説明を⽣成。
Testデータに対するaccuracyが⾼いモデルと、ユーザーが信
⽤すると仮定されたモデルが⼀致するかを検証。
LIMEはgreedyより優れていた。また、SP-LIMEがより良い
結果であった。（parzenはrandamを少し上回る程度で
あったため、グラフからは省略されている。）

6. EVALUATION WITH HUMAN SUBJECTS
6.1 Experiment setup
(1) 2つのモデルのうちより汎化された⽅を選択できるか
(2) 提⽰された説明に基づいて特徴量を再設計しモデルを改善できるか
(3) 提⽰された説明に基づいてモデルの不備を指摘できるか
The 20 newsgroups text dataset の中の “Christianity” と “Atheism”のデータを利⽤。
(ヘッダーや記載者名を含み、学習によって汎化しにくいデータであると)
Religion dataset: 検証⽤データとしてDMOZからChristianity、Atheismのサイトを抽出してそれぞれ819のweb
ページを準備。
SVMを⽤いて20 newsgroupsのデータでモデルを学習。交差検証でハイパーパラメータを調整。
・・・を被験者で検証する

6.2 Can users select the best classifier?
汎化を阻害する単語を⼿作業で除去した20 newsgroupsのデータ
とそのままのデータでSVMでそれぞれモデルを学習し、汎化性能の⾼い
分類器(cleaned)と低い分類器(original)の2つのモデルを作成。
religion datasetに対して
originalモデルはaccuracy57.3%, cleanedは69.0%
20 newsgroup datasetに対して
originalモデルはaccuracy94.0%, cleanedは88.0%
被験者としてクラウドソーシングサービスであるAmazon Mechanical Turkを利⽤。被験者は機械学習のエキスパートでは
ない。
greedy, LIME(それぞれrandom pick(RP)、submodular pick(SP)の条件について実験)によって⽣成された説明を
⾒せて、被験者にどちらが汎化性が⾼いモデルかを選択させる。各条件で100ユーザーで実験を⾏なった。
いずれの条件でもSPがRPより優れた結果であり、RP・SPいずれでもgreedyよりLIMEの⽅が優れていた。
(1) 2つのモデルのうちより汎化された⽅を選択できるか、を検証

6.3 Can non-experts improve a classifier?
被験者として同じくAmazon Mechanical Turkを利⽤。
(2) 提⽰された説明に基づいて特徴量を再設計しモデルを改善できるか、を検証
（要は汎化の阻害となっている特徴を識別して除去できるか、を検証）
originalモデルにおいて10個のインスタンス(B = 10)、10単語 (K
= 10)の説明を⾒せ、学習に不要と考える単語を選択してもらう。
10⼈に除去する単語ををれぞれ選択してもらい、再学習したモデル
はさらにその後5⼈に単語除去をしてもらうサイクルを2回⾏う（最終
的に10x5x5=250個のモデルが作成される）。
SP-LIMEの⽅がRP-LIMEよりモデルの汎化に有⽤であった。

6.4 Do explanations lead to insights?
学習済みのInceptionの最初のmax pooling層の重みを特
徴量として、20枚のオオカミとハスキー⽝の画像を⽤いて
logistic regression model (bad model) を作成。
20枚のオオカミとハスキー⽝の画像を準備。全てオオカミの画像
の背景は雪となっており、ハスキー⽝はそうなっていないように意
図的に準備。
60枚の追加画像を⽤いて、モデルが背景に基づいてオオカミかハ
スキー⽝かを出⼒していることを確認。
10枚のテスト画像から得られた説明で被験者にモデルの信憑性
について質問した。
モデルの予測に対する説明は、モデルの不備に気づくのに有⽤で
あった。
(3) 提⽰された説明に基づいてモデルの不備を指摘できるか、を検証

7. RELATED WORK
D. Baehrens, T. Schroeter, S. Harmeling, M. Kawanabe, K. Hansen, and K.-R. Mu ¨ller. How to explain individual
classification decisions. Journal of Machine Learning Research, 11, 2010.
M. W. Craven and J. W. Shavlik. Extracting tree-structured representations of trained networks. Neural information
processing systems (NIPS), pages 24–30, 1996.
学習したモデルから近似した決定⽊を⽣成する
説明として予測に対するfeatureのgradient vectorを利⽤
I. Sanchez, T. Rocktaschel, S. Riedel, and S. Singh. Towards extracting faithful and descriptive representations of latent
variable models. In AAAI Spring Syposium on Knowledge Representation and Reasoning (KRR): Integrating Symbolic and
Neural Approaches, 2015.
ロジックルールとBayesianネットワークを利⽤した説明
E. Strumbelj and I. Kononenko. An efficient explanation of individual classifications using game theory. Journal of Machine
Learning Research, 11, 2010.
Model-agnosticな説明⼿法
Game theoryを⽤いてモデルへの寄与を可視化
サンプリングに基づいた説明⽣成

8. CONCLUSION AND FUTURE WORK
機械学習モデルの予測の説明を表現する⼿法としてLIMEを提案した。本⼿法は機械学習
⼿法の種類を問わず適⽤可能である。
機械学習モデル⾃体の説明性を検討する⼿法としてSP-LIMEを提案した。
本実験では説明の表現にsparse linear modelを使⽤したが、それ以外の⼿法（決定
⽊など）も検討の余地があるだろう。
本⼿法は機械学習の種類、適⽤領域を問わないため、多くの応⽤が期待できる。
（speech, video, medical domainなど）
将来的なリアルタイムでの応⽤を⽬指し、本⼿法のより実⽤的な最適化を今後検証していく。

個⼈的な感想
説明したいサンプルに対して、近似するサンプルを⽣成してそのサンプルに基づいてsparse linear modelを作
成し、局所的なモデル予測の可視化をするという⼿法。
コンセプト⾃体はとてもシンプルかつ原始的だが、モデル全体の説明性を⾏う際に最適化の⼿法を⼯夫するなど、
シンプルであってもコンセプトの実現には多くの試⾏錯誤が必要なのだなと感じた。
シンプルな⼿法であり適⽤する機械学習⼿法を選ばないという利点は確かに⼤きいが、Inceptionモデルだとそ
れぞれの予測に対する説明⽣成に10分かかるという記述もあり、昨今のディープラーニングモデルに対する実⽤
性に関しては疑念が残る。
コンセプトの提案部分の後の実験の記述について、提案⼿法の有⽤性を⾮常に丁寧に検証しているという印象
であった。

20200420 lime skype_

Recommended

Recommended

More Related Content

More from Tomohisa Seki

More from Tomohisa Seki (10)

Recently uploaded

Recently uploaded (10)

20200420 lime skype_