8/23/2020 1
A Study of the Learnability of Relational
Properties - Model Counting Meets
Machine Learning (MCML), PLDI 2020.
@tanimocchi
mathiine
※本スライドは個人的なものであり、所属組織とは無関係なものです。
8/23/2020 2
目次
1. PLDI論文選択理由
2. MCMLの全体像(OverviewとContribution)
3. 関連研究
4. Model Counting
5. AlloyとRelational Property
6. Symmetric Breaking (正直よく分からない……)
7. 決定木のCNFへの変換手法
8. 推論モデルの性能評価手法
9. 推論モデルの比較評価手法
10. 評価対象
11. 評価手法
12. 5つの課題と実験評価結果の考察
13. 議論
14. 結論
15. 参照論文
mathiine
8/23/2020 3
PLDI論文選択理由
 PLDIとは?
 Programming Language Design and Implementation
 1970年発祥、現在ではACM SIGPLAN(Special Interest Group
on programming languages)で最も重要な国際会議の一つ
 PLDI is the premier forum in the field of programming
languages and programming systems research, covering
the areas of design, implementation, theory, applications,
and performance.
 本論文選択理由
mathiine
8/23/2020 4
MCMLの全体像 [1/3]
 Model Counting Meet Machine Learningのフロー
mathiine
Alloy Analyzer
10% Sampling
Machine Learning
Test
MPCGen
TREE2CNF
Model Counting
Property 𝝓 Bound 𝒃
SAT/UNSAT
Input Binaries
𝑪𝑵𝑭 𝝓
Training Data Test Data
Inference
Model 𝒅
Training Report
Test Report
𝑪𝑵𝑭 𝝓,𝒅
Metric 𝒊𝒅
𝑴𝑪 𝝓,𝒅
𝒊𝒅
推論モデルが決定木の場合のみ実施
(推論モデルの全入力空間での汎化性能評価)
Alloy記述のPropertyを満たす推論モデルの構築と評価
𝑨𝒑𝒑𝒓𝒐𝒙𝑴𝑪
𝑷𝒓𝒐𝒋𝑴𝑪
𝒕𝒑, 𝒇𝒑, 𝒕𝒏, 𝒇𝒏
8/23/2020 5
MCMLの全体像 [2/3]
 Overview
mathiine
項目 内容
主要貢献 • Model Countingを用いた決定木の定量的評価とRelational Propertyの学
習可能性の評価を可能とするMCMLフレームワークの提案
課題 • 推論モデルはデータセットで評価されるが、全体空間では評価していないため、誤った
汎化性能結果を与え得る
アイデア • 定量的評価を計算量理論のModel Countingに帰着
• 推論モデルの定量的評価や、推論モデル間の意味の違いの評価に応用
実験 • 6個の学習モデルを用いて、16個のRelational Propertyの学習可能性を評価
結果 • 通常のデータセットでの評価手法では推論モデルは非常に良い汎化性能を達成
• 有界に制限した全入力空間での評価では、汎化性能の劣化を確認
• ここで、Ground Truthとしては、Relational PropertyのCNF式(還元すると
CNF式のSAT/UNSAT入力バイナリ値の集合)を利用
考察結果 • 推論モデルの定量的評価と論理プロパティを充足する推論モデルの学習可能性の評
価では、Model Countingが大変重要
8/23/2020 6
MCMLの全体像 [3/E]
 Contribution
mathiine
項目 内容
Relational Propertyの学習 • 16個の学習モデルを用いて、16種類のRelational
Propertyの学習可能性を評価
推論モデルの定量的評価 • Ground TruthとなるRelational Propertyへの入力空
間を用いて、学習済み決定木の汎化性能の定量評価
推論モデル同士の定量的比較 • Ground TruthとなるRelational Propertyへの入力空
間を用いて、2つの学習済み決定木間の差異の定量評価
8/23/2020 7
関連研究 [1/2]
 本論文が、全(有界)入力空間を用いた推論モデルの定量評価
の最初の論文
 プログラムの性質学習に関する既存手法
 Javaプログラムのデータ構造が持つPropertyの機械学習
 Facundo Molina, Renzo Degiovanni, Pablo Ponzio, German
Regis, Nazareno Aguirre, and Marcelo Frias, “Training Binary
Classifiers as Data Structure Invariants,” ICSE, 2019.
 Muhammad Usman,WenxiWang, KaiyuanWang, Cagdas Yelen,
Nima Dini, and Sarfraz Khurshid, “A Study of Learning Data
Structure Invariants Using Off-the-shelf Tools,” SPIN, 2019.
 但し、全(有界)入力空間を用いた推論モデルの定量評価は未実施
mathiine
8/23/2020 8
関連研究 [2/E]
 学習可能性解析の既存手法
 2値分類モデルの学習で必要となるデータ数の議論
 PAC(Probably Approximately Correct) - L. G. Valiant, “A Theory
of the Learnable,” CACM 27, 11 Nov. 1984.
https://doi.org/10.1145/1968.1972
 Relational Property学習手法の性能に関する幾ばくかの知見を提供
 V. N. Vapnik and A Ya. Chervonenkis, “On the Uniform
Convergence of Relative Frequencies of Events to Their
Probabilities,” Theory of Probability and its Applications, 1971.
 0-1損失の平均(精度)より、適合率、再現率、F値は優れた性能指標
 与えたGround Truthに対して、MCMLは、適合率、再現率、F値
同様に、正確に0-1損失の平均(精度)の汎可性能を定量評価可能。
mathiine
Model Counting [1/5]
8/23/2020 mathiine 9
https://www.youtube.com/watch?v=8pE3O2wNAwg
Model Counting [2/5]
8/23/2020 mathiine 10
https://www.youtube.com/watch?v=8pE3O2wNAwg
8/23/2020 11
Model Counting [3/5]
 Model Countingとは?
 解の数え上げ
 計算量理論ではCounting問題として扱う
 通常のTuring MachineではYes/Noを返すが、Counting
Turing Machineは解の個数を返す
 計算量クラス は、下記で特徴付けられる

𝑷𝑷 #𝑷 ここで、
 本論文での解の数え上げ
 Alloyへの制約入力であるRelational Propertyの充足・不充足
バイナリ入力集合が数え上げ対象
 Alloy内部では、Relational PropertyをCNFに変換し、SAT
Solverをインクリメンタルに実施し、SAT解を出力
 例えば、4つのBit変数 𝒂, 𝒃, 𝒄, 𝒅 からなるSAT式 𝑺𝑨𝑻 の充足解 𝟏𝟎𝟏𝟎 が得られ
ると、𝑺𝑨𝑻 ∧ ¬ ¬𝒂 ∨ 𝒃 ∨ ¬𝒄 ∨ 𝒅 を構築し、充足可能性判定を実施する、感じ。
mathiine
8/23/2020 12
Model Counting [4/5]
 MCMLをRelational Property以外に拡張可能か?
 Yes! 本論文でも述べられているが可能
 例えば、LTL(Linear Temporal Logic)式を満たす学習を
Model Countingで評価する事が可能だと考えられる。
 LTL式に対するModel Counting [1/2]
 LTLのSynthesis問題
 仕様を満たすオートマトン実装をCorrect by constructionで自動生
成。仕様が実装可能であればオートマトンを生成。
 これまでの研究経緯
1. Church's problem:1965
2. Rabin Automata, Buchi Automata:1969
3. Buchi, Landeber, Two player game:1969
4. Pnueli LTL:1977
5. Emarson, Clarke, Sifakis, Model Checking:1981
6. Pnueli, Rosner, LTL realizability = 2EXPTIME-complete:1989
7. Piterman, Pnueli, Saar LTLのSubsetのRealizabilityがn^4:2006
 得られたオートマトンの受理・不受理入力集合を数え上げ
mathiine
8/23/2020 13
Model Counting [5/E]
 LTL式に対するModel Counting [2/E]
mathiine
https://www.youtube.com/watch?v=8pE3O2wNAwg
8/23/2020 14
AlloyとRelational Property [1/2]
 Alloy概要
 Alloyは宣言的な一階関係論理(Relational Property:関係代
数と一階命題論理を融合した論理)で制約と、クラス図に似た表記の
仕様が記述可能
 Alloy Analyzerは、インスタンスが指定した個数まで展開可能の場
合に、仕様が制約を満たすかを自動検証する有界モデル検査ツールの
一種
 特にAlloy Analyzerは、一階関係論理(Relational Property)
の有界な範囲での網羅的なSAT解も導出可能
 Alloy内部では、Relational PropertyをCNFに変換し、SAT Solverをインク
リメンタルに実施し、SAT解を出力
 例えば、4つのBit変数 𝒂, 𝒃, 𝒄, 𝒅 からなるSAT式 𝑺𝑨𝑻 の充足解 𝟏𝟎𝟏𝟎 が得られ
ると、𝑺𝑨𝑻 ∧ ¬ ¬𝒂 ∨ 𝒃 ∨ ¬𝒄 ∨ 𝒅 を構築し、充足可能性判定を実施する、感じ。
 ここで、一階関係論理は変数の数に対して指数的に爆発
 例えば、Bool変数7個で、組合せは7×7より、2値関係は 𝟐 𝟕×𝟕
= 𝟐 𝟒𝟗
> 𝟏𝟎 𝟏𝟒
mathiine
8/23/2020 15
AlloyとRelational Property [2/E]
 Alloy記述例
 Alloy AnalyzerとModel Countingツール
 18,666変数(元は400変数)と27,202個の節から成るのCNF式へ変換
 ApproxMCは、近似Model Counting値11,264を17.8秒で導出
 ProjMCは、正確なModel Counting値10,946を351.1秒で導出
mathiine
Cartesian Product
𝒔 はCNF式に対応
𝑺 の変数の数を 𝟒 として、制約式 𝑬𝒒𝒖𝒊𝒗𝒂𝒍𝒆𝒏𝒄𝒆 を満たす入力値の集合を列挙せよ
8/23/2020 16
Symmetric Breaking [1/2]
 Symmetric Breakingとは?
 Relational Propertyが複雑な場合、充足解より不充足解の方が
圧倒的に数が多くなる
 充足解の探索では、可能な限り不充足解を避けたい
 これを効率よく実現するために導入されたヒューリスティック手法
 概ね、変数を頂点としたグラフに対して、互いに同型とならないグラフ構造を
(隣接行列の同型性判定問題などに帰着する事で)求め、それが代表元と
なるよう、Relational Propertyから構築したCNFに制約論理式を付
加し、SAT Solverで充足解を導出している、そんな気がする。
 但し、これを用いると充足解の性質がAlloy Analyzerに強く依存し、
学習や評価でバイアスが掛かる可能性がある(後に、実験で評価)
mathiine
8/23/2020 17
Symmetric Breaking [2/E]
 4変数での例
1.
𝟏 𝟎
𝟎 𝟏
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟏 𝟎
𝟎 𝟏
2.
𝟎 𝟏
𝟎 𝟎
𝟎 𝟎
𝟏 𝟎
𝟎 𝟎
𝟏 𝟎
𝟎 𝟏
𝟎 𝟎
3.
𝟎 𝟏
𝟏 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟏 𝟎
𝟎 𝟏
4.
𝟎 𝟏
𝟏 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟎
𝟎 𝟏
𝟏 𝟎
5.
𝟏 𝟎
𝟎 𝟎
𝟎 𝟎
𝟏 𝟎
𝟎 𝟏
𝟎 𝟎
𝟎 𝟎
𝟎 𝟏
mathiine
隣接行列からの制約
論理式の導出手法
は確認未実施(理解
できなかった)
感覚的には、結線が
あればAND、なけれ
ばORとして制約論
理式を導出。
8/23/2020 18
決定木のCNFへの変換手法 [1/2]
 既存変換手法
1. 命題論理の等価性とド・モルガンを用いた変換
 P. T. Johnstone, “Conditions related to de Morgan’s
law,” 1979.
 CNF式のサイズが爆発し、後段のSAT Solverへの負荷が肥大化すると
いう問題がある。
2. Tseytin変換
 G. S. Tseytin, “On the complexity of derivation in
propositional Calculus,” Presented at the Leningrad
Seminar on Mathematical Logic, 1966.
 入力論理式に対して線型サイズのCNF式を出力
 但し、中間変数を多数導入し(必ずしも等価でない)準充足可能なCNF
式を生成
 元の論理式に対するModel Counting値と異なるModel Counting
値が得られる可能性がある、という問題がある。
mathiine
8/23/2020 19
決定木のCNFへの変換手法 [2/E]
 提案変換手法
 決定木の根から葉に至る各Pathに着目して変換
 下記の図を用いて提案変換手法を説明
 2入力 4パス の決定木を考える
 葉のラベル に至るパス上の枝実行条件の論理積が、 に至るパス条件
 葉のラベル に至るパス上の枝実行条件の論理積が、 に至るパス条件
 に至るパス条件式の否定は、 となり、 に至るCNF式が得られる

 同様に、 に至るCNF式は下記

mathiine
8/23/2020 20
推論モデルの性能評価手法:
mathiine
記号 意味
𝝓 AlloyにGround Truthとして与えたRelational Property
𝒅 入力 𝒏 (入力空間サイズが 𝟐 𝒏
)の学習済み決定木
𝝍 𝝆 各パス 𝝆 の分岐条件の論理積であり、𝝍 𝝆 をパス 𝝆 のパス条件と呼ぶ
評価式 意味
𝒕𝒑 データがGround Truthを満たし、決定木が
正しく2値判別結果をValidとした個数
𝒇𝒑 データがGround Truthを満たさず、決定木
が誤って2値判別結果をValidとした個数
𝒕𝒏 データがGround Truthを満たさず、決定木
が誤って2値判別結果をInvalidとした個数
𝒇𝒏 データがGround Truthを満たし、決定木が
正しく2値判別結果をInvalidと推した個数
8/23/2020 21
推論モデルの比較評価手法:
mathiine
記号 意味
𝒅 𝟏, 𝒅 𝟐 入力 𝒏 (入力空間サイズが 𝟐 𝒏
)の学習済みの2つの異なる決定木 𝒅 𝟏, 𝒅 𝟐
評価式 意味
𝒅𝒊𝒇𝒇 入力空間全体の入力数に対する、入力 𝒙 に
対する決定木 𝒅 𝟏 と 𝒅 𝟐 の結果が異なった数
の比を返す評価式
𝒔𝒊𝒎 入力空間全体の入力数に対する、入力 𝒙 に
対する決定木 𝒅 𝟏 と 𝒅 𝟐 の結果が一致した数
の比を返す評価式
8/23/2020 22
評価対象 [1/3]
mathiine
Relational Property
1 Anti-symmetric 非対称
2 Bijective 全単射
3 Connex 接続
4 Equivalence 同値関係
5 Function 関数
6 Functional 関数または部分関数
7 Injective 単射
8 Irreflexive 非反射的
9 Non-Strict Order 非厳密順序
10 Partial Order 半順序
11 Pre-Oder 前順序
12 Reflexive 反射的
13 Strict Order 厳密順序
14 Surjective 全射
15 Total Order 全順序
16 Transitive 推移的
 Relational Propertyに対するModel Counting値
 AlloyでSymmetric Breakingあり/なしで, ApproxMC,
ProjMCを用いてModel Counting値を算出
8/23/2020 23
評価対象 [2/3]
mathiine
8/23/2020 24
評価対象 [3/E]
mathiine
機械学習モデル
1 DT Decision Tree Classifier
2 RFT Random Forest Tree Classifier
3 GBDT Gradient Boosting Tree Classifier
4 ADT Adaboost Decision Tree Classifier
5 SVM Support Vector Machine
6 MLP Multi-Layer Perceptron
8/23/2020 25
評価手法 [1/2]
 Relational PropertyへのSAT/UNSAT入力値
 Alloy Analyzerを用いて導出
 SAT解:Positive Solutionで期待値ラベル
 AlloyのバックエンドSAT Solverが網羅的に導出した解集合を利用
 UNSAT解:Negative Solutionで期待値ラベル
 全入力空間からランダムに入力値をサンプル抽出し、Alloy Evaluatorを
用いてUNSATとなる事を確認
 Symmetric Breakingの扱い
 Symmetric Breakingあり/なしでの、Alloyによる訓練・テスト
データ構築、 𝑴𝑪 や 𝑴𝑪 でのGround Truthデータ構築、及
び評価
 訓練・テストデータ比率
 5つの比率を利用:75:25, 50:50, 25:75, 10:90, 1:99
mathiine
8/23/2020 26
評価手法 [2/E]
 2値判別結果の4つの評価基準
mathiine
評価基準 定義式
適合率
Precision
再現率
Recall
精度
Accuracy
F値
F1 score
8/23/2020 27
5つの課題と実験評価結果の考察 [1/12]
 5つの課題
mathiine
附番 課題内容
RQ1 訓練・テストデータ比率の、Relational Propertyの推論モデルの性能へ
の影響
RQ2 決定木の推論モデルの(テストデータ外への)汎化性能
RQ3 データセットのSymmetric Breakingあり/なしの推論モデルへの影響
RQ4 訓練・テストデータとGround TruthデータでSymmetric Breakingあ
り/なし指定を変化させた場合の、推論モデルの性能への影響
RQ5 2つの決定木推論モデルの定量的相違
8/23/2020 28
5つの課題と実験評価結果の考察 [2/12]
 RQ1:推論モデルのテスト性能
mathiine
 Alloyでデフォルトの
Symmetric Breakingを
指定してデータセットを生成
 全ての学習モデルのテストで高
い性能を達成し、F値は
の範囲内
 全体的に、全ての学習モデル
のテストで高い性能を達成
 訓練:テストのデータ数比率
が であってもテストで
高い性能を達成
8/23/2020 29
5つの課題と実験評価結果の考察 [3/12]
 RQ2:決定木の推論モデルの汎化性能 [1/2]
mathiine
8/23/2020 30
5つの課題と実験評価結果の考察 [4/12]
 RQ2:決定木の推論モデルの汎化性能 [2/E]
 決定木モデルをテストデータで評価すると、精度とF値は であ
り、適合度は である。
 決定木モデルをGround Truthデータで評価すると、多くの
Relational Propertyで適合度とF値は に減少する。実際、12
個のRelational Propertyで精度は 近傍となっている。
 Relational Propertyの評価は、12個は10秒以内、3個は220
秒以内に完了。
 RQ1ではRelational Propertyの学習可能性は非常に良い結果
だったが、推論モデルが実環境で利用される想定では、入力空間での
評価ではFalse Positiveを伴う課題を示した。
mathiine
8/23/2020 31
5つの課題と実験評価結果の考察 [5/12]
 RQ3:Symmetric Breakingの影響
mathiine
 Symmetric Breakingなし
で訓練データを増加し評価
 精度とF値は 、適合度
と再現率は 。
 精度とF値の減少が顕著。
 RQ2での評価結果同様、訓
練データにSymmetric
Breakingなしで対称データ
を加えたとしても、決定木モデ
ルの汎化性能向上は限定的。
8/23/2020 32
5つの課題と実験評価結果の考察 [6/12]
 RQ4:Symmetric Breakingの影響 [1/6]
 訓練データ生成時にのみSymmetric Breaking適用
mathiine
8/23/2020 33
5つの課題と実験評価結果の考察 [7/12]
 RQ4:Symmetric Breakingの影響 [2/6]
 訓練データ生成時にのみSymmetric Breaking適用
 テストデータでの評価では、精度、再現率、F値が で、精度は
。
 Ground Truthデータでの評価では、適合度、F値は に減少
し、再現率では顕著が減少が見られた。
 決定木モデルでは、Symmetric Breakingを訓練データ生成で
ONとし、Ground Truthデータ生成でOFFとした場合に、最悪の性
能劣化を示す。
 決定木モデルは訓練時に対称データを学習する事なく、Ground Truth
データでの評価では学習しなかった対称データを置換した複数のデータで
性能評価がなされるため、これは合理的な結果といえる。
mathiine
8/23/2020 34
5つの課題と実験評価結果の考察 [8/12]
 RQ4:Symmetric Breakingの影響 [3/6]
 Ground Truthデータ生成時にのみSymmetric Breaking適用
mathiine
8/23/2020 35
5つの課題と実験評価結果の考察 [9/12]
 RQ4:Symmetric Breakingの影響 [4/6]
 Ground Truthデータ生成時にのみSymmetric Breaking適用
 テストデータでの評価では、精度、再現率、F値が で、精度は
。
 Symmetric BreakingをOFFとして生成したGround Truthデー
タでの評価では、精度、F値は に減少。
 仮にSymmetric Breakingを、訓練データ生成でOFFとして決定
木モデルを構築し、Ground Truthデータ生成でONとする事で、訓
練データをGround Truthデータよりリッチなものとしとしても、決定
木モデルの全入力空間を対象とした汎化性能向上に失敗する。
mathiine
8/23/2020 36
5つの課題と実験評価結果の考察 [10/12]
 RQ4:Symmetric Breakingの影響 [5/6]
 訓練・Ground Truthデータ生成時の両方でSymmetric
Breaking適用
mathiine
8/23/2020 37
5つの課題と実験評価結果の考察 [11/12]
 RQ4:Symmetric Breakingの影響 [6/E]
 訓練・Ground Truthデータ生成時の両方でSymmetric
Breaking非適用
mathiine
8/23/2020 38
5つの課題と実験評価結果の考察 [12/E]
 RQ5:2つの決定木モデルの定量的相違
 異なるハイパーパラメータを用いて2つの決定木モデルを構築し、相違
点を評価
 MCMLにより、全入力空間を用いた2つの決定木モデルの定量的比較
が可能となった。
 12個のRelational Propertyの定量的相違を10秒以内で、全部
で1,000秒以内で検出。
mathiine
8/23/2020 39
議論 – 訓練・テストデータ比率と汎化性能
 MCMLにより、訓練データの分布とデータ本来の分布が異なる
比率 の場合であっても、決定木モデルの汎化可能性
を定量評価可能となった。
 従来の評価指標では、ほぼ全ての訓練・テストデータ比率で性
能の定量化に失敗する。一方、MCMLでは、各訓練・テスト
データ比率で構築した訓練モデルに対して、真の定量的性能を
正しく評価できた。
mathiine
Anti-Symmetric Property
8/23/2020 40
議論 – Alloy/SATによるバイアス
 充足解の性質がAlloyに強く依存し、学習や評価でバイアスが
掛かる可能性がある。
 Symmetric BreakingがOFFの場合
 Alloyによる充足解集合は、命題論理に対する充足解集合と一致
 Positiveデータセットは、AlloyのSATバックエンドが生成した全解
 どのSolverを用いても同じデータセットが得られる
 Negativeデータセットは、制約充足解を用いずランダム抽出で構築
 Symmetric BreakingがONの場合
 AlloyはSymmetric Breaking制約論理式を命題論理に追加し
た後、SATバックエンドへ渡す
 各Relational Propertyの充足解は、Alloyが付加した
Symmetric Breaking制約論理式に依存
 Alloyの異なる設定や、異なるツールで導出した充足解は異なり得る
mathiine
8/23/2020 41
結論
 Relational Propertyの学習可能性を定量的評価を可能と
するMCMLフレームワークを提案
 6個の学習モデルを用いて、16個のRelational Propertyに
対する評価を実施
 従来通りの訓練・テストデータを用いた場合、単純な学習モデル
は高い性能を達成
 しかし、有界な全入力空間に対するテストを実施した場合、性
能が劣化する事が、MCML評価指標で明らかとなった
 本研究により、Model Countingが学習モデルの真の性能に
対する定量的評価に有効である事が示された
mathiine
8/23/2020 42
参照論文
1. Muhammad Usman, Wenxi Wang, Marko Vasic, Kaiyuan Wang,
Haris Vikalo, Sarfraz Khurshid, “A Study of the Learnability of
Relational Properties: Model Counting Meets Machine Learning
(MCML),” PLDI 2020. https://arxiv.org/abs/1912.11580
https://github.com/muhammadusman93/MCML-PLDI2020
https://www.youtube.com/watch?v=ocuQ_JQVMK4
2. Ilya Shlyakhter, “Generating effective symmetry-breaking
predicates for search problems,” Discrete Applied Mathematics,
Volume 155, Issue 12, pp. 1539-1548, 2007.
https://www.sciencedirect.com/science/article/pii/S0166218X
06004604
mathiine

A Study of the Learnability of Relational Properties - Model Counting Meets Machine Learning (MCML)

  • 1.
    8/23/2020 1 A Studyof the Learnability of Relational Properties - Model Counting Meets Machine Learning (MCML), PLDI 2020. @tanimocchi mathiine ※本スライドは個人的なものであり、所属組織とは無関係なものです。
  • 2.
    8/23/2020 2 目次 1. PLDI論文選択理由 2.MCMLの全体像(OverviewとContribution) 3. 関連研究 4. Model Counting 5. AlloyとRelational Property 6. Symmetric Breaking (正直よく分からない……) 7. 決定木のCNFへの変換手法 8. 推論モデルの性能評価手法 9. 推論モデルの比較評価手法 10. 評価対象 11. 評価手法 12. 5つの課題と実験評価結果の考察 13. 議論 14. 結論 15. 参照論文 mathiine
  • 3.
    8/23/2020 3 PLDI論文選択理由  PLDIとは? Programming Language Design and Implementation  1970年発祥、現在ではACM SIGPLAN(Special Interest Group on programming languages)で最も重要な国際会議の一つ  PLDI is the premier forum in the field of programming languages and programming systems research, covering the areas of design, implementation, theory, applications, and performance.  本論文選択理由 mathiine
  • 4.
    8/23/2020 4 MCMLの全体像 [1/3] Model Counting Meet Machine Learningのフロー mathiine Alloy Analyzer 10% Sampling Machine Learning Test MPCGen TREE2CNF Model Counting Property 𝝓 Bound 𝒃 SAT/UNSAT Input Binaries 𝑪𝑵𝑭 𝝓 Training Data Test Data Inference Model 𝒅 Training Report Test Report 𝑪𝑵𝑭 𝝓,𝒅 Metric 𝒊𝒅 𝑴𝑪 𝝓,𝒅 𝒊𝒅 推論モデルが決定木の場合のみ実施 (推論モデルの全入力空間での汎化性能評価) Alloy記述のPropertyを満たす推論モデルの構築と評価 𝑨𝒑𝒑𝒓𝒐𝒙𝑴𝑪 𝑷𝒓𝒐𝒋𝑴𝑪 𝒕𝒑, 𝒇𝒑, 𝒕𝒏, 𝒇𝒏
  • 5.
    8/23/2020 5 MCMLの全体像 [2/3] Overview mathiine 項目 内容 主要貢献 • Model Countingを用いた決定木の定量的評価とRelational Propertyの学 習可能性の評価を可能とするMCMLフレームワークの提案 課題 • 推論モデルはデータセットで評価されるが、全体空間では評価していないため、誤った 汎化性能結果を与え得る アイデア • 定量的評価を計算量理論のModel Countingに帰着 • 推論モデルの定量的評価や、推論モデル間の意味の違いの評価に応用 実験 • 6個の学習モデルを用いて、16個のRelational Propertyの学習可能性を評価 結果 • 通常のデータセットでの評価手法では推論モデルは非常に良い汎化性能を達成 • 有界に制限した全入力空間での評価では、汎化性能の劣化を確認 • ここで、Ground Truthとしては、Relational PropertyのCNF式(還元すると CNF式のSAT/UNSAT入力バイナリ値の集合)を利用 考察結果 • 推論モデルの定量的評価と論理プロパティを充足する推論モデルの学習可能性の評 価では、Model Countingが大変重要
  • 6.
    8/23/2020 6 MCMLの全体像 [3/E] Contribution mathiine 項目 内容 Relational Propertyの学習 • 16個の学習モデルを用いて、16種類のRelational Propertyの学習可能性を評価 推論モデルの定量的評価 • Ground TruthとなるRelational Propertyへの入力空 間を用いて、学習済み決定木の汎化性能の定量評価 推論モデル同士の定量的比較 • Ground TruthとなるRelational Propertyへの入力空 間を用いて、2つの学習済み決定木間の差異の定量評価
  • 7.
    8/23/2020 7 関連研究 [1/2] 本論文が、全(有界)入力空間を用いた推論モデルの定量評価 の最初の論文  プログラムの性質学習に関する既存手法  Javaプログラムのデータ構造が持つPropertyの機械学習  Facundo Molina, Renzo Degiovanni, Pablo Ponzio, German Regis, Nazareno Aguirre, and Marcelo Frias, “Training Binary Classifiers as Data Structure Invariants,” ICSE, 2019.  Muhammad Usman,WenxiWang, KaiyuanWang, Cagdas Yelen, Nima Dini, and Sarfraz Khurshid, “A Study of Learning Data Structure Invariants Using Off-the-shelf Tools,” SPIN, 2019.  但し、全(有界)入力空間を用いた推論モデルの定量評価は未実施 mathiine
  • 8.
    8/23/2020 8 関連研究 [2/E] 学習可能性解析の既存手法  2値分類モデルの学習で必要となるデータ数の議論  PAC(Probably Approximately Correct) - L. G. Valiant, “A Theory of the Learnable,” CACM 27, 11 Nov. 1984. https://doi.org/10.1145/1968.1972  Relational Property学習手法の性能に関する幾ばくかの知見を提供  V. N. Vapnik and A Ya. Chervonenkis, “On the Uniform Convergence of Relative Frequencies of Events to Their Probabilities,” Theory of Probability and its Applications, 1971.  0-1損失の平均(精度)より、適合率、再現率、F値は優れた性能指標  与えたGround Truthに対して、MCMLは、適合率、再現率、F値 同様に、正確に0-1損失の平均(精度)の汎可性能を定量評価可能。 mathiine
  • 9.
    Model Counting [1/5] 8/23/2020mathiine 9 https://www.youtube.com/watch?v=8pE3O2wNAwg
  • 10.
    Model Counting [2/5] 8/23/2020mathiine 10 https://www.youtube.com/watch?v=8pE3O2wNAwg
  • 11.
    8/23/2020 11 Model Counting[3/5]  Model Countingとは?  解の数え上げ  計算量理論ではCounting問題として扱う  通常のTuring MachineではYes/Noを返すが、Counting Turing Machineは解の個数を返す  計算量クラス は、下記で特徴付けられる  𝑷𝑷 #𝑷 ここで、  本論文での解の数え上げ  Alloyへの制約入力であるRelational Propertyの充足・不充足 バイナリ入力集合が数え上げ対象  Alloy内部では、Relational PropertyをCNFに変換し、SAT Solverをインクリメンタルに実施し、SAT解を出力  例えば、4つのBit変数 𝒂, 𝒃, 𝒄, 𝒅 からなるSAT式 𝑺𝑨𝑻 の充足解 𝟏𝟎𝟏𝟎 が得られ ると、𝑺𝑨𝑻 ∧ ¬ ¬𝒂 ∨ 𝒃 ∨ ¬𝒄 ∨ 𝒅 を構築し、充足可能性判定を実施する、感じ。 mathiine
  • 12.
    8/23/2020 12 Model Counting[4/5]  MCMLをRelational Property以外に拡張可能か?  Yes! 本論文でも述べられているが可能  例えば、LTL(Linear Temporal Logic)式を満たす学習を Model Countingで評価する事が可能だと考えられる。  LTL式に対するModel Counting [1/2]  LTLのSynthesis問題  仕様を満たすオートマトン実装をCorrect by constructionで自動生 成。仕様が実装可能であればオートマトンを生成。  これまでの研究経緯 1. Church's problem:1965 2. Rabin Automata, Buchi Automata:1969 3. Buchi, Landeber, Two player game:1969 4. Pnueli LTL:1977 5. Emarson, Clarke, Sifakis, Model Checking:1981 6. Pnueli, Rosner, LTL realizability = 2EXPTIME-complete:1989 7. Piterman, Pnueli, Saar LTLのSubsetのRealizabilityがn^4:2006  得られたオートマトンの受理・不受理入力集合を数え上げ mathiine
  • 13.
    8/23/2020 13 Model Counting[5/E]  LTL式に対するModel Counting [2/E] mathiine https://www.youtube.com/watch?v=8pE3O2wNAwg
  • 14.
    8/23/2020 14 AlloyとRelational Property[1/2]  Alloy概要  Alloyは宣言的な一階関係論理(Relational Property:関係代 数と一階命題論理を融合した論理)で制約と、クラス図に似た表記の 仕様が記述可能  Alloy Analyzerは、インスタンスが指定した個数まで展開可能の場 合に、仕様が制約を満たすかを自動検証する有界モデル検査ツールの 一種  特にAlloy Analyzerは、一階関係論理(Relational Property) の有界な範囲での網羅的なSAT解も導出可能  Alloy内部では、Relational PropertyをCNFに変換し、SAT Solverをインク リメンタルに実施し、SAT解を出力  例えば、4つのBit変数 𝒂, 𝒃, 𝒄, 𝒅 からなるSAT式 𝑺𝑨𝑻 の充足解 𝟏𝟎𝟏𝟎 が得られ ると、𝑺𝑨𝑻 ∧ ¬ ¬𝒂 ∨ 𝒃 ∨ ¬𝒄 ∨ 𝒅 を構築し、充足可能性判定を実施する、感じ。  ここで、一階関係論理は変数の数に対して指数的に爆発  例えば、Bool変数7個で、組合せは7×7より、2値関係は 𝟐 𝟕×𝟕 = 𝟐 𝟒𝟗 > 𝟏𝟎 𝟏𝟒 mathiine
  • 15.
    8/23/2020 15 AlloyとRelational Property[2/E]  Alloy記述例  Alloy AnalyzerとModel Countingツール  18,666変数(元は400変数)と27,202個の節から成るのCNF式へ変換  ApproxMCは、近似Model Counting値11,264を17.8秒で導出  ProjMCは、正確なModel Counting値10,946を351.1秒で導出 mathiine Cartesian Product 𝒔 はCNF式に対応 𝑺 の変数の数を 𝟒 として、制約式 𝑬𝒒𝒖𝒊𝒗𝒂𝒍𝒆𝒏𝒄𝒆 を満たす入力値の集合を列挙せよ
  • 16.
    8/23/2020 16 Symmetric Breaking[1/2]  Symmetric Breakingとは?  Relational Propertyが複雑な場合、充足解より不充足解の方が 圧倒的に数が多くなる  充足解の探索では、可能な限り不充足解を避けたい  これを効率よく実現するために導入されたヒューリスティック手法  概ね、変数を頂点としたグラフに対して、互いに同型とならないグラフ構造を (隣接行列の同型性判定問題などに帰着する事で)求め、それが代表元と なるよう、Relational Propertyから構築したCNFに制約論理式を付 加し、SAT Solverで充足解を導出している、そんな気がする。  但し、これを用いると充足解の性質がAlloy Analyzerに強く依存し、 学習や評価でバイアスが掛かる可能性がある(後に、実験で評価) mathiine
  • 17.
    8/23/2020 17 Symmetric Breaking[2/E]  4変数での例 1. 𝟏 𝟎 𝟎 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 2. 𝟎 𝟏 𝟎 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 𝟎 𝟎 3. 𝟎 𝟏 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 4. 𝟎 𝟏 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 𝟏 𝟎 5. 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 𝟎 𝟎 𝟏 𝟎 𝟎 𝟎 𝟎 𝟎 𝟏 mathiine 隣接行列からの制約 論理式の導出手法 は確認未実施(理解 できなかった) 感覚的には、結線が あればAND、なけれ ばORとして制約論 理式を導出。
  • 18.
    8/23/2020 18 決定木のCNFへの変換手法 [1/2] 既存変換手法 1. 命題論理の等価性とド・モルガンを用いた変換  P. T. Johnstone, “Conditions related to de Morgan’s law,” 1979.  CNF式のサイズが爆発し、後段のSAT Solverへの負荷が肥大化すると いう問題がある。 2. Tseytin変換  G. S. Tseytin, “On the complexity of derivation in propositional Calculus,” Presented at the Leningrad Seminar on Mathematical Logic, 1966.  入力論理式に対して線型サイズのCNF式を出力  但し、中間変数を多数導入し(必ずしも等価でない)準充足可能なCNF 式を生成  元の論理式に対するModel Counting値と異なるModel Counting 値が得られる可能性がある、という問題がある。 mathiine
  • 19.
    8/23/2020 19 決定木のCNFへの変換手法 [2/E] 提案変換手法  決定木の根から葉に至る各Pathに着目して変換  下記の図を用いて提案変換手法を説明  2入力 4パス の決定木を考える  葉のラベル に至るパス上の枝実行条件の論理積が、 に至るパス条件  葉のラベル に至るパス上の枝実行条件の論理積が、 に至るパス条件  に至るパス条件式の否定は、 となり、 に至るCNF式が得られる   同様に、 に至るCNF式は下記  mathiine
  • 20.
    8/23/2020 20 推論モデルの性能評価手法: mathiine 記号 意味 𝝓AlloyにGround Truthとして与えたRelational Property 𝒅 入力 𝒏 (入力空間サイズが 𝟐 𝒏 )の学習済み決定木 𝝍 𝝆 各パス 𝝆 の分岐条件の論理積であり、𝝍 𝝆 をパス 𝝆 のパス条件と呼ぶ 評価式 意味 𝒕𝒑 データがGround Truthを満たし、決定木が 正しく2値判別結果をValidとした個数 𝒇𝒑 データがGround Truthを満たさず、決定木 が誤って2値判別結果をValidとした個数 𝒕𝒏 データがGround Truthを満たさず、決定木 が誤って2値判別結果をInvalidとした個数 𝒇𝒏 データがGround Truthを満たし、決定木が 正しく2値判別結果をInvalidと推した個数
  • 21.
    8/23/2020 21 推論モデルの比較評価手法: mathiine 記号 意味 𝒅𝟏, 𝒅 𝟐 入力 𝒏 (入力空間サイズが 𝟐 𝒏 )の学習済みの2つの異なる決定木 𝒅 𝟏, 𝒅 𝟐 評価式 意味 𝒅𝒊𝒇𝒇 入力空間全体の入力数に対する、入力 𝒙 に 対する決定木 𝒅 𝟏 と 𝒅 𝟐 の結果が異なった数 の比を返す評価式 𝒔𝒊𝒎 入力空間全体の入力数に対する、入力 𝒙 に 対する決定木 𝒅 𝟏 と 𝒅 𝟐 の結果が一致した数 の比を返す評価式
  • 22.
    8/23/2020 22 評価対象 [1/3] mathiine RelationalProperty 1 Anti-symmetric 非対称 2 Bijective 全単射 3 Connex 接続 4 Equivalence 同値関係 5 Function 関数 6 Functional 関数または部分関数 7 Injective 単射 8 Irreflexive 非反射的 9 Non-Strict Order 非厳密順序 10 Partial Order 半順序 11 Pre-Oder 前順序 12 Reflexive 反射的 13 Strict Order 厳密順序 14 Surjective 全射 15 Total Order 全順序 16 Transitive 推移的
  • 23.
     Relational Propertyに対するModelCounting値  AlloyでSymmetric Breakingあり/なしで, ApproxMC, ProjMCを用いてModel Counting値を算出 8/23/2020 23 評価対象 [2/3] mathiine
  • 24.
    8/23/2020 24 評価対象 [3/E] mathiine 機械学習モデル 1DT Decision Tree Classifier 2 RFT Random Forest Tree Classifier 3 GBDT Gradient Boosting Tree Classifier 4 ADT Adaboost Decision Tree Classifier 5 SVM Support Vector Machine 6 MLP Multi-Layer Perceptron
  • 25.
    8/23/2020 25 評価手法 [1/2] Relational PropertyへのSAT/UNSAT入力値  Alloy Analyzerを用いて導出  SAT解:Positive Solutionで期待値ラベル  AlloyのバックエンドSAT Solverが網羅的に導出した解集合を利用  UNSAT解:Negative Solutionで期待値ラベル  全入力空間からランダムに入力値をサンプル抽出し、Alloy Evaluatorを 用いてUNSATとなる事を確認  Symmetric Breakingの扱い  Symmetric Breakingあり/なしでの、Alloyによる訓練・テスト データ構築、 𝑴𝑪 や 𝑴𝑪 でのGround Truthデータ構築、及 び評価  訓練・テストデータ比率  5つの比率を利用:75:25, 50:50, 25:75, 10:90, 1:99 mathiine
  • 26.
    8/23/2020 26 評価手法 [2/E] 2値判別結果の4つの評価基準 mathiine 評価基準 定義式 適合率 Precision 再現率 Recall 精度 Accuracy F値 F1 score
  • 27.
    8/23/2020 27 5つの課題と実験評価結果の考察 [1/12] 5つの課題 mathiine 附番 課題内容 RQ1 訓練・テストデータ比率の、Relational Propertyの推論モデルの性能へ の影響 RQ2 決定木の推論モデルの(テストデータ外への)汎化性能 RQ3 データセットのSymmetric Breakingあり/なしの推論モデルへの影響 RQ4 訓練・テストデータとGround TruthデータでSymmetric Breakingあ り/なし指定を変化させた場合の、推論モデルの性能への影響 RQ5 2つの決定木推論モデルの定量的相違
  • 28.
    8/23/2020 28 5つの課題と実験評価結果の考察 [2/12] RQ1:推論モデルのテスト性能 mathiine  Alloyでデフォルトの Symmetric Breakingを 指定してデータセットを生成  全ての学習モデルのテストで高 い性能を達成し、F値は の範囲内  全体的に、全ての学習モデル のテストで高い性能を達成  訓練:テストのデータ数比率 が であってもテストで 高い性能を達成
  • 29.
    8/23/2020 29 5つの課題と実験評価結果の考察 [3/12] RQ2:決定木の推論モデルの汎化性能 [1/2] mathiine
  • 30.
    8/23/2020 30 5つの課題と実験評価結果の考察 [4/12] RQ2:決定木の推論モデルの汎化性能 [2/E]  決定木モデルをテストデータで評価すると、精度とF値は であ り、適合度は である。  決定木モデルをGround Truthデータで評価すると、多くの Relational Propertyで適合度とF値は に減少する。実際、12 個のRelational Propertyで精度は 近傍となっている。  Relational Propertyの評価は、12個は10秒以内、3個は220 秒以内に完了。  RQ1ではRelational Propertyの学習可能性は非常に良い結果 だったが、推論モデルが実環境で利用される想定では、入力空間での 評価ではFalse Positiveを伴う課題を示した。 mathiine
  • 31.
    8/23/2020 31 5つの課題と実験評価結果の考察 [5/12] RQ3:Symmetric Breakingの影響 mathiine  Symmetric Breakingなし で訓練データを増加し評価  精度とF値は 、適合度 と再現率は 。  精度とF値の減少が顕著。  RQ2での評価結果同様、訓 練データにSymmetric Breakingなしで対称データ を加えたとしても、決定木モデ ルの汎化性能向上は限定的。
  • 32.
    8/23/2020 32 5つの課題と実験評価結果の考察 [6/12] RQ4:Symmetric Breakingの影響 [1/6]  訓練データ生成時にのみSymmetric Breaking適用 mathiine
  • 33.
    8/23/2020 33 5つの課題と実験評価結果の考察 [7/12] RQ4:Symmetric Breakingの影響 [2/6]  訓練データ生成時にのみSymmetric Breaking適用  テストデータでの評価では、精度、再現率、F値が で、精度は 。  Ground Truthデータでの評価では、適合度、F値は に減少 し、再現率では顕著が減少が見られた。  決定木モデルでは、Symmetric Breakingを訓練データ生成で ONとし、Ground Truthデータ生成でOFFとした場合に、最悪の性 能劣化を示す。  決定木モデルは訓練時に対称データを学習する事なく、Ground Truth データでの評価では学習しなかった対称データを置換した複数のデータで 性能評価がなされるため、これは合理的な結果といえる。 mathiine
  • 34.
    8/23/2020 34 5つの課題と実験評価結果の考察 [8/12] RQ4:Symmetric Breakingの影響 [3/6]  Ground Truthデータ生成時にのみSymmetric Breaking適用 mathiine
  • 35.
    8/23/2020 35 5つの課題と実験評価結果の考察 [9/12] RQ4:Symmetric Breakingの影響 [4/6]  Ground Truthデータ生成時にのみSymmetric Breaking適用  テストデータでの評価では、精度、再現率、F値が で、精度は 。  Symmetric BreakingをOFFとして生成したGround Truthデー タでの評価では、精度、F値は に減少。  仮にSymmetric Breakingを、訓練データ生成でOFFとして決定 木モデルを構築し、Ground Truthデータ生成でONとする事で、訓 練データをGround Truthデータよりリッチなものとしとしても、決定 木モデルの全入力空間を対象とした汎化性能向上に失敗する。 mathiine
  • 36.
    8/23/2020 36 5つの課題と実験評価結果の考察 [10/12] RQ4:Symmetric Breakingの影響 [5/6]  訓練・Ground Truthデータ生成時の両方でSymmetric Breaking適用 mathiine
  • 37.
    8/23/2020 37 5つの課題と実験評価結果の考察 [11/12] RQ4:Symmetric Breakingの影響 [6/E]  訓練・Ground Truthデータ生成時の両方でSymmetric Breaking非適用 mathiine
  • 38.
    8/23/2020 38 5つの課題と実験評価結果の考察 [12/E] RQ5:2つの決定木モデルの定量的相違  異なるハイパーパラメータを用いて2つの決定木モデルを構築し、相違 点を評価  MCMLにより、全入力空間を用いた2つの決定木モデルの定量的比較 が可能となった。  12個のRelational Propertyの定量的相違を10秒以内で、全部 で1,000秒以内で検出。 mathiine
  • 39.
    8/23/2020 39 議論 –訓練・テストデータ比率と汎化性能  MCMLにより、訓練データの分布とデータ本来の分布が異なる 比率 の場合であっても、決定木モデルの汎化可能性 を定量評価可能となった。  従来の評価指標では、ほぼ全ての訓練・テストデータ比率で性 能の定量化に失敗する。一方、MCMLでは、各訓練・テスト データ比率で構築した訓練モデルに対して、真の定量的性能を 正しく評価できた。 mathiine Anti-Symmetric Property
  • 40.
    8/23/2020 40 議論 –Alloy/SATによるバイアス  充足解の性質がAlloyに強く依存し、学習や評価でバイアスが 掛かる可能性がある。  Symmetric BreakingがOFFの場合  Alloyによる充足解集合は、命題論理に対する充足解集合と一致  Positiveデータセットは、AlloyのSATバックエンドが生成した全解  どのSolverを用いても同じデータセットが得られる  Negativeデータセットは、制約充足解を用いずランダム抽出で構築  Symmetric BreakingがONの場合  AlloyはSymmetric Breaking制約論理式を命題論理に追加し た後、SATバックエンドへ渡す  各Relational Propertyの充足解は、Alloyが付加した Symmetric Breaking制約論理式に依存  Alloyの異なる設定や、異なるツールで導出した充足解は異なり得る mathiine
  • 41.
    8/23/2020 41 結論  RelationalPropertyの学習可能性を定量的評価を可能と するMCMLフレームワークを提案  6個の学習モデルを用いて、16個のRelational Propertyに 対する評価を実施  従来通りの訓練・テストデータを用いた場合、単純な学習モデル は高い性能を達成  しかし、有界な全入力空間に対するテストを実施した場合、性 能が劣化する事が、MCML評価指標で明らかとなった  本研究により、Model Countingが学習モデルの真の性能に 対する定量的評価に有効である事が示された mathiine
  • 42.
    8/23/2020 42 参照論文 1. MuhammadUsman, Wenxi Wang, Marko Vasic, Kaiyuan Wang, Haris Vikalo, Sarfraz Khurshid, “A Study of the Learnability of Relational Properties: Model Counting Meets Machine Learning (MCML),” PLDI 2020. https://arxiv.org/abs/1912.11580 https://github.com/muhammadusman93/MCML-PLDI2020 https://www.youtube.com/watch?v=ocuQ_JQVMK4 2. Ilya Shlyakhter, “Generating effective symmetry-breaking predicates for search problems,” Discrete Applied Mathematics, Volume 155, Issue 12, pp. 1539-1548, 2007. https://www.sciencedirect.com/science/article/pii/S0166218X 06004604 mathiine