SlideShare a Scribd company logo
1 of 16
Download to read offline
データサイエンス講義 第5章
ロジスティック回帰
2019年8月15日(木)
マーケティング部 データ戦略室
栄田達也
教科書
2
Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」
(瀬戸山 雅人・石井 弓美子・河内 崇・河内 真理子・古畠 敦・
木下 哲也・竹田 正和・佐藤 正士・望月 啓充 訳)
1章 はじめに:データサイエンスとは
2章 統計的推論、探索的データ分析、データサイエンスのプロセス
3章 アルゴリズム
4章 スパムフィルタ、単純ベイズ、データラングリング
5章 ロジスティック回帰
6章 タイムスタンプと金融モデリング
7章 データから意味を抽出する
8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する
9章 データ可視化と不正検出
10章 ソーシャルネットワークとデータジャーナリズム
11章 因果関係
12章 疫学
13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価
14章 データエンジニアリング:MapReduce、Pregel、Hadoop
15章 生徒たちの声
16章 次世代のデータサイエンティスト、データに対する過信と倫理
Leverages Marketing Department
● 思考実験
● 分類器
● ロジスティック回帰
目次
3
Leverages Marketing Department
● 思考実験とは
○ 頭の中で想像するだけの実験。科学の基礎原理に反しない限りで、極度に単純・理想化
された前提(例えば摩擦のない運動、収差のないレンズなど)により遂行される。
■ 出展:https://ja.wikipedia.org/wiki/思考実験
■ 例:アインシュタインが行った、光を追いかけるとどうなるかという思考実験。特殊相対性理
論につながった。
● 「すべての大統一理論があったら」
○ データサイエンスにそのようなものがあるとは思えない。
○ 物理学のようなピタッと予測できる分野とデータサイエンスとの違いは何か?
● データサイエンスのサイエンスと呼ぶのにふさわしい理由?
○ 最もよいモデルを保持
○ 2つのモデルを競い合わせる実験
○ 洗練させる作業
思考実験
4
Leverages Marketing Department
● 分類とは
○ データポイントを有限個のラベル集合に対応させること
○ どの分類器、最適化手法、損失関数、特徴、評価指標を使うかを選ぶ必要がある。
○ 実行時間、そのアルゴリズムを理解しているか、解釈がしやすいか、スケーラビリティ(学習
時間、評価時間、モデル保存サイズ)
分類器
5
広告をクリックするかどうか 0(いいえ)または1(はい)
何の数字の画像か 0, 1, 2, …, 9など
スパムかどうか 0(いいえ)または1(はい)
Leverages Marketing Department
● 例として、あるユーザがある広告をクリックするかどうか予測する問題を考える
○ ユーザが訪れたサイトをデータとして蓄積しておく
○ それを行列で表す
■ あるユーザがサイトを訪れていたら1、訪れていなかったら0として、行がユーザ、列がサイ
トを表す行列
■ ほとんどの要素が0になる(疎行列)
ロジスティック回帰
6
ユーザID \ サイトID 1 2 3 …
1 1 0 1 …
2 0 0 1 …
3 0 1 0 …
… … … … …
Leverages Marketing Department
● あるユーザが靴の広告をクリックするか否か
○ クリックすれば1、しなければ0とする
ロジスティック回帰
7
ユーザID クリック
1 1
2 0
3 0
… …
Leverages Marketing Department
● 2クラス分類において、クラス𝐶1 = 1と𝐶2 = 0があると
する。クラス𝐶1に属する確率は次のようになる。
○ 𝑝 𝐶1 𝑥 =
𝑝 𝑥 𝐶1 𝑝 𝐶1
𝑝 𝑥 𝐶1 𝑝 𝐶1 +𝑝 𝑥 𝐶2 𝑝 𝐶2
=
1
1+𝑒−𝑡 = 𝜎(−𝑡)
○ 𝑡 = ln
𝑝 𝑥 𝐶1 𝑝 𝐶1
𝑝 𝑥 𝐶2 𝑝 𝐶2
● 最初の式の3番目の辺はロジスティックシグモイド関数
(ロジット関数の逆関数)
○ 𝑝 𝐶1 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1
𝑡
○ ある値を受け取っては[0, 1]の値を出力する。
ロジスティック回帰 数学
8
Leverages Marketing Department
● 𝑡 = 𝛼 + 𝛽 𝑇 𝑥𝑖
○ 𝑝 𝐶𝑖 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1
(𝛼 + 𝛽 𝑇
𝑥𝑖) 𝑐 𝑖 ∗ 1 − 𝑙𝑜𝑔𝑖𝑡−1
(𝛼 + 𝛽 𝑇
𝑥𝑖) 1−𝑐 𝑖
● 𝑥𝑖 はユーザiの特徴ベクトルで、 𝐶𝑖 は 0か1をとる。
○ 𝐶𝑖 = 1のとき
○ 𝑝 𝐶𝑖 = 1 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1
𝛼 + 𝛽 𝑇
𝑥𝑖 =
1
1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖)
○ 𝐶𝑖 = 0のとき
○ 𝑝 𝐶𝑖 = 0 𝑥 = 1 − 𝑙𝑜𝑔𝑖𝑡−1
𝛼 + 𝛽 𝑇
𝑥𝑖 =
𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖)
1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖)
○ 𝑝 𝐶𝑖 = 0 𝑥 = 1 − 𝑝 𝐶𝑖 = 1 𝑥 なので、オッズ(発生確率が非発生確率の何倍かを表す)のt
対数をとると
○ log(
𝑝 𝐶𝑖 = 1 𝑥
1−𝑝 𝐶𝑖 = 1 𝑥
) = log 𝑒 𝛼+ 𝛽 𝑇 𝑥 𝑖 = 𝛼 + 𝛽 𝑇
𝑥𝑖
○ 𝑝 𝑡 = 𝑙𝑜𝑔𝑖𝑡−1
𝑡 なので、𝑙𝑜𝑔𝑖𝑡 𝑝 𝐶𝑖 = 1 𝑥 = 𝛼 + 𝛽 𝑇
𝑥𝑖 となり、確率のロジット関数
を線形関数で書けた。
○ ロジスティック回帰モデル
ロジスティック回帰 数学
9
Leverages Marketing Department
● n人のユーザに対して、クリックするかしないかは独立と仮定する。
● 独立と仮定すると各々のユーザがクリックする確率の積が尤度関数を最大化する
パラメタ𝛼, 𝛽を求める。
● ΘMLE = 𝑎𝑟𝑔𝑚𝑎𝑥 ς𝑖
𝑛
𝑝 𝐶𝑖 𝛼, 𝛽 = 𝑎𝑟𝑔𝑚𝑎𝑥 ς𝑖
𝑛
(
1
1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖)
) 𝐶 𝑖∗ (1 −
1
1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖)
)1−𝐶 𝑖
● 対数関数は単調増加なので、ΘMLEを最大化するためには、 − ln ΘMLE を最小化す
ればよい。
ロジスティック回帰 パラメタ推定
10
Leverages Marketing Department
● Θ(𝑘) を 𝑘 = 𝑘 𝑛 の周りで2次の項までテーラー展開する
○ Θ 𝑘 ~Θ 𝑘 𝑛 + ∇Θ 𝑘 𝑛 𝑘 − 𝑘 𝑛 +
1
2
𝑘 − 𝑘 𝑛
𝑇
∇2
Θ 𝑘 𝑛 𝑘 − 𝑘 𝑛
○ ∇2
Θ 𝑘 𝑛 はHesse行列
○ 𝐻 = ∇2Θ 𝑘 𝑛 , 𝑝 = (∇Θ 𝑘 𝑛 ) 𝑇 , 𝜉 = 𝑘 − 𝑘 𝑛とおくと右辺は次のように変形できる
○ Θ 𝑘 𝑛 + 𝑝 𝑇
𝜉 +
1
2
𝜉 𝑇
𝐻𝜉 = Θ 𝑘 𝑛 −
1
2
𝑝 𝑇
𝐻−1
𝑝 +
1
2
(𝑝 𝑇
𝐻−1
𝑝 + 2𝜉𝑝 𝑇
+ 𝜉 𝑇
𝐻𝜉)
= Θ 𝑘 𝑛 −
1
2
𝑝 𝑇
𝐻−1
𝑝 +
1
2
(𝜉 + 𝐻−1
𝑝) 𝑇
𝐻(𝜉 + 𝐻−1
𝑝)
○ 極小値をとるときHは正定値なので、第三項が最小になるとき左辺も最小。
○ 𝜉 = −𝐻−1
𝑝
○ 元に戻すと、
○ 𝑘 = 𝑘 𝑛 − (∇Θ 𝑘 𝑛 ) 𝑇
(∇2
Θ 𝑘 𝑛 )−1
○ ステップ幅を適当に定めて、Hは対称行列なので
○ 𝑘 = 𝑘 𝑛 − 𝛾(∇2
Θ 𝑘 𝑛 )−1
∇Θ 𝑘 𝑛
ロジスティック回帰 最適化 ニュートン法
11
Leverages Marketing Department
○ ニュートン法の手順としては
1. 初期値𝑘0を適当に決める。
2. ∇Θ 𝑘 𝑛 が0に近くなったら終了。
3. (∇2
Θ 𝑘 𝑛 )−1
∇Θ 𝑘 𝑛 を計算する。
4. ステップ幅を決めて、kを更新する。
5. 𝑛 = 𝑛 + 1として、2から繰り返す。
ロジスティック回帰 最適化 ニュートン法
12
Leverages Marketing Department
● ROC曲線とかやる前にちょっと整理する
● TP はサイトを訪れると予測されて実際にサイトを訪れたユーザ数、FNは訪れないと予
測されたが実際は訪れたユーザ数など。
評価 混同行列
13
予測されたクラス
訪れる(positive) 訪れない(negative)
実際のラベル
訪れる(positive) True positive(TP) False negative(FN)
訪れない(negative) False positive(FP) True negative(TN)
Leverages Marketing Department
● 閾値を変数として、閾値より大きいと
positive、小さいとnegativeと判断し
て曲線を描いていく
● ROC曲線は横軸にfpr、縦軸にtpr
○ 偽陽性率 fpr = FP / (FP + TN)
○ 真陽性率 tpr = TP / (TP + FN)
● ROC曲線の下の面積をAUC(Area
Under Curve)とよぶ。
○ モデルを良さや比較するのに用いられ
たりしている。
評価 混同行列
14
https://uxdaystokyo.com/articles/glossary/roccurve/
Leverages Marketing Department
○ リフト値=((xかつyを含む件数)/(xを含む件数)) / ((yを含む件数)/(全体の件数))
○ 正確度=(TP+TN) / (TP + FN + FP + TN)
○ 精度 = TP/(TP+FP)
○ 再現率=TP/(TP+FN)
○ F値=(2*精度*再現率)/(精度+再現率)
○ 平均二乗誤差、平均平方誤差、平均絶対誤差
○ など
評価 他の指標
15
Leverages Marketing Department
● C.M. ビショップ(2012), パターン認識と機械学習 上, (元田 浩, 栗田 多喜夫, 樋口 知
之, 松本 裕治, 村田 昇 訳)
● http://dsl4.eee.u-ryukyu.ac.jp/DOCS/nlp/node5.html
参考文献
16

More Related Content

Similar to [DSO]勉強会_データサイエンス講義_Chapter5

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へZansa
 
How to study stat
How to study statHow to study stat
How to study statAk Ok
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2KazuhiroSato8
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image AnalysisYuki Shimada
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎Hirotaka Hachiya
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用Hirotaka Hachiya
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析Hirotaka Hachiya
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法kenyanonaka
 
モンテカルロ法と情報量
モンテカルロ法と情報量モンテカルロ法と情報量
モンテカルロ法と情報量Shohei Miyashita
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎Hirotaka Hachiya
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1Kenta Oono
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)Kenta Ishii
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2Kenta Oono
 
S2 第3回DSEカンファレンス資料_okura
S2 第3回DSEカンファレンス資料_okuraS2 第3回DSEカンファレンス資料_okura
S2 第3回DSEカンファレンス資料_okurayoroz okura
 
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)Akira Asano
 
人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎Hirotaka Hachiya
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践Preferred Networks
 

Similar to [DSO]勉強会_データサイエンス講義_Chapter5 (20)

【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ【Zansa】第12回勉強会 -PRMLからベイズの世界へ
【Zansa】第12回勉強会 -PRMLからベイズの世界へ
 
How to study stat
How to study statHow to study stat
How to study stat
 
Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2Casual learning machine learning with_excel_no2
Casual learning machine learning with_excel_no2
 
NN, CNN, and Image Analysis
NN, CNN, and Image AnalysisNN, CNN, and Image Analysis
NN, CNN, and Image Analysis
 
データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎データ解析7 主成分分析の基礎
データ解析7 主成分分析の基礎
 
双対性
双対性双対性
双対性
 
人工知能2018 強化学習の応用
人工知能2018 強化学習の応用人工知能2018 強化学習の応用
人工知能2018 強化学習の応用
 
データ解析6 重回帰分析
データ解析6 重回帰分析データ解析6 重回帰分析
データ解析6 重回帰分析
 
Deep learning入門
Deep learning入門Deep learning入門
Deep learning入門
 
これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法これならわかる最適化数学8章_動的計画法
これならわかる最適化数学8章_動的計画法
 
実践データ分析基礎
実践データ分析基礎実践データ分析基礎
実践データ分析基礎
 
モンテカルロ法と情報量
モンテカルロ法と情報量モンテカルロ法と情報量
モンテカルロ法と情報量
 
人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎人工知能2018 6 強化学習の基礎
人工知能2018 6 強化学習の基礎
 
20170422 数学カフェ Part1
20170422 数学カフェ Part120170422 数学カフェ Part1
20170422 数学カフェ Part1
 
Long short-term memory (LSTM)
Long short-term memory (LSTM)Long short-term memory (LSTM)
Long short-term memory (LSTM)
 
20170422 数学カフェ Part2
20170422 数学カフェ Part220170422 数学カフェ Part2
20170422 数学カフェ Part2
 
S2 第3回DSEカンファレンス資料_okura
S2 第3回DSEカンファレンス資料_okuraS2 第3回DSEカンファレンス資料_okura
S2 第3回DSEカンファレンス資料_okura
 
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)
2018年度秋学期 応用数学(解析) 第2部・基本的な微分方程式 第7回 2階線形微分方程式(1) (2018. 11. 6)
 
人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎人工知能2018 5 機械学習の基礎
人工知能2018 5 機械学習の基礎
 
機械学習の理論と実践
機械学習の理論と実践機械学習の理論と実践
機械学習の理論と実践
 

Recently uploaded

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。iPride Co., Ltd.
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価sugiuralab
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directoryosamut
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxAtomu Hidaka
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000Shota Ito
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールsugiuralab
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Danieldanielhu54
 

Recently uploaded (8)

新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
新人研修のまとめ       2024/04/12の勉強会で発表されたものです。新人研修のまとめ       2024/04/12の勉強会で発表されたものです。
新人研修のまとめ 2024/04/12の勉強会で発表されたものです。
 
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
Amazon SES を勉強してみる その12024/04/12の勉強会で発表されたものです。
 
プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価プレイマットのパターン生成支援ツールの評価
プレイマットのパターン生成支援ツールの評価
 
20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory20240412_HCCJP での Windows Server 2025 Active Directory
20240412_HCCJP での Windows Server 2025 Active Directory
 
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptxIoT in the era of generative AI, Thanks IoT ALGYAN.pptx
IoT in the era of generative AI, Thanks IoT ALGYAN.pptx
 
PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000PHP-Conference-Odawara-2024-04-000000000
PHP-Conference-Odawara-2024-04-000000000
 
プレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツールプレイマットのパターン生成支援ツール
プレイマットのパターン生成支援ツール
 
Postman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By DanielPostman LT Fukuoka_Quick Prototype_By Daniel
Postman LT Fukuoka_Quick Prototype_By Daniel
 

[DSO]勉強会_データサイエンス講義_Chapter5

  • 2. 教科書 2 Rachel Schutt, Cathy O‘Neil (2014) 「データサイエンス講義」 (瀬戸山 雅人・石井 弓美子・河内 崇・河内 真理子・古畠 敦・ 木下 哲也・竹田 正和・佐藤 正士・望月 啓充 訳) 1章 はじめに:データサイエンスとは 2章 統計的推論、探索的データ分析、データサイエンスのプロセス 3章 アルゴリズム 4章 スパムフィルタ、単純ベイズ、データラングリング 5章 ロジスティック回帰 6章 タイムスタンプと金融モデリング 7章 データから意味を抽出する 8章 レコメンデーションエンジン:ユーザが直接触れる大規模データ製品を構築する 9章 データ可視化と不正検出 10章 ソーシャルネットワークとデータジャーナリズム 11章 因果関係 12章 疫学 13章 データ分析のコンペティションから得られた教訓:データのリークとモデルの評価 14章 データエンジニアリング:MapReduce、Pregel、Hadoop 15章 生徒たちの声 16章 次世代のデータサイエンティスト、データに対する過信と倫理
  • 3. Leverages Marketing Department ● 思考実験 ● 分類器 ● ロジスティック回帰 目次 3
  • 4. Leverages Marketing Department ● 思考実験とは ○ 頭の中で想像するだけの実験。科学の基礎原理に反しない限りで、極度に単純・理想化 された前提(例えば摩擦のない運動、収差のないレンズなど)により遂行される。 ■ 出展:https://ja.wikipedia.org/wiki/思考実験 ■ 例:アインシュタインが行った、光を追いかけるとどうなるかという思考実験。特殊相対性理 論につながった。 ● 「すべての大統一理論があったら」 ○ データサイエンスにそのようなものがあるとは思えない。 ○ 物理学のようなピタッと予測できる分野とデータサイエンスとの違いは何か? ● データサイエンスのサイエンスと呼ぶのにふさわしい理由? ○ 最もよいモデルを保持 ○ 2つのモデルを競い合わせる実験 ○ 洗練させる作業 思考実験 4
  • 5. Leverages Marketing Department ● 分類とは ○ データポイントを有限個のラベル集合に対応させること ○ どの分類器、最適化手法、損失関数、特徴、評価指標を使うかを選ぶ必要がある。 ○ 実行時間、そのアルゴリズムを理解しているか、解釈がしやすいか、スケーラビリティ(学習 時間、評価時間、モデル保存サイズ) 分類器 5 広告をクリックするかどうか 0(いいえ)または1(はい) 何の数字の画像か 0, 1, 2, …, 9など スパムかどうか 0(いいえ)または1(はい)
  • 6. Leverages Marketing Department ● 例として、あるユーザがある広告をクリックするかどうか予測する問題を考える ○ ユーザが訪れたサイトをデータとして蓄積しておく ○ それを行列で表す ■ あるユーザがサイトを訪れていたら1、訪れていなかったら0として、行がユーザ、列がサイ トを表す行列 ■ ほとんどの要素が0になる(疎行列) ロジスティック回帰 6 ユーザID \ サイトID 1 2 3 … 1 1 0 1 … 2 0 0 1 … 3 0 1 0 … … … … … …
  • 7. Leverages Marketing Department ● あるユーザが靴の広告をクリックするか否か ○ クリックすれば1、しなければ0とする ロジスティック回帰 7 ユーザID クリック 1 1 2 0 3 0 … …
  • 8. Leverages Marketing Department ● 2クラス分類において、クラス𝐶1 = 1と𝐶2 = 0があると する。クラス𝐶1に属する確率は次のようになる。 ○ 𝑝 𝐶1 𝑥 = 𝑝 𝑥 𝐶1 𝑝 𝐶1 𝑝 𝑥 𝐶1 𝑝 𝐶1 +𝑝 𝑥 𝐶2 𝑝 𝐶2 = 1 1+𝑒−𝑡 = 𝜎(−𝑡) ○ 𝑡 = ln 𝑝 𝑥 𝐶1 𝑝 𝐶1 𝑝 𝑥 𝐶2 𝑝 𝐶2 ● 最初の式の3番目の辺はロジスティックシグモイド関数 (ロジット関数の逆関数) ○ 𝑝 𝐶1 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1 𝑡 ○ ある値を受け取っては[0, 1]の値を出力する。 ロジスティック回帰 数学 8
  • 9. Leverages Marketing Department ● 𝑡 = 𝛼 + 𝛽 𝑇 𝑥𝑖 ○ 𝑝 𝐶𝑖 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1 (𝛼 + 𝛽 𝑇 𝑥𝑖) 𝑐 𝑖 ∗ 1 − 𝑙𝑜𝑔𝑖𝑡−1 (𝛼 + 𝛽 𝑇 𝑥𝑖) 1−𝑐 𝑖 ● 𝑥𝑖 はユーザiの特徴ベクトルで、 𝐶𝑖 は 0か1をとる。 ○ 𝐶𝑖 = 1のとき ○ 𝑝 𝐶𝑖 = 1 𝑥 = 𝑙𝑜𝑔𝑖𝑡−1 𝛼 + 𝛽 𝑇 𝑥𝑖 = 1 1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖) ○ 𝐶𝑖 = 0のとき ○ 𝑝 𝐶𝑖 = 0 𝑥 = 1 − 𝑙𝑜𝑔𝑖𝑡−1 𝛼 + 𝛽 𝑇 𝑥𝑖 = 𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖) 1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖) ○ 𝑝 𝐶𝑖 = 0 𝑥 = 1 − 𝑝 𝐶𝑖 = 1 𝑥 なので、オッズ(発生確率が非発生確率の何倍かを表す)のt 対数をとると ○ log( 𝑝 𝐶𝑖 = 1 𝑥 1−𝑝 𝐶𝑖 = 1 𝑥 ) = log 𝑒 𝛼+ 𝛽 𝑇 𝑥 𝑖 = 𝛼 + 𝛽 𝑇 𝑥𝑖 ○ 𝑝 𝑡 = 𝑙𝑜𝑔𝑖𝑡−1 𝑡 なので、𝑙𝑜𝑔𝑖𝑡 𝑝 𝐶𝑖 = 1 𝑥 = 𝛼 + 𝛽 𝑇 𝑥𝑖 となり、確率のロジット関数 を線形関数で書けた。 ○ ロジスティック回帰モデル ロジスティック回帰 数学 9
  • 10. Leverages Marketing Department ● n人のユーザに対して、クリックするかしないかは独立と仮定する。 ● 独立と仮定すると各々のユーザがクリックする確率の積が尤度関数を最大化する パラメタ𝛼, 𝛽を求める。 ● ΘMLE = 𝑎𝑟𝑔𝑚𝑎𝑥 ς𝑖 𝑛 𝑝 𝐶𝑖 𝛼, 𝛽 = 𝑎𝑟𝑔𝑚𝑎𝑥 ς𝑖 𝑛 ( 1 1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖) ) 𝐶 𝑖∗ (1 − 1 1+𝑒−(𝛼+ 𝛽 𝑇 𝑥 𝑖) )1−𝐶 𝑖 ● 対数関数は単調増加なので、ΘMLEを最大化するためには、 − ln ΘMLE を最小化す ればよい。 ロジスティック回帰 パラメタ推定 10
  • 11. Leverages Marketing Department ● Θ(𝑘) を 𝑘 = 𝑘 𝑛 の周りで2次の項までテーラー展開する ○ Θ 𝑘 ~Θ 𝑘 𝑛 + ∇Θ 𝑘 𝑛 𝑘 − 𝑘 𝑛 + 1 2 𝑘 − 𝑘 𝑛 𝑇 ∇2 Θ 𝑘 𝑛 𝑘 − 𝑘 𝑛 ○ ∇2 Θ 𝑘 𝑛 はHesse行列 ○ 𝐻 = ∇2Θ 𝑘 𝑛 , 𝑝 = (∇Θ 𝑘 𝑛 ) 𝑇 , 𝜉 = 𝑘 − 𝑘 𝑛とおくと右辺は次のように変形できる ○ Θ 𝑘 𝑛 + 𝑝 𝑇 𝜉 + 1 2 𝜉 𝑇 𝐻𝜉 = Θ 𝑘 𝑛 − 1 2 𝑝 𝑇 𝐻−1 𝑝 + 1 2 (𝑝 𝑇 𝐻−1 𝑝 + 2𝜉𝑝 𝑇 + 𝜉 𝑇 𝐻𝜉) = Θ 𝑘 𝑛 − 1 2 𝑝 𝑇 𝐻−1 𝑝 + 1 2 (𝜉 + 𝐻−1 𝑝) 𝑇 𝐻(𝜉 + 𝐻−1 𝑝) ○ 極小値をとるときHは正定値なので、第三項が最小になるとき左辺も最小。 ○ 𝜉 = −𝐻−1 𝑝 ○ 元に戻すと、 ○ 𝑘 = 𝑘 𝑛 − (∇Θ 𝑘 𝑛 ) 𝑇 (∇2 Θ 𝑘 𝑛 )−1 ○ ステップ幅を適当に定めて、Hは対称行列なので ○ 𝑘 = 𝑘 𝑛 − 𝛾(∇2 Θ 𝑘 𝑛 )−1 ∇Θ 𝑘 𝑛 ロジスティック回帰 最適化 ニュートン法 11
  • 12. Leverages Marketing Department ○ ニュートン法の手順としては 1. 初期値𝑘0を適当に決める。 2. ∇Θ 𝑘 𝑛 が0に近くなったら終了。 3. (∇2 Θ 𝑘 𝑛 )−1 ∇Θ 𝑘 𝑛 を計算する。 4. ステップ幅を決めて、kを更新する。 5. 𝑛 = 𝑛 + 1として、2から繰り返す。 ロジスティック回帰 最適化 ニュートン法 12
  • 13. Leverages Marketing Department ● ROC曲線とかやる前にちょっと整理する ● TP はサイトを訪れると予測されて実際にサイトを訪れたユーザ数、FNは訪れないと予 測されたが実際は訪れたユーザ数など。 評価 混同行列 13 予測されたクラス 訪れる(positive) 訪れない(negative) 実際のラベル 訪れる(positive) True positive(TP) False negative(FN) 訪れない(negative) False positive(FP) True negative(TN)
  • 14. Leverages Marketing Department ● 閾値を変数として、閾値より大きいと positive、小さいとnegativeと判断し て曲線を描いていく ● ROC曲線は横軸にfpr、縦軸にtpr ○ 偽陽性率 fpr = FP / (FP + TN) ○ 真陽性率 tpr = TP / (TP + FN) ● ROC曲線の下の面積をAUC(Area Under Curve)とよぶ。 ○ モデルを良さや比較するのに用いられ たりしている。 評価 混同行列 14 https://uxdaystokyo.com/articles/glossary/roccurve/
  • 15. Leverages Marketing Department ○ リフト値=((xかつyを含む件数)/(xを含む件数)) / ((yを含む件数)/(全体の件数)) ○ 正確度=(TP+TN) / (TP + FN + FP + TN) ○ 精度 = TP/(TP+FP) ○ 再現率=TP/(TP+FN) ○ F値=(2*精度*再現率)/(精度+再現率) ○ 平均二乗誤差、平均平方誤差、平均絶対誤差 ○ など 評価 他の指標 15
  • 16. Leverages Marketing Department ● C.M. ビショップ(2012), パターン認識と機械学習 上, (元田 浩, 栗田 多喜夫, 樋口 知 之, 松本 裕治, 村田 昇 訳) ● http://dsl4.eee.u-ryukyu.ac.jp/DOCS/nlp/node5.html 参考文献 16