SlideShare a Scribd company logo
調査観察データの統計科学 勉強記1 
西尾泰和
今回の目的 
•2章の「入試選抜による選択バイアス」問題を、 実際に類似の問題に出会った時に解くことが できるレベルまで理解する 
•…ためにまずはこの問題を実際に解く
問題の定義 
•得たいもの:「入試の点数と、入学後の点数 の関係を知りたい!」
入試の点数푦1 
入学後の試験の点数푦2
こうなってほしい 
真のモデルは푁푦1,푦250,50,(100,70,70,100))
データがない 
•入試で落ちた人の「入学後の点数」は不明 
不明
合格者のデータから推定… 
全然ダメだ! 
モデルは二次元ガウス分布と仮定して合格者のデータからパラメータを最尤推定
何ができる? 
•不合格者のデータも使おう!
不合格者のy2の値は実際には存在しないが、 あえて「実際には存在しているけどたまたま欠測しただけ」と考える 反実仮想アプローチ
尤度の定義 
「mが푦표푏푠だけで決まる」条件下での尤度 
この尤度を最大にするθが知りたい! 
→argmax휃 푝(푦표푏푠|휃) を計算すれば良い
Lを最小化する2つのアプローチ 
•Lをパラメータθの各変数について偏微分して 0と起き、連立方程式を解いたら極値を取るθ がわかるよね、という解析的アプローチ (人間が頑張って数式を計算する) 
•LをそのまんまPythonで実装して、 scipy.optimizeで最小値を求めるアプローチ (CPUが頑張って数値計算する)
2次元ガウス分布の負の対数尤度 
毎回データを舐めるなんて遅そう?でもとりあえずやってみる 
式をそのまんまコードにしてる:
1次元ガウス分布の負の対数尤度
観測データに対する負の対数尤度 
足すだけ
Scipyに投げる 
適当な初期値(平均0、分散1)から探索スタート
できた!
before
after
正解とのズレ
所要時間 
•N=300: 0.67sec 
•N=900: 1.68sec 
•N=2700: 4.83sec 
•N=8100: 15.24sec 
意外と速くていろんな応用に使えそう。 
速度が問題になるケースでは両群について十分統 計量Σ푦1,Σ푦2,Σ푦12,Σ푦1푦2,Σ푦22を計算することで尤 度関数からループを追い出せるはず。 
指摘:今回パラメータが5個で、それが変わった時の速度の変化を調べてない 指摘:微分を計算してoptimizeに与えることで高速化って手も
まとめ 
•対数尤度関数を適当に実装してscipyに突っ 込んだけど意外と速かった 
•意外と簡単に応用できることがわかったので 実際に解いてみるアプローチはよさげ 
•次回はp.72「小学校での英語教育の有無で 国語の成績に有意差があるけど実は家庭環 境の差が原因」問題を解く?

More Related Content

Viewers also liked

Viewers also liked (14)

Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
Wifiにつながるデバイス(ESP8266EX, ESP-WROOM-02, ESPr Developerなど)
 
強化学習その4
強化学習その4強化学習その4
強化学習その4
 
実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと実践多クラス分類 Kaggle Ottoから学んだこと
実践多クラス分類 Kaggle Ottoから学んだこと
 
ESP8266EXで位置推定
ESP8266EXで位置推定ESP8266EXで位置推定
ESP8266EXで位置推定
 
マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?マイコンのIOピンはなぜ入出力の両方に使えるのか?
マイコンのIOピンはなぜ入出力の両方に使えるのか?
 
線形?非線形?
線形?非線形?線形?非線形?
線形?非線形?
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
エンジニアのための学ぶ技術
エンジニアのための学ぶ技術エンジニアのための学ぶ技術
エンジニアのための学ぶ技術
 
強化学習その3
強化学習その3強化学習その3
強化学習その3
 
Raspberry Piで Wifiルータを作る
Raspberry PiでWifiルータを作るRaspberry PiでWifiルータを作る
Raspberry Piで Wifiルータを作る
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
勾配降下法の 最適化アルゴリズム
勾配降下法の最適化アルゴリズム勾配降下法の最適化アルゴリズム
勾配降下法の 最適化アルゴリズム
 
ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用ルールベースから機械学習への道 公開用
ルールベースから機械学習への道 公開用
 
2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門2017年3月版データマエショリスト入門
2017年3月版データマエショリスト入門
 

More from nishio

More from nishio (14)

量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング量子アニーリングマシンのプログラミング
量子アニーリングマシンのプログラミング
 
夏プロ報告
夏プロ報告夏プロ報告
夏プロ報告
 
ITと経営
ITと経営ITと経営
ITと経営
 
部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI部分観測モンテカルロ計画法を用いたガイスターAI
部分観測モンテカルロ計画法を用いたガイスターAI
 
交渉力について
交渉力について交渉力について
交渉力について
 
If文から機械学習への道
If文から機械学習への道If文から機械学習への道
If文から機械学習への道
 
組織横断型研究室構想
組織横断型研究室構想組織横断型研究室構想
組織横断型研究室構想
 
2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義2017首都大学東京情報通信特別講義
2017首都大学東京情報通信特別講義
 
強化学習その5
強化学習その5強化学習その5
強化学習その5
 
良いアイデアを出すための方法
良いアイデアを出すための方法良いアイデアを出すための方法
良いアイデアを出すための方法
 
機械学習キャンバス0.1
機械学習キャンバス0.1機械学習キャンバス0.1
機械学習キャンバス0.1
 
「ネットワークを作る」 ってどういうこと?
「ネットワークを作る」ってどういうこと?「ネットワークを作る」ってどういうこと?
「ネットワークを作る」 ってどういうこと?
 
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
「ネットワークを作ることでイノベーションを加速」ってどういうこと?「ネットワークを作ることでイノベーションを加速」ってどういうこと?
「ネットワークを作ることで イノベーションを加速」 ってどういうこと?
 
未踏社団でのkintoneの活用
未踏社団でのkintoneの活用未踏社団でのkintoneの活用
未踏社団でのkintoneの活用
 

Recently uploaded

Recently uploaded (7)

On community support centres as a sales destination.pdf
On community support centres as a sales destination.pdfOn community support centres as a sales destination.pdf
On community support centres as a sales destination.pdf
 
modul belajar bagasa jepang pemula -N5.pdf
modul belajar bagasa jepang pemula -N5.pdfmodul belajar bagasa jepang pemula -N5.pdf
modul belajar bagasa jepang pemula -N5.pdf
 
Key points of the revision of the Inheritance Law Contribution and Special Co...
Key points of the revision of the Inheritance Law Contribution and Special Co...Key points of the revision of the Inheritance Law Contribution and Special Co...
Key points of the revision of the Inheritance Law Contribution and Special Co...
 
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
2024年度 東京工業大学 工学院 機械系 大学院 修士課程 入試 説明会 資料
 
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
東京工業大学 大学院 6学院入試説明会資料 2024年度受験者向け
 
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 − 情報科学からのアプローチ −
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 −	情報科学からのアプローチ −〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 −	情報科学からのアプローチ −
〔第27回日本高等教育学会年会発表〕IRにおける教務概念のオントロジー化 − 情報科学からのアプローチ −
 
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
ゲーム理論 BASIC 演習108 -フリーライダー② -#ゲーム理論 #gametheory #数学
 

調査観察データの統計科学1