SlideShare a Scribd company logo
1 of 15
データモデリングとアルゴリズムで考える
統計と機械学習の違い
問題を解決するとはどういうことか
今回紹介する内容
● Statistical modeling: The two cultures
○ 著者: Leo Breiman
○ 投稿: Statistical Science 2001, Vol. 16, No. 3, 199-231
○ 引用: 3587件 (2021/04/15 地点)
● 論文の内容
○ データから結論を導き出す統計モデルには、データモデリングとアルゴリズムという2つの文
化がある
■ データモデリング: データが確率的データモデルにより生成されたとする
■ アルゴリズムモデリング (以降、アルゴリズム): データ生成のメカニズムは未知とする。
統計学以外の分野で発展。
○ データモデリングの世界とアルゴリズムの世界の両方を知る筆者が、問題を解決することに
集中して、それぞれの手法を選ぶべきと主張している。
● 問題を解決するとはどういうことかを考えるきっかけとなる論文
Leo Breiman (1928~2005)
● 「ランダムフォレストの父」
○ 2001年にDecision Treeを発展させて提案した
大学に勤める
コンサルティング(13年)
大学へ戻る(1980~)
● 多くのプロジェクトに携わる
○ 翌日のオゾン濃度の予測
○ 質量分析スペクトルを用いた化学構造の
決定
○ など...
● 既存の統計モデルがうまくいかない
○ データ量
○ 次元数
● 既存の統計モデリングに疑問を感じる
○ どの論文を読んでも、
「~のモデルを仮定する」
→ 仮定しない方がいいのでは?
● 実社会に適用していきたい
コンサルの経験が、アルゴリズム文化の考え方の元となった
問題を解決するための認識
● 良い解決策を見つけることに焦点をあてる
● モデリングを始める前にデータとしっかり向き合う
● 良い解決策を与えてくれるモデルを探す (アルゴリズム または データモデル)
● テストデータにおける予測精度は、作成したモデルの良さの基準である
● コンピューターは手放せないパートナーである
データとは
● 入力xにnatureファンクションで何らかの処理を加えてyを出力 → データ分析
● データ分析2種類のゴール
○ 予測
→ 将来の入力x に対し、その出力y を予測
○ 情報
→ 入力xと出力yをnatureファンクションがどのように関連付けているかの情報を抽出
2つの文化
● データモデリング文化
○ 確率的なモデルを仮定
○ データはモデルから発生
○ データからモデルのパラメータを推定
○ 例) y = f(x; α)
■ α: 推定したパラメータ
● アルゴリズム文化 (著者の立場)
○ モデルを仮定しない
○ 自然界は複雑でよくわからない
○ いい予測を返すアルゴリズムを探す
データモデリングの問題点
● データをモデルにフィットさせ、定量的な結論を出すことは、“モデル”のメカニズムの
結論を出しており、“nature”のメカニズムではない
○ モデルが適切でない場合、結論を間違えてしまう
● モデルを評価するための決定係数や残差分析は万能ではない
● 「ハンマーしか持っていないと全ての問題が釘に見えてしまう」
■ 限られた手段(モデルの仮定)しか持たないと、問題の本質を上手く捉えられない
■ データモデリングにこだわりすぎないようにする
アルゴリズム文化の誕生
● 1980年代半ばに使えるようになったモデル
○ ニューラルネット
■ 脳の神経回路を模した数理モデル
■ 特徴量の生成が不要
○ 決定木
■ ツリー構造を用いて段階的にデータを分割
■ 解釈性が高い
● 当初は複雑な問題に適用できなかった
○ 話者認識、画像認識、非線形時系列解析、...
● モデルの良し悪しは未知データに対する精度
予測を目的とするなら
● どのようにデータが生成されるかを考えなくても、予測精度を高
くなればよい → データモデルからアルゴリズムへ
● データの生成について解釈をしたい場合は、予測精度が高いモデ
ルを作ってから解釈をする (事前にモデルを仮定しない)
データ生成の仕組みは後から解釈
予測をうまくできるかを第一に考える
高い予測精度を目指すアルゴリズムの文化で得られた教訓
● 羅生門効果
● オッカムの剃刀
● 次元の呪い
羅生門効果
● 1つの現象を説明するモデルが複数存在
例) 線形回帰 (データモデリング) における変数選択
● 今、30個の変数から5つの変数を選びたい
● 組み合わせは約14万通り
● テストデータに対する誤差が1.0%以下
のモデルを選択
● Picture1~3のように3通りの組み合わせが
存在した時、どのモデルを採用すべき?
→ 重要な変数が異なり、違った結論を導く
→ バギング (アルゴリズム文化)
オッカムの剃刀
● ある事柄を説明するためには、必要以上に多くを仮定するべきで
ない
● 同程度の予測性能なら、モデルはシンプルな方がいい
● しかし精度を求めるとモデルは複雑になってしまう
○ シンプルさと予測性能はトレードオフ
● モデルの精度をあげてから解釈していけばいい
次元の呪い
● 変数が増えるとモデル作成が困難になる
● データモデリングにおけるプラクティス
○ 回帰などで高次元のデータを扱うことは危険
○ 重要な情報を持つ変数だけを残す
● アルゴリズム
○ 変数を減らすと情報も減る
○ 他の変数と組み合わせることにより有効になる変数もある
○ → 変数を減らすのではなく、多くの関数を使う
まとめ
● 今回紹介した論文: Statistical modeling: The two cultures
● データモデリング文化(=統計学)
○ 型にそって、あるモデルを仮定する
○ モデルを評価し、データを説明することが目的
● アルゴリズム文化(=機械学習)
○ モデルを仮定しない
○ 将来のデータに対する予測精度を高めることが目的
○ 解釈は後付け
● 目的に応じて使い分けられるようにすることが大事
チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

More Related Content

What's hot

機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらいHideo Terada
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理するHiroshi Shimizu
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明Satoshi Hara
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリングmlm_kansai
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門Momoko Hayamizu
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)Hiroshi Shimizu
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話Classi.corp
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルMasaru Tokuoka
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるitoyan110
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeTakami Sato
 
距離と分類の話
距離と分類の話距離と分類の話
距離と分類の話考司 小杉
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究についてDeep Learning JP
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門hoxo_m
 
人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術Yutaka KATAYAMA
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMMMorpho, Inc.
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたいTakuji Tahara
 

What's hot (20)

2 3.GLMの基礎
2 3.GLMの基礎2 3.GLMの基礎
2 3.GLMの基礎
 
機械学習のための数学のおさらい
機械学習のための数学のおさらい機械学習のための数学のおさらい
機械学習のための数学のおさらい
 
心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する心理学におけるベイズ統計の流行を整理する
心理学におけるベイズ統計の流行を整理する
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
最近のKaggleに学ぶテーブルデータの特徴量エンジニアリング
 
パターン認識と機械学習入門
パターン認識と機械学習入門パターン認識と機械学習入門
パターン認識と機械学習入門
 
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
StanとRでベイズ統計モデリング読書会 導入編(1章~3章)
 
pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話pymcとpystanでベイズ推定してみた話
pymcとpystanでベイズ推定してみた話
 
SEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデルSEMを用いた縦断データの解析 潜在曲線モデル
SEMを用いた縦断データの解析 潜在曲線モデル
 
ベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づけるベルヌーイ分布からベータ分布までを関係づける
ベルヌーイ分布からベータ分布までを関係づける
 
BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装BlackBox モデルの説明性・解釈性技術の実装
BlackBox モデルの説明性・解釈性技術の実装
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
距離と分類の話
距離と分類の話距離と分類の話
距離と分類の話
 
線形計画法入門
線形計画法入門線形計画法入門
線形計画法入門
 
【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について【DL輪読会】Hopfield network 関連研究について
【DL輪読会】Hopfield network 関連研究について
 
機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術人工知能を用いた医用画像処理技術
人工知能を用いた医用画像処理技術
 
マーク付き点過程
マーク付き点過程マーク付き点過程
マーク付き点過程
 
(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM(文献紹介) 画像復元:Plug-and-Play ADMM
(文献紹介) 画像復元:Plug-and-Play ADMM
 
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
【LT資料】 Neural Network 素人なんだけど何とかご機嫌取りをしたい
 

More from 西岡 賢一郎

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する西岡 賢一郎
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する西岡 賢一郎
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する西岡 賢一郎
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待西岡 賢一郎
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと西岡 賢一郎
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介西岡 賢一郎
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する西岡 賢一郎
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store西岡 賢一郎
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで西岡 賢一郎
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習西岡 賢一郎
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成西岡 賢一郎
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論西岡 賢一郎
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析西岡 賢一郎
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説西岡 賢一郎
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart西岡 賢一郎
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介西岡 賢一郎
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習西岡 賢一郎
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと西岡 賢一郎
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門西岡 賢一郎
 

More from 西岡 賢一郎 (20)

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
 

Recently uploaded

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfFumieNakayama
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案sugiuralab
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineerYuki Kikuchi
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...博三 太田
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?akihisamiyanaga1
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)UEHARA, Tetsutaro
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfFumieNakayama
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 

Recently uploaded (14)

クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdfクラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
 
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
 
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察  ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
 
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
 
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdfAWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 

データモデリングとアルゴリズムで考える統計と機械学習の違い

Editor's Notes

  1. こんにちは、西岡です。 今回は、データモデリングとアルゴリズムで考える統計と機械学習の違いというテーマでお話ししたいと思います。 データサイエンスをやるためには、機械学習と統計両方の知識を持たないといけないという話をよく聞きます。 今回の動画では、統計の世界と機械学習の世界の違いを、データモデリングとアルゴリズムという切り口で論じている論文を紹介します。 このチャンネルでは、機械学習などの論文紹介を初めとして、開発や経営などに関連した情報も発信していきます。 興味のある方がいらっしゃいましたらぜひチャンネル登録お願いします。
  2. 今回紹介する論文は、統計モデル 2つのカルチャーという論文です。 この論文は、2001年にBreimanによって発表された論文です。 データから結論を導き出す統計モデルを、データモデリングとアルゴリズムという2つの文化に分けて論じています。 データモデリングはデータが確率的データモデルにより生成されるとし、統計学の中で長い間研究されていました。 一方アルゴリズムは、データ生成のメカニズムは未知としたまま問題解決するもので、統計学と別の分野で登場しました。 データモデリングの世界とアルゴリズムの世界を両方経験したBreimanが、データモデリングの世界の問題点を指摘しつつ、アルゴリズムの世界を紹介しています。 この論文は、アルゴリズムの世界が優れていることを主張する論文ではなく、問題を解決することにフォーカスして、適切な手法を選ぶべきという主張をしている論文となっています。 問題を解決するとはどういうことかを考えるきっかけにもなる論文だと思います。 それでは解説していきます。
  3. まず筆者であるBreimanを紹介します。 BreimanはRandom Forestの生みの親とも呼ばれ、機械学習の発展にも大きく貢献した研究者です。 Breimanは大学に務めた後、コンサルティング会社で働き、そこで統計モデルを使った様々なプロジェクトを経験しました。 しかし、統計モデリングを使っていく中で、統計モデリングだけでは問題解決がうまくいかないことに気づきました。 Breimanはコンサルティング会社を離れた後は、また大学へ戻り研究を始めました。 そして、どの論文でもモデルを仮定していることに疑問を持ち、モデルを仮定しない方がいいのではという考えはじめたんですね。 コンサルティングの経験と実社会に適応していきたいという思いがアルゴリズム文化の考え方の下のなったというわけです。 この論文はアルゴリズムが良い点が述べられていますが、Breiman自身はデータモデリングに否定的というわけではありません。 あくまでも問題を解決するという視点に立ったときに、データモデルを仮定しないほうがいいときもあるということを主張しています。
  4. Breimanがコンサルなどの経験を得て、問題解決のためのデータの扱い方について5つ認識をしていたようです。 1つ目は良い解決策を見つけることに焦点を当てること。 2つ目はモデリングを始めるためにデータとしっかり向き合うこと。 3つ目は良い解決策を与えてくれるモデルを探すこと。このモデルはアルゴリズムとデータモデリングの両方を指します。 4つ目はテストデータにおける予測精度が、モデルの良さの基準であるということ。ここらへんは今の機械学習の世界ではあたりまえになっていますね。 そして、最後5つ目がコンピューターは手放せないパートナーであるということです。大量演算を必要としていることを指しているんだと思います。
  5. そもそもデータとは何かということについて、この論文ではデータがこのようなグラフで生成されるとしています。 データxが何らかの処理であるnatureファンクションによって形を変えyとして出力されるということです。 機械学習をやっている人にとっては想像がつきやすい図かもしれません。 よくわからないという人は、データがnatureファンクションというものによって生成されているぐらいの認識でいて大丈夫です。 Breimanは、このように生成されるデータの分析のゴールを2種類に分けています。 データ分析のゴールの1つ目は予測で、新しく入ってきたxに対してyがどのようになるかを予測します。 もう一つのデータ分析のゴールは、入力xと出力yを紐付けるnatureファンクションがどのように動作しているかを調べます。 このデータ分析に対して、Breimanはデータモデリングの文化とアルゴリズムの文化という2種類の文化があるとことをBreimanは主張しています。
  6. では、今回の論文のメインの話である、データモデリングとアルゴリズムについてそれぞれについて簡単に説明します。 まず、データモデリングでは、Xをyに変換するNatureファンクションが何かしらの確率的なモデルとなっています。 このモデルを実際のパラメータから推定することにより、どのようにyが発生するかを解き明かしていきます。 一方、アルゴリズムでは、間にあるNatureファンクションは複雑なものとして、モデルを仮定することをしません。 アルゴリズムでは、とにかく良い予測結果を出せるようなアルゴリズムを探していくこととなります。 つまり、間にある関数を解き明かすことを目的とするか、間にある関数が複雑であるとして解き明かそうとせず予測結果だけをよくしていくかという方向性の違いがあるということです。
  7. では、データモデリングは何が問題かということについて少し紹介します。 Breimanはデータをモデルにフィットさせて定量的な結論を出すことは、モデルのメカニズムの結論を出しているだけで、Natureそのもののメカニズムではないと主張しています。 分析自体がモデルの良さを評価しているにすぎないので、実際のNatureを表しているわけではないということですね。 そのため、モデル自体が適切でなければ結論を間違えてしまうということです。 また、Breimanはモデルを評価するための決定係数や残差分析が万能ではないということも述べています。 実際の世界のデータでは、変数の欠如や非線形の変数や大量の変数などがあり、それらによって決定係数や残差分析が使えなくなってしまうということです。 ハンマーしか持っていないと全ての問題が釘に見えてしまうということわざがあるのですが、データモデリングだけで問題を解決するということはデータモデリングだというハンマーをもっているのと同じということですね。 データモデリングにこだわりすぎず、別のアプローチも考えてみようというのがBreimanの主張です。
  8. データモデリングが統計学者の中で主流となっている中、コンピューターサイエンスと物理学とエンジニアリングと統計学者による新しい研究コミュニティーから登場しました。 そこで誕生したものがアルゴリズムによるモデリングです。 1980年代なかばにニューラルネットワークや決定木が使われるようになったわけですが、その当時は複雑な問題には適用できなかったようです。 このアルゴリズムの世界ではモデルの善し悪しを決めるのは、未知のデータに対する予測精度でした。
  9. もし予測を目的とするのであれば、データがどのように生成されるかは主目的ではなく予測精度が主目的となります。 この予測をよくするという目的を達成するために出てきているのが、アルゴリズムの世界なんですね。 先程も紹介したようにアルゴリズムでは、Natureファンクションが複雑であるとして、特定のモデルを仮定しない代わりに、予測される出力yの予測精度の最大化を目指します。 もし、natureファンクションがどんな動きをしているかなど解釈をしたい場合は、まずは高い予測精度を持つモデルをアルゴリズムで構築して、そのあと解釈するというアプローチをBreimanは紹介しています。 目的を達成するためであれば手段は最初は気にしない、目的達成ができてから手段について考えようというようなアプローチとも言えると思います。 このように、目的が予測の精度となってきたことにより、アルゴリズムによるモデル作成が飛躍的な進化を遂げてきたというわけです。
  10. 高い精度を得るために研究が盛んになったアルゴリズムの世界で得られた重要な教訓3つをBreimanはこの論文で紹介しています。 それぞれについて、データモデルの世界と絡めて簡単に説明します。
  11. まずはじめに羅生門効果についてです。 羅生門効果とは1つの現象を説明するモデルが複数存在することを意味します。 羅生門効果がデータモデリングでどのようになるかを線形回帰を例にしてみます。 解きたい変数が30個会ったと仮定します。 このとき、データモデリングでは重要な変数を数個選ぶので、今回は5つの変数を選ぶとします。 変数の組み合わせは14万通りあるのですが、テストデータに対する誤差が1%以下であるモデルという制約をくわえたときに、モデルが3つ出てきました。 それぞれのモデルで使っている変数も変数の重みも違います。 これではどのモデルがよいかがわからないと思います。 それぞれのモデルがそれぞれ違った結論を導くというわけですね。 これがデータモデリングにおける難しさの一つとなります。 一方、アルゴリズムでは、複数のモデルを組み合わせて予測を実施することで、高い予測精度を実現できたという研究があります。 つまり、単一のモデルで解釈することを諦めることで、予測精度の向上ができたということですね。
  12. アルゴリズムの研究で得られた教訓2つめは、オッカムの剃刀についてです。 オッカムの剃刀は、ある事柄を説明するためには、必要以上に多くを仮定するべきではないということを意味しています。 つまり、同じような予測性能であれば、モデルはシンプルな方がいいということです。 しかし、モデルのシンプルさを求めることとと予測性能はトレードオフとなります。 モデルをシンプルにすればするほど予測性能が悪くなり、モデルを複雑にすればするほど予測性能が良くなっていきます。 Breimanはこの現象については、モデルの精度を上げた後にモデルの解釈をすればよいと述べています。
  13. アルゴリズムの研究で得られた教訓3つめは、次元の呪いについてです。 次元の呪いとは、変数が増えれば増えるほど、モデルの作成が困難になるというものです。 そのため、データモデリングの世界では、高次元のデータを扱うことは危険だとされ、重要な情報を持つ変数だけ残すというプラクティスがありました。 一方、アルゴリズムの世界では、変数を減らすと情報が減ると考えます。また、組み合わせることによって有効になる変数もあるとしてできる限り変数を残すようにします。 アルゴリズムでは、変数を減らさない代わりに多くの関数を用意することでフィッティングを行うようにしています。
  14. 最後にまとめです。 今回は、統計モデリングにおける2文化という論文について紹介しました。 この論文では、統計モデリングとアルゴリズムの2つの文化について解説してありました。 統計学の世界で主流となっていたデータモデリングの文化は、データを生み出すモデルを仮定します。 データモデリングでは、モデルを評価しデータを説明することが目的となってきます。 一方、機械学習でやられているアルゴリズムによるモデリングは、モデルを仮定しません。 アルゴリズムは、将来のデータに対する予測精度を高めることが目的となってきて、どのようにデータが生まれるかの解釈は後付となります。 どちらもデータサイエンスをやる上で重要な分野となってくるので、目的に応じて使い分けができるようになることが大事になってきます。 今回、論文の内容を全部紹介しきれていなかったのですが、統計と機械学習の違いなどを考える上で役に立つ論文なのでぜひご自身でも読んでみてください。
  15. 最後にチャンネルの紹介をさせてください。 このチャンネルでは、経営やデータサイエンスや開発の話をしていきます。 聞きたい話のリクエストも募集中です。 もし、この動画が役に立ったら高評価とチャンネル登録をお願いいたします。