SlideShare a Scribd company logo
データモデリングとアルゴリズムで考える
統計と機械学習の違い
問題を解決するとはどういうことか
今回紹介する内容
● Statistical modeling: The two cultures
○ 著者: Leo Breiman
○ 投稿: Statistical Science 2001, Vol. 16, No. 3, 199-231
○ 引用: 3587件 (2021/04/15 地点)
● 論文の内容
○ データから結論を導き出す統計モデルには、データモデリングとアルゴリズムという2つの文
化がある
■ データモデリング: データが確率的データモデルにより生成されたとする
■ アルゴリズムモデリング (以降、アルゴリズム): データ生成のメカニズムは未知とする。
統計学以外の分野で発展。
○ データモデリングの世界とアルゴリズムの世界の両方を知る筆者が、問題を解決することに
集中して、それぞれの手法を選ぶべきと主張している。
● 問題を解決するとはどういうことかを考えるきっかけとなる論文
Leo Breiman (1928~2005)
● 「ランダムフォレストの父」
○ 2001年にDecision Treeを発展させて提案した
大学に勤める
コンサルティング(13年)
大学へ戻る(1980~)
● 多くのプロジェクトに携わる
○ 翌日のオゾン濃度の予測
○ 質量分析スペクトルを用いた化学構造の
決定
○ など...
● 既存の統計モデルがうまくいかない
○ データ量
○ 次元数
● 既存の統計モデリングに疑問を感じる
○ どの論文を読んでも、
「~のモデルを仮定する」
→ 仮定しない方がいいのでは?
● 実社会に適用していきたい
コンサルの経験が、アルゴリズム文化の考え方の元となった
問題を解決するための認識
● 良い解決策を見つけることに焦点をあてる
● モデリングを始める前にデータとしっかり向き合う
● 良い解決策を与えてくれるモデルを探す (アルゴリズム または データモデル)
● テストデータにおける予測精度は、作成したモデルの良さの基準である
● コンピューターは手放せないパートナーである
データとは
● 入力xにnatureファンクションで何らかの処理を加えてyを出力 → データ分析
● データ分析2種類のゴール
○ 予測
→ 将来の入力x に対し、その出力y を予測
○ 情報
→ 入力xと出力yをnatureファンクションがどのように関連付けているかの情報を抽出
2つの文化
● データモデリング文化
○ 確率的なモデルを仮定
○ データはモデルから発生
○ データからモデルのパラメータを推定
○ 例) y = f(x; α)
■ α: 推定したパラメータ
● アルゴリズム文化 (著者の立場)
○ モデルを仮定しない
○ 自然界は複雑でよくわからない
○ いい予測を返すアルゴリズムを探す
データモデリングの問題点
● データをモデルにフィットさせ、定量的な結論を出すことは、“モデル”のメカニズムの
結論を出しており、“nature”のメカニズムではない
○ モデルが適切でない場合、結論を間違えてしまう
● モデルを評価するための決定係数や残差分析は万能ではない
● 「ハンマーしか持っていないと全ての問題が釘に見えてしまう」
■ 限られた手段(モデルの仮定)しか持たないと、問題の本質を上手く捉えられない
■ データモデリングにこだわりすぎないようにする
アルゴリズム文化の誕生
● 1980年代半ばに使えるようになったモデル
○ ニューラルネット
■ 脳の神経回路を模した数理モデル
■ 特徴量の生成が不要
○ 決定木
■ ツリー構造を用いて段階的にデータを分割
■ 解釈性が高い
● 当初は複雑な問題に適用できなかった
○ 話者認識、画像認識、非線形時系列解析、...
● モデルの良し悪しは未知データに対する精度
予測を目的とするなら
● どのようにデータが生成されるかを考えなくても、予測精度を高
くなればよい → データモデルからアルゴリズムへ
● データの生成について解釈をしたい場合は、予測精度が高いモデ
ルを作ってから解釈をする (事前にモデルを仮定しない)
データ生成の仕組みは後から解釈
予測をうまくできるかを第一に考える
高い予測精度を目指すアルゴリズムの文化で得られた教訓
● 羅生門効果
● オッカムの剃刀
● 次元の呪い
羅生門効果
● 1つの現象を説明するモデルが複数存在
例) 線形回帰 (データモデリング) における変数選択
● 今、30個の変数から5つの変数を選びたい
● 組み合わせは約14万通り
● テストデータに対する誤差が1.0%以下
のモデルを選択
● Picture1~3のように3通りの組み合わせが
存在した時、どのモデルを採用すべき?
→ 重要な変数が異なり、違った結論を導く
→ バギング (アルゴリズム文化)
オッカムの剃刀
● ある事柄を説明するためには、必要以上に多くを仮定するべきで
ない
● 同程度の予測性能なら、モデルはシンプルな方がいい
● しかし精度を求めるとモデルは複雑になってしまう
○ シンプルさと予測性能はトレードオフ
● モデルの精度をあげてから解釈していけばいい
次元の呪い
● 変数が増えるとモデル作成が困難になる
● データモデリングにおけるプラクティス
○ 回帰などで高次元のデータを扱うことは危険
○ 重要な情報を持つ変数だけを残す
● アルゴリズム
○ 変数を減らすと情報も減る
○ 他の変数と組み合わせることにより有効になる変数もある
○ → 変数を減らすのではなく、多くの関数を使う
まとめ
● 今回紹介した論文: Statistical modeling: The two cultures
● データモデリング文化(=統計学)
○ 型にそって、あるモデルを仮定する
○ モデルを評価し、データを説明することが目的
● アルゴリズム文化(=機械学習)
○ モデルを仮定しない
○ 将来のデータに対する予測精度を高めることが目的
○ 解釈は後付け
● 目的に応じて使い分けられるようにすることが大事
チャンネル紹介
● チャンネル名: 【経営xデータサイエンスx開発】西岡 賢一郎のチャンネル
● URL: https://www.youtube.com/channel/UCpiskjqLv1AJg64jFCQIyBg
● チャンネルの内容
○ 経営・データサイエンス・開発に関する情報を発信しています。
○ 例: アジャイル開発、データパイプライン構築、AIで使われるアルゴリズム4種類など
● noteでも情報発信しています → https://note.com/kenichiro

More Related Content

What's hot

機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
hoxo_m
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
nishio
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
強化学習その2
強化学習その2強化学習その2
強化学習その2
nishio
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
Deep Learning JP
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門Kawamoto_Kazuhiko
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
Yuma Koizumi
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
西岡 賢一郎
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
Takuma Yagi
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
Satoshi Hara
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
Shunta Nomura
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
Takayuki Itoh
 
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
Toru Tamaki
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
佑 甲野
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
Motokawa Tetsuya
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
Taiji Suzuki
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
Kota Matsui
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
Haruka Ozaki
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
Shuyo Nakatani
 

What's hot (20)

機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門機械学習のためのベイズ最適化入門
機械学習のためのベイズ最適化入門
 
強化学習その1
強化学習その1強化学習その1
強化学習その1
 
深層強化学習と実装例
深層強化学習と実装例深層強化学習と実装例
深層強化学習と実装例
 
強化学習その2
強化学習その2強化学習その2
強化学習その2
 
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
[DL輪読会]近年のオフライン強化学習のまとめ —Offline Reinforcement Learning: Tutorial, Review, an...
 
グラフィカルモデル入門
グラフィカルモデル入門グラフィカルモデル入門
グラフィカルモデル入門
 
深層学習と音響信号処理
深層学習と音響信号処理深層学習と音響信号処理
深層学習と音響信号処理
 
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
ブラックボックスからXAI (説明可能なAI) へ - LIME (Local Interpretable Model-agnostic Explanat...
 
Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1Probabilistic Graphical Models 輪読会 #1
Probabilistic Graphical Models 輪読会 #1
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning論文紹介-Multi-Objective Deep Reinforcement Learning
論文紹介-Multi-Objective Deep Reinforcement Learning
 
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
SIX ABEJA 講演資料 もうブラックボックスとは呼ばせない~機械学習を支援する情報
 
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
文献紹介:Learning From Noisy Labels With Deep Neural Networks: A Survey
 
多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識多様な強化学習の概念と課題認識
多様な強化学習の概念と課題認識
 
Optimizer入門&最新動向
Optimizer入門&最新動向Optimizer入門&最新動向
Optimizer入門&最新動向
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
深層学習の数理
深層学習の数理深層学習の数理
深層学習の数理
 
Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2Recent Advances on Transfer Learning and Related Topics Ver.2
Recent Advances on Transfer Learning and Related Topics Ver.2
 
変分ベイズ法の説明
変分ベイズ法の説明変分ベイズ法の説明
変分ベイズ法の説明
 
CRF を使った Web 本文抽出
CRF を使った Web 本文抽出CRF を使った Web 本文抽出
CRF を使った Web 本文抽出
 

More from 西岡 賢一郎

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
西岡 賢一郎
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
西岡 賢一郎
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
西岡 賢一郎
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
西岡 賢一郎
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
西岡 賢一郎
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
西岡 賢一郎
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
西岡 賢一郎
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
西岡 賢一郎
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
西岡 賢一郎
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
西岡 賢一郎
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
西岡 賢一郎
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
西岡 賢一郎
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
西岡 賢一郎
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
西岡 賢一郎
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
西岡 賢一郎
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
西岡 賢一郎
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
西岡 賢一郎
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
西岡 賢一郎
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
西岡 賢一郎
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
西岡 賢一郎
 

More from 西岡 賢一郎 (20)

Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用するAmazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
Amazon SageMaker Foundation Modelsで事前学習済みモデルを利用する
 
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化するAmazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
Amazon SageMaker Ground Truthを使って手動のラベル付けを簡略化する
 
Amazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成するAmazon SageMakerのNotebookからJobを作成する
Amazon SageMakerのNotebookからJobを作成する
 
リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待リモートワークで知っておきたい コミュニケーション時の過大な期待
リモートワークで知っておきたい コミュニケーション時の過大な期待
 
リモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのことリモートワークで意識すべき7つのこと
リモートワークで意識すべき7つのこと
 
Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介Amazon SageMaker ML Governance 3つの機能紹介
Amazon SageMaker ML Governance 3つの機能紹介
 
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解するFeature StoreのOnline StoreとOffline Storeの違いについて理解する
Feature StoreのOnline StoreとOffline Storeの違いについて理解する
 
機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store機械学習の特徴量を管理するAmazon SageMaker Feature Store
機械学習の特徴量を管理するAmazon SageMaker Feature Store
 
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
機械学習用のデータを準備する Amazon SageMaker Data Wrangler - ノーコードで前処理から学習まで
 
Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習Amazon SageMakerでカスタムコンテナを使った学習
Amazon SageMakerでカスタムコンテナを使った学習
 
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
Amazon SageMakerでscikit-learnで作ったモデルのEndpoint作成
 
Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論Amazon AthenaでSageMakerを使った推論
Amazon AthenaでSageMakerを使った推論
 
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
Amazon Athenaで独自の関数を使う Amazon Athena UDF - AthenaでTweetの感情分析
 
未来のカタチ x AI
未来のカタチ x AI未来のカタチ x AI
未来のカタチ x AI
 
TorchDataチュートリアル解説
TorchDataチュートリアル解説TorchDataチュートリアル解説
TorchDataチュートリアル解説
 
Amazon SageMaker JumpStart
Amazon SageMaker JumpStartAmazon SageMaker JumpStart
Amazon SageMaker JumpStart
 
Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介Amazon SageMaker Studio Lab紹介
Amazon SageMaker Studio Lab紹介
 
Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習Amazon SageMaker Canvasを使ったノーコード機械学習
Amazon SageMaker Canvasを使ったノーコード機械学習
 
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきことPMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
PMFを目指すプロダクト開発組織が組織拡大するときににやるべきこと
 
H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門H2O Waveを使ったAIアプリケーション作成入門
H2O Waveを使ったAIアプリケーション作成入門
 

Recently uploaded

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
Yuuitirou528 default
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
Toru Tamaki
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
Fukuoka Institute of Technology
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
0207sukipio
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
CRI Japan, Inc.
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
chiefujita1
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
Matsushita Laboratory
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
harmonylab
 

Recently uploaded (14)

TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
TaketoFujikawa_物語のコンセプトに基づく情報アクセス手法の基礎検討_JSAI2024
 
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdfFIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
FIDO Alliance Osaka Seminar: NEC & Yubico Panel.pdf
 
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdfFIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
FIDO Alliance Osaka Seminar: PlayStation Passkey Deployment Case Study.pdf
 
CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料CS集会#13_なるほどわからん通信技術 発表資料
CS集会#13_なるほどわからん通信技術 発表資料
 
FIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdfFIDO Alliance Osaka Seminar: CloudGate.pdf
FIDO Alliance Osaka Seminar: CloudGate.pdf
 
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdfFIDO Alliance Osaka Seminar: Welcome Slides.pdf
FIDO Alliance Osaka Seminar: Welcome Slides.pdf
 
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
論文紹介:When Visual Prompt Tuning Meets Source-Free Domain Adaptive Semantic Seg...
 
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
単腕マニピュレータによる 複数物体の同時組み立ての 基礎的考察 / Basic Approach to Robotic Assembly of Multi...
 
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさJSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
JSAI_類似画像マッチングによる器への印象付与手法の妥当性検証_ver.3_高橋りさ
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.This is the company presentation material of RIZAP Technologies, Inc.
This is the company presentation material of RIZAP Technologies, Inc.
 
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
ReonHata_便利の副作用に気づかせるための発想支援手法の評価---行為の増減の提示による気づきへの影響---
 
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdfFIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
FIDO Alliance Osaka Seminar: LY-DOCOMO-KDDI-Mercari Panel.pdf
 
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
【DLゼミ】XFeat: Accelerated Features for Lightweight Image Matching
 

データモデリングとアルゴリズムで考える統計と機械学習の違い

Editor's Notes

  1. こんにちは、西岡です。 今回は、データモデリングとアルゴリズムで考える統計と機械学習の違いというテーマでお話ししたいと思います。 データサイエンスをやるためには、機械学習と統計両方の知識を持たないといけないという話をよく聞きます。 今回の動画では、統計の世界と機械学習の世界の違いを、データモデリングとアルゴリズムという切り口で論じている論文を紹介します。 このチャンネルでは、機械学習などの論文紹介を初めとして、開発や経営などに関連した情報も発信していきます。 興味のある方がいらっしゃいましたらぜひチャンネル登録お願いします。
  2. 今回紹介する論文は、統計モデル 2つのカルチャーという論文です。 この論文は、2001年にBreimanによって発表された論文です。 データから結論を導き出す統計モデルを、データモデリングとアルゴリズムという2つの文化に分けて論じています。 データモデリングはデータが確率的データモデルにより生成されるとし、統計学の中で長い間研究されていました。 一方アルゴリズムは、データ生成のメカニズムは未知としたまま問題解決するもので、統計学と別の分野で登場しました。 データモデリングの世界とアルゴリズムの世界を両方経験したBreimanが、データモデリングの世界の問題点を指摘しつつ、アルゴリズムの世界を紹介しています。 この論文は、アルゴリズムの世界が優れていることを主張する論文ではなく、問題を解決することにフォーカスして、適切な手法を選ぶべきという主張をしている論文となっています。 問題を解決するとはどういうことかを考えるきっかけにもなる論文だと思います。 それでは解説していきます。
  3. まず筆者であるBreimanを紹介します。 BreimanはRandom Forestの生みの親とも呼ばれ、機械学習の発展にも大きく貢献した研究者です。 Breimanは大学に務めた後、コンサルティング会社で働き、そこで統計モデルを使った様々なプロジェクトを経験しました。 しかし、統計モデリングを使っていく中で、統計モデリングだけでは問題解決がうまくいかないことに気づきました。 Breimanはコンサルティング会社を離れた後は、また大学へ戻り研究を始めました。 そして、どの論文でもモデルを仮定していることに疑問を持ち、モデルを仮定しない方がいいのではという考えはじめたんですね。 コンサルティングの経験と実社会に適応していきたいという思いがアルゴリズム文化の考え方の下のなったというわけです。 この論文はアルゴリズムが良い点が述べられていますが、Breiman自身はデータモデリングに否定的というわけではありません。 あくまでも問題を解決するという視点に立ったときに、データモデルを仮定しないほうがいいときもあるということを主張しています。
  4. Breimanがコンサルなどの経験を得て、問題解決のためのデータの扱い方について5つ認識をしていたようです。 1つ目は良い解決策を見つけることに焦点を当てること。 2つ目はモデリングを始めるためにデータとしっかり向き合うこと。 3つ目は良い解決策を与えてくれるモデルを探すこと。このモデルはアルゴリズムとデータモデリングの両方を指します。 4つ目はテストデータにおける予測精度が、モデルの良さの基準であるということ。ここらへんは今の機械学習の世界ではあたりまえになっていますね。 そして、最後5つ目がコンピューターは手放せないパートナーであるということです。大量演算を必要としていることを指しているんだと思います。
  5. そもそもデータとは何かということについて、この論文ではデータがこのようなグラフで生成されるとしています。 データxが何らかの処理であるnatureファンクションによって形を変えyとして出力されるということです。 機械学習をやっている人にとっては想像がつきやすい図かもしれません。 よくわからないという人は、データがnatureファンクションというものによって生成されているぐらいの認識でいて大丈夫です。 Breimanは、このように生成されるデータの分析のゴールを2種類に分けています。 データ分析のゴールの1つ目は予測で、新しく入ってきたxに対してyがどのようになるかを予測します。 もう一つのデータ分析のゴールは、入力xと出力yを紐付けるnatureファンクションがどのように動作しているかを調べます。 このデータ分析に対して、Breimanはデータモデリングの文化とアルゴリズムの文化という2種類の文化があるとことをBreimanは主張しています。
  6. では、今回の論文のメインの話である、データモデリングとアルゴリズムについてそれぞれについて簡単に説明します。 まず、データモデリングでは、Xをyに変換するNatureファンクションが何かしらの確率的なモデルとなっています。 このモデルを実際のパラメータから推定することにより、どのようにyが発生するかを解き明かしていきます。 一方、アルゴリズムでは、間にあるNatureファンクションは複雑なものとして、モデルを仮定することをしません。 アルゴリズムでは、とにかく良い予測結果を出せるようなアルゴリズムを探していくこととなります。 つまり、間にある関数を解き明かすことを目的とするか、間にある関数が複雑であるとして解き明かそうとせず予測結果だけをよくしていくかという方向性の違いがあるということです。
  7. では、データモデリングは何が問題かということについて少し紹介します。 Breimanはデータをモデルにフィットさせて定量的な結論を出すことは、モデルのメカニズムの結論を出しているだけで、Natureそのもののメカニズムではないと主張しています。 分析自体がモデルの良さを評価しているにすぎないので、実際のNatureを表しているわけではないということですね。 そのため、モデル自体が適切でなければ結論を間違えてしまうということです。 また、Breimanはモデルを評価するための決定係数や残差分析が万能ではないということも述べています。 実際の世界のデータでは、変数の欠如や非線形の変数や大量の変数などがあり、それらによって決定係数や残差分析が使えなくなってしまうということです。 ハンマーしか持っていないと全ての問題が釘に見えてしまうということわざがあるのですが、データモデリングだけで問題を解決するということはデータモデリングだというハンマーをもっているのと同じということですね。 データモデリングにこだわりすぎず、別のアプローチも考えてみようというのがBreimanの主張です。
  8. データモデリングが統計学者の中で主流となっている中、コンピューターサイエンスと物理学とエンジニアリングと統計学者による新しい研究コミュニティーから登場しました。 そこで誕生したものがアルゴリズムによるモデリングです。 1980年代なかばにニューラルネットワークや決定木が使われるようになったわけですが、その当時は複雑な問題には適用できなかったようです。 このアルゴリズムの世界ではモデルの善し悪しを決めるのは、未知のデータに対する予測精度でした。
  9. もし予測を目的とするのであれば、データがどのように生成されるかは主目的ではなく予測精度が主目的となります。 この予測をよくするという目的を達成するために出てきているのが、アルゴリズムの世界なんですね。 先程も紹介したようにアルゴリズムでは、Natureファンクションが複雑であるとして、特定のモデルを仮定しない代わりに、予測される出力yの予測精度の最大化を目指します。 もし、natureファンクションがどんな動きをしているかなど解釈をしたい場合は、まずは高い予測精度を持つモデルをアルゴリズムで構築して、そのあと解釈するというアプローチをBreimanは紹介しています。 目的を達成するためであれば手段は最初は気にしない、目的達成ができてから手段について考えようというようなアプローチとも言えると思います。 このように、目的が予測の精度となってきたことにより、アルゴリズムによるモデル作成が飛躍的な進化を遂げてきたというわけです。
  10. 高い精度を得るために研究が盛んになったアルゴリズムの世界で得られた重要な教訓3つをBreimanはこの論文で紹介しています。 それぞれについて、データモデルの世界と絡めて簡単に説明します。
  11. まずはじめに羅生門効果についてです。 羅生門効果とは1つの現象を説明するモデルが複数存在することを意味します。 羅生門効果がデータモデリングでどのようになるかを線形回帰を例にしてみます。 解きたい変数が30個会ったと仮定します。 このとき、データモデリングでは重要な変数を数個選ぶので、今回は5つの変数を選ぶとします。 変数の組み合わせは14万通りあるのですが、テストデータに対する誤差が1%以下であるモデルという制約をくわえたときに、モデルが3つ出てきました。 それぞれのモデルで使っている変数も変数の重みも違います。 これではどのモデルがよいかがわからないと思います。 それぞれのモデルがそれぞれ違った結論を導くというわけですね。 これがデータモデリングにおける難しさの一つとなります。 一方、アルゴリズムでは、複数のモデルを組み合わせて予測を実施することで、高い予測精度を実現できたという研究があります。 つまり、単一のモデルで解釈することを諦めることで、予測精度の向上ができたということですね。
  12. アルゴリズムの研究で得られた教訓2つめは、オッカムの剃刀についてです。 オッカムの剃刀は、ある事柄を説明するためには、必要以上に多くを仮定するべきではないということを意味しています。 つまり、同じような予測性能であれば、モデルはシンプルな方がいいということです。 しかし、モデルのシンプルさを求めることとと予測性能はトレードオフとなります。 モデルをシンプルにすればするほど予測性能が悪くなり、モデルを複雑にすればするほど予測性能が良くなっていきます。 Breimanはこの現象については、モデルの精度を上げた後にモデルの解釈をすればよいと述べています。
  13. アルゴリズムの研究で得られた教訓3つめは、次元の呪いについてです。 次元の呪いとは、変数が増えれば増えるほど、モデルの作成が困難になるというものです。 そのため、データモデリングの世界では、高次元のデータを扱うことは危険だとされ、重要な情報を持つ変数だけ残すというプラクティスがありました。 一方、アルゴリズムの世界では、変数を減らすと情報が減ると考えます。また、組み合わせることによって有効になる変数もあるとしてできる限り変数を残すようにします。 アルゴリズムでは、変数を減らさない代わりに多くの関数を用意することでフィッティングを行うようにしています。
  14. 最後にまとめです。 今回は、統計モデリングにおける2文化という論文について紹介しました。 この論文では、統計モデリングとアルゴリズムの2つの文化について解説してありました。 統計学の世界で主流となっていたデータモデリングの文化は、データを生み出すモデルを仮定します。 データモデリングでは、モデルを評価しデータを説明することが目的となってきます。 一方、機械学習でやられているアルゴリズムによるモデリングは、モデルを仮定しません。 アルゴリズムは、将来のデータに対する予測精度を高めることが目的となってきて、どのようにデータが生まれるかの解釈は後付となります。 どちらもデータサイエンスをやる上で重要な分野となってくるので、目的に応じて使い分けができるようになることが大事になってきます。 今回、論文の内容を全部紹介しきれていなかったのですが、統計と機械学習の違いなどを考える上で役に立つ論文なのでぜひご自身でも読んでみてください。
  15. 最後にチャンネルの紹介をさせてください。 このチャンネルでは、経営やデータサイエンスや開発の話をしていきます。 聞きたい話のリクエストも募集中です。 もし、この動画が役に立ったら高評価とチャンネル登録をお願いいたします。