SlideShare a Scribd company logo
あなたの仕事に 
機械学習を活かす 
5つのポイント 
株式会社Preferred Infrastructure 
⽐比⼾戸 将平
この話の対象者 
! 機械学習を使う「信念念」を持っている⼈人 
! 信念念:機械学習を使うことが絶対にプラスになる 
! 前半の「仕事」:⾃自社サービス改善 
! Gunosyさん「数値は神より正しい」 
! サービスに関する全権限があれば徹底できる 
! 後半の「業務」:もう少し広く機械学習が使える仕事 
! ⼈人⼿手で経験と勘によってやってきた業務の置き換え 
! データ分析業務の⼀一環としてお客様に価値提供 
! 機械学習をキーにした新しいアプリ・ビジネス
機械学習と私 
! ヒド ショウヘイ 
! Twitter: @sla 
! 機械学習との関わり 
! ⼤大学 
! 勉強する 
! IBM基礎研 
! ⼿手法を考える 
! ⼿手法つかう 
! PFI 
! Jubatus担当 
! ソフトウェアつくる 
3
機械学習とあなた 
考える 
つくる 
つかう
(参考)前回のMLCTテーマ:テスト 
 
 
 
他にもまだ 
間違ってました!
機械学習の道はまだまだ険しい
真理理:機械学習は苦しい
そう、「機械学習は苦しい」!!!! 
! 機械学習を使えば楽して問題が解決する? 
! 機械学習を使えば楽してお⾦金金が儲かる? 
! 機械学習を使えば誰でも有⽤用な知⾒見見が得られる? 
! 機械学習を使えば誰でも素晴らしいサービスを作れる? 
! 機械学習を覚えればワンランク上の技術者になれる? 
! 機械学習を覚えれば社内でも⼀一⽬目置かれる⼈人になれる? 
! 機械学習を覚えればきっと新しい⾃自分になれる? 
! 機械学習を覚えれば明⽇日から⾃自分もモテモテになる?
機械学習は普通のデータ活⽤用よりもハードルが⾼高い 
意思決定者と作業者が分かれている場合に課題に 
9 
! 効果をほとんど予⾒見見できない 
! 通常のデータ集計・可視化・分析⽀支援・ルール処理理とは異異なる 
! FAQ:どれくらいデータがあればどれくらい精度度でますか? 
! 投資対効果が⾒見見えない 
! 2⼈人⽉月でどれくらい成果がでるのか?→わかりません 
! 4⼈人⽉月に増やしたらどれくらい変わるのか?→わかりません 
! ROIの曲線が不不明確で、実際に極めていびつ 
! 結果の解釈性・納得性が低い 
! ⼀一般に予測結果の解釈や理理由説明が難しい 
! 検証において精度度が出ても本番で 
有効な保証は無い 
! 投資側からすると成功しても失敗しても 
その理理由がわからない肚に落落ちない
機械学習に新たに挑む⼈人(特に専⾨門じゃない⼈人) 
=信念念を持った偉⼤大なるマゾ勇者 
! 機械学習はじめてみよう! 
! たまねぎ勇者「機械学習勉強したいんだけど?」 
! 機械学習専⾨門家「そりゃーPRML⼀一択でしょー」 
! 機械学習つかってみよう 
! たまねぎ勇者「機械学習つかってみたいんだけど?」 
! T◯kyo.Rの⼈人「そりゃーR⼀一択でしょー」 
! 機械学習を業務に使ってみよう! 
! たまねぎ勇者「機械学習やりませんか!?!?」 
! 上司/経営陣「なにそれ美味しいの?」 
10
5つのポイント 
! 関係者を利利害に巻き込む 
! 「データが全て」を徹底する 
! 検証可能なKPIを共有する 
! Minimum Viable Experimentを実施する 
! 検証パターンを限界まで増やす
(3) 検証可能なKPIを共有する 
! KPI : Key Performance Indicator 
! ビジネスの状態の善し悪しを図る指標 
! ここでは機械学習の効果を⽰示す単⼀一の値 
! (事前に)共有する 
! ビジネス課題から定量量化できる基準を導出する 
! 通常は関係者毎にバラつく(例例:品質保証⽬目標) 
! 全員が「これが良良くなれば⽂文句句ない」を⽬目指す 
! (報告書で)共有する 
! ⽬目的にKPIの意味と改善⽬目標を書く 
! 実験設定にKPIの算出⽅方法を書く 
! 実験結果にKPIの具体的な値を書く 
! まとめに達成したKPIの改善効果と投資対効果を書く 
12
(3) 検証可能なKPIを共有する 
例例1:Webサービスの場合 
! サイト性能 
! クリックスルー率率率 
! コンバージョン率率率 
! ユーザー視点 
! 新規ユーザー数 
! アクティブユーザー数 
13
(3) 検証可能なKPIを共有する 
例例2:製品の異異常検知の場合 
! 誤検知率率率→「⾒見見逃しはどうなった?」 
! ⾒見見逃し率率率→「誤検知はどうなった?」 
! F-measure/G-mean→「よく分からない」 
! AUC(Area Under ROC Curve)→「全く分からない」 
! 総誤検知コストと総⾒見見逃しコストの和→「現実的じゃない」 
! 誤検知率率率c%を固定した時の⾒見見逃し率率率→「なるほど…?」 
! cは0.01?0.1?1.0?10?→ 納得するまで相談しましょう 
14 
誤検知率率率 
⾒見見逃し率率率 
c1c2
(3) 検証可能なKPIを共有する 
5つのポイントでもここが⼀一番⼤大事な所 
! (参考)アルゴリズムの優劣劣⽐比較の指標の場合 
! 異異なる問題(データセット)で共通→抽象的 
! Accuracy、P/R評価、ROC曲線、AUC… 
! ⽬目の前のビジネス課題におけるパフォーマンスの場合 
! 関係者全員の評価の共通認識識→具体的 
! この値で投資対効果が評価されると肝に銘じる 
! 絶対に曖昧にしない、妥協しない 
! 「とりあえずやってみて…」 
! 何で評価すべきか決めてからにしましょう 
! 「とりあえず精度度が上がればいいですよね」 
! 精度度ってなんですか? 
! Accuracy? Precision? Recall? 
15
5つのポイント 
! 関係者を利利害に巻き込む 
! 「データが全て」を徹底する 
! 検証可能なKPIを共有する 
! Minimum Viable Experimentを実施する 
! 検証パターンを限界まで増やす
(1) 関係者を利利害に巻き込む 
「…みんなでしあわせになろうよ…?」 
! 典型的な関係者 
! 経営陣 
! ⾃自分の上司 
! 現場の責任者 
! データを管理理している⼈人 
! いま該当する業務をやってる⼈人 
! 利利益を得る部署の⼈人 
! 利利害 
! 「機械学習がうまくいったらみんなハッピー!」 
! それぞれの⼈人に向かってストーリーを作って説得する 
! ここをサボるとその後の努⼒力力が無駄になる 
! 利利害調整の仮定で共有すべきKPIも⾒見見えてくるはず 
17
(1) 関係者を利利害に巻き込む 
典型的な失敗例例 
! 始める前 
! 思い⽴立立って機械学習の導⼊入を訴える上司と経営陣からゴーサイン 
! 現場の責任者「それはいいね、コストゼロ、リスクゼロで試して 
くれるならどうぞ」 
! データ管理理者/業務担当者「⼿手伝わないけど邪魔しないなら勝⼿手 
にどうぞ」 
! 結果 
! 上司/経営陣「それで結局これでいくら儲かるんだ?」 
! 現場の責任者「あー、そうやったんだ、そうか……残念念、これじ 
ゃ使えないね、またそのうち頑張ってよ」 
! データ管理理者/業務担当者「まぁ難しいよねw(仕事取られたく 
ない)」「まぁ難しいよねw(仕事増やされたくない)」 
18
(1) 関係者を利利害に巻き込む 
「上⼿手くいったら認めてくれるだろう」は誤解 
! ⼈人間的な⾯面倒くささを避けない 
! ⼀一般の仕事では投資対効果の評価をするのは⼈人間 
! 他⼈人にデメリットが無いなら表⾯面上はうまくいく 
! 「ただでやってくれるならいいよ」 
! 「⾯面倒くさいから⼿手伝えないけど好きに使ってよ」 
! 投資しない⼈人が必要なものは誰も(本⼈人にも)分からない!! 
! 誰しも無料料ならとりあえず何でも欲しがる 
! 例例:街頭で受け取ったティッシュ⼊入りビラを5秒⾒見見つめて捨てる 
! もらってからその価値を考える 
! いらなかったら遠慮無く捨てる 
! ⾃自分以外誰も責任を取らなくてもいい体制が問題 
! うまくいったら利利益を得る⼈人には責任も発⽣生させるべき 
! うまくいくってなんだ?→(3)のKPIの話 
19
5つのポイント 
! 関係者を利利害に巻き込む 
! 「データが全て」を徹底する 
! 検証可能なKPIを共有する 
! Minimum Viable Experimentを実施する 
! 検証パターンを限界まで増やす
(2) 「データが全て」を徹底する 
今度度は逆に期待値をコントロールする 
! 「機械学習を使えば何でも予測・検出できる!?」→NO! 
! 機械学習は魔法ではない 
! 何でも解決できるわけではない 
! 例例1:「株価変動を予想して儲けられる!?」→NO! 
! データ以外の外部要因の影響が過⼤大 
! 例例:政策・法規制の変更更、戦争勃発、投機マネーの流流動、etc 
! 統計的予測による株式売買の実情 
! 平時はそれなりにプラス+激変時に⼤大きなマイナス 
! =トータル平均はプラスマイナスゼロ 
! 例例2:「⾃自動⾞車車のどんな故障も事前に検知できる!?」→NO! 
! センサが捕まえられない種類の予兆は発⾒見見できない 
! 消耗的故障(ネジ劣劣化によるホイール脱離離)と突発的故障(オイ 
ル漏漏れ) 
21
(2) 「データが全て」を徹底する 
機械学習とはデータを使い切切る技術のこと 
! 機械学習がもたらす価値<=データに潜む価値 
! 使うデータに無い情報・知⾒見見は⾒見見つからない 
! どんなに学習を頑張っても無理理なものは無理理 
! 機械学習の意義/得意な点 
! データを様々な切切り⼝口で調べていく 
! ⼈人⼿手の分析が及ばない視点をカバーする 
! ⼤大規模・⾼高次元データで特に有効になる 
! 利利害関係者に訴えること 
! まだ最⼤大限利利⽤用できてないデータが眠ってないか? 
! 本当はデータを⽣生かせそうな仮説はあるか? 
! 実現できていないのは⼿手法やコストの問題か? 
! 機械学習アプローチで解決できそうにないか? 
22
5つのポイント 
! 関係者を利利害に巻き込む 
! 「データが全て」を徹底する 
! 検証可能なKPIを共有する 
! Minimum Viable Experimentを実施する 
! 検証パターンを限界まで増やす
(4) Minimum Viable Experimentを実施する 
 
! (参考)Minimum Viable Product (MVP) 
! リーンスタートアップ:スタートアップでの開発理理論論で登場 
! 検証に必要な最⼩小限の機能を持った製品 
! Minimum Viable Experiment (MVE, 造語) 
! 検証に必要な最⼩小限のリソースを⽤用いた評価実験 
! 前提:検証に⽤用いるKPIはすでに決定している 
! リソース 
! 教師データ 
! テストデータ 
! アルゴリズム(実装) 
! 計算環境・開発・実験コスト 
! フィージビリティスタディ/パイロット/PoCと呼ぶ場合が多い 
24
(4) Minimum Viable Experimentを実施する 
最⼩小限のリソースで検証:計画性が⼤大事 
! データ 
! データ収集 
! 教師データ作り 
! クリーニング 
! 前処理理 
! アルゴリズム 
! ルール/⼈人⼒力力をベースラインに 
! 実装探す・使えるようにする 
! パラメータチューニング 
! その他作業コスト 
! 環境を⽤用意・使えるようにする 
! データを⼊入⼒力力して実験を回す 
! 結果を考察して報告書を作る25 
前処理理済データ 
アルゴリズム 
/パラメータ 
KPI評価 
結果
Minimum Viable Experimentで⽬目指すとこ 
26 
時間 
リターン 
次やってもいいよライン
(4) Minimum Viable Experimentを実施する 
失敗すれば次の本番プロジェクトは無いと思え 
! 失敗=今後の投資対効果が⾒見見えない 
! リソースと期間は有限 
! まずはOne-pass通すこと 
! ベストのリソース配分を計画 
! 個⼈人的な欲望は抑えこむ 
! やりたいことは本番まで待つ 
! やってはいけない 
! 「これを期にRよりNumPyでも覚え…」 
! 「実データは後回しにしてアルゴr…」 
! 経験的なアドバイス 
! データの前処理理までに予想の3倍かかる 
! アルゴリズム頑張る前に前処理理 
! チューニング頑張る前に前処理理 
27 
前処理理済データ 
アルゴリズム 
/パラメータ 
KPI評価 
結果
5つのポイント 
! 関係者を利利害に巻き込む 
! 「データが全て」を徹底する 
! 検証可能なKPIを共有する 
! Minimum Viable Experimentを実施する 
! 検証パターンを限界まで増やす
(5) 検証パターンを限界まで増やす 
おめでとうございます、ついに本番です 
! 「ついに好きな事ができる…!!」 
! 新しい統計処理理環境・⾔言語に⼿手を出してみたり 
! 論論⽂文読んで新しいアルゴリズム実装したり 
! いっそクラウドに分散実験環境作ってみたり 
! 実験を⾃自動化するスクリプトを整備したり 
! ちょっと待とう!! 
! MVEだけではまだビジネス上は役に⽴立立っていない 
! 成果を出すまでが機械学習を使ったお仕事です 
! MVEの結果を最⼤大限レバレッジするのが使命 
! 「策⼠士策に溺溺れる」にならないように 
! 成果が⼀一番 
! コストが⼆二番 
! 個⼈人の欲望はこっそりね…?29
(5) 検証パターンを限界まで増やす 
計画性や好みよりも網羅羅性を 
! MVEの遺産 
! 実験をOne-pass流流す仕組み 
! データやアルゴリズムは置き換え可能 
! チューニングも可能な限り省省⼒力力化へ 
! 参考: https://github.com/pfi/maf 
! ひたすらパターンを増やす 
! データを増やす 
! 前処理理バリエーションを増やす 
! アルゴリズムを増やす 
! チューニングの網羅羅性を⾼高める 
! これらのかけ算で結果が増える 
! 注:KPIは動かさない 
30 
前処理理済データ 
アルゴリズム 
/パラメータ 
KPI評価 
結果
(5) 検証パターンを限界まで増やす 
思い込みや先⼊入観を捨てる 
! 与えられたデータをしっかり使い切切る 
! 古いデータより新しいデータ 
! 変数を限定したデータより全変数 
! サンプリングしたデータより全データ 
! 注:後⼯工程で削るのはアリ 
! アルゴリズムを選り好みしない 
! まずC4.5、ロジスティック回帰、ナイーブベイズ 
! SVM、Boosting、Random Forest 
! 「けどDeep Learningやりたいんです!」→最後にしよう 
! チューニング 
! 各パラメータ最低限3段階で試験 
! 変数のスケールとの相性に注意 
31
“Machine learning that matters” 
Kiri L. Wagstaff, ICML, 2012. 
! 機械学習研究におけるベンチマーク性能向上への偏向、 
評価関数の有⽤用性、実応⽤用との乖離離を批判し実⽤用指向を推奨 
! もっと応⽤用を指向した機械学習研究と開発が今後加速する 
! 異異常検知は特にドメイン知識識が重要で専⾨門家の強⼒力力が不不可⽋欠 
32
まとめ
34 
数値は 
神より 
正しい
機械学習は苦しい
Fin. 
36

More Related Content

What's hot

DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
弘毅 露崎
 

What's hot (20)

AWSではじめるMLOps
AWSではじめるMLOpsAWSではじめるMLOps
AWSではじめるMLOps
 
機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明機械学習モデルの判断根拠の説明
機械学習モデルの判断根拠の説明
 
AIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前にAIと最適化の違いをうっかり聞いてしまう前に
AIと最適化の違いをうっかり聞いてしまう前に
 
機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト機械学習システムのアーキテクチャアラカルト
機械学習システムのアーキテクチャアラカルト
 
型安全性入門
型安全性入門型安全性入門
型安全性入門
 
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
心理的安全性と、Veinの紹介 Psychological safety and introduction of Vein
 
Pythonによる黒魔術入門
Pythonによる黒魔術入門Pythonによる黒魔術入門
Pythonによる黒魔術入門
 
学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」学習時に使ってはいないデータの混入「リーケージを避ける」
学習時に使ってはいないデータの混入「リーケージを避ける」
 
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
マルコフ連鎖モンテカルロ法 (2/3はベイズ推定の話)
 
統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-統計的因果推論への招待 -因果構造探索を中心に-
統計的因果推論への招待 -因果構造探索を中心に-
 
優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案優れた研究論文の書き方―7つの提案
優れた研究論文の書き方―7つの提案
 
ベータ分布の謎に迫る
ベータ分布の謎に迫るベータ分布の謎に迫る
ベータ分布の謎に迫る
 
機械学習で嘘をつく話
機械学習で嘘をつく話機械学習で嘘をつく話
機械学習で嘘をつく話
 
機械学習を用いた異常検知入門
機械学習を用いた異常検知入門機械学習を用いた異常検知入門
機械学習を用いた異常検知入門
 
トップエンジニアが実践する思考整理法~テクニカルライティングを用いた課題解決の基本
トップエンジニアが実践する思考整理法~テクニカルライティングを用いた課題解決の基本トップエンジニアが実践する思考整理法~テクニカルライティングを用いた課題解決の基本
トップエンジニアが実践する思考整理法~テクニカルライティングを用いた課題解決の基本
 
DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正DNAマイクロアレイの解析と多重検定補正
DNAマイクロアレイの解析と多重検定補正
 
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
PyTorchLightning ベース Hydra+MLFlow+Optuna による機械学習開発環境の構築
 
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision TreeNIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
NIPS2017読み会 LightGBM: A Highly Efficient Gradient Boosting Decision Tree
 
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
2021 09 豆寄席:(公開用)長く生き残るitエンジニアの”リベラル・アーツ”
 
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
協力ゲーム理論でXAI (説明可能なAI) を目指すSHAP (Shapley Additive exPlanation)
 

Viewers also liked

20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
Yohei Sato
 
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
Takayuki Sekine
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
Koji Matsuda
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキル
musako-oncology
 

Viewers also liked (20)

20131206 japan r
20131206 japan r20131206 japan r
20131206 japan r
 
Generative adversarial networks
Generative adversarial networksGenerative adversarial networks
Generative adversarial networks
 
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
第35回 強化学習勉強会・論文紹介 [Lantao Yu : 2016]
 
[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation[DL輪読会]Adversarial Feature Matching for Text Generation
[DL輪読会]Adversarial Feature Matching for Text Generation
 
オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析オープンソースを利用した新時代を生き抜くためのデータ解析
オープンソースを利用した新時代を生き抜くためのデータ解析
 
Approximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLPApproximate Scalable Bounded Space Sketch for Large Data NLP
Approximate Scalable Bounded Space Sketch for Large Data NLP
 
Argmax Operations in NLP
Argmax Operations in NLPArgmax Operations in NLP
Argmax Operations in NLP
 
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...最先端NLP勉強会“Learning Language Games through Interaction”Sida I. Wang, Percy L...
最先端NLP勉強会 “Learning Language Games through Interaction” Sida I. Wang, Percy L...
 
「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報「人工知能」の表紙に関するTweetの分析・続報
「人工知能」の表紙に関するTweetの分析・続報
 
Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年Twitter炎上分析事例 2014年
Twitter炎上分析事例 2014年
 
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by  ホットリンク 公開用
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
 
オンコロジストなるためのスキル
オンコロジストなるためのスキルオンコロジストなるためのスキル
オンコロジストなるためのスキル
 
Uncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game TheoryUncertainty Awareness in Integrating Machine Learning and Game Theory
Uncertainty Awareness in Integrating Machine Learning and Game Theory
 
新たなRNNと自然言語処理
新たなRNNと自然言語処理新たなRNNと自然言語処理
新たなRNNと自然言語処理
 
ディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみたディープラーニングでラーメン二郎(全店舗)を識別してみた
ディープラーニングでラーメン二郎(全店舗)を識別してみた
 
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
[DL輪読会]Wasserstein GAN/Towards Principled Methods for Training Generative Adv...
 
Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向Deep LearningフレームワークChainerと最近の技術動向
Deep LearningフレームワークChainerと最近の技術動向
 
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
Deep Convolutional Generative Adversarial Networks - Nextremer勉強会資料
 
現在のDNNにおける未解決問題
現在のDNNにおける未解決問題現在のDNNにおける未解決問題
現在のDNNにおける未解決問題
 
論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models論文紹介 Semi-supervised Learning with Deep Generative Models
論文紹介 Semi-supervised Learning with Deep Generative Models
 

Similar to あなたの業務に機械学習を活用する5つのポイント

【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
schoowebcampus
 
あなたは騙されている。Eラーニングシステムの本当の使い方 v1
あなたは騙されている。Eラーニングシステムの本当の使い方 v1あなたは騙されている。Eラーニングシステムの本当の使い方 v1
あなたは騙されている。Eラーニングシステムの本当の使い方 v1
Yuzawa Kuzuhiko
 
ありえるえりあ勉強会@五反田~テスト編~ Part2
ありえるえりあ勉強会@五反田~テスト編~ Part2ありえるえりあ勉強会@五反田~テスト編~ Part2
ありえるえりあ勉強会@五反田~テスト編~ Part2
Tomoyuki Sato
 

Similar to あなたの業務に機械学習を活用する5つのポイント (20)

アジャイルマネジメントとは?
アジャイルマネジメントとは?アジャイルマネジメントとは?
アジャイルマネジメントとは?
 
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
20180920_【ヒカ☆ラボ】【データサイエンティストが教える 】 機械学習、人工知能を使った「ビジネスになる」アプリケーションの作り方
 
Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意
Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意
Saga Smart Center - Excelで完結!マイクロソフト流データサイエンスの極意
 
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese TranslationEric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
Eric Ries at Startup Lessons Learned sllconf 2011 - Japanese Translation
 
データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理データマイニングCROSS 第2部-機械学習・大規模分散処理
データマイニングCROSS 第2部-機械学習・大規模分散処理
 
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
【Schoo web campus】データ分析、その前にやっておくべきこと 先生 田畑直
 
ALDAGRAM
ALDAGRAMALDAGRAM
ALDAGRAM
 
あなたは騙されている。Eラーニングシステムの本当の使い方 v1
あなたは騙されている。Eラーニングシステムの本当の使い方 v1あなたは騙されている。Eラーニングシステムの本当の使い方 v1
あなたは騙されている。Eラーニングシステムの本当の使い方 v1
 
Eric riesstartuplessonslearned2011 ja20110605
Eric riesstartuplessonslearned2011 ja20110605Eric riesstartuplessonslearned2011 ja20110605
Eric riesstartuplessonslearned2011 ja20110605
 
ありえるえりあ勉強会@五反田~テスト編~ Part2
ありえるえりあ勉強会@五反田~テスト編~ Part2ありえるえりあ勉強会@五反田~テスト編~ Part2
ありえるえりあ勉強会@五反田~テスト編~ Part2
 
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
『手を動かしながら学ぶ ビジネスに活かすデータマイニング』で目指したもの・学んでもらいたいもの
 
AI人材採用に向けたテストサービス"prAIse"
AI人材採用に向けたテストサービス"prAIse"AI人材採用に向けたテストサービス"prAIse"
AI人材採用に向けたテストサービス"prAIse"
 
Introduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement DevelopmentIntroduction of KOTATSU-MODEL in Requirement Development
Introduction of KOTATSU-MODEL in Requirement Development
 
Dev love関西「エンジニア×営業」営業マン8年目の本音
Dev love関西「エンジニア×営業」営業マン8年目の本音Dev love関西「エンジニア×営業」営業マン8年目の本音
Dev love関西「エンジニア×営業」営業マン8年目の本音
 
私とインクス
私とインクス私とインクス
私とインクス
 
エンジニアを見極める4つの要素と方程式
エンジニアを見極める4つの要素と方程式エンジニアを見極める4つの要素と方程式
エンジニアを見極める4つの要素と方程式
 
関西バランス・スコアカード研究会 資料
関西バランス・スコアカード研究会 資料関西バランス・スコアカード研究会 資料
関西バランス・スコアカード研究会 資料
 
IT革命からコミュニティ、コミュニケーション革命に!
IT革命からコミュニティ、コミュニケーション革命に!IT革命からコミュニティ、コミュニケーション革命に!
IT革命からコミュニティ、コミュニケーション革命に!
 
100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」100614 構造方程式モデリング基本の「き」
100614 構造方程式モデリング基本の「き」
 
Padocview anonimous2
Padocview anonimous2Padocview anonimous2
Padocview anonimous2
 

More from Shohei Hido

More from Shohei Hido (20)

CuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPUCuPy: A NumPy-compatible Library for GPU
CuPy: A NumPy-compatible Library for GPU
 
Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門Deep Learning Lab 異常検知入門
Deep Learning Lab 異常検知入門
 
NIPS2017概要
NIPS2017概要NIPS2017概要
NIPS2017概要
 
ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術ディープラーニングの産業応用とそれを支える技術
ディープラーニングの産業応用とそれを支える技術
 
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
機械学習モデルフォーマットの話:さようならPMML、こんにちはPFA
 
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 TokyoSoftware for Edge Heavy Computing @ INTEROP 2016 Tokyo
Software for Edge Heavy Computing @ INTEROP 2016 Tokyo
 
Chainer GTC 2016
Chainer GTC 2016Chainer GTC 2016
Chainer GTC 2016
 
How AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industriesHow AI revolutionizes robotics and automotive industries
How AI revolutionizes robotics and automotive industries
 
NIPS2015概要資料
NIPS2015概要資料NIPS2015概要資料
NIPS2015概要資料
 
プロダクトマネージャのお仕事
プロダクトマネージャのお仕事プロダクトマネージャのお仕事
プロダクトマネージャのお仕事
 
PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料PFIセミナー "「失敗の本質」を読む"発表資料
PFIセミナー "「失敗の本質」を読む"発表資料
 
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
NIPS2013読み会: More Effective Distributed ML via a Stale Synchronous Parallel P...
 
機械学習CROSS 後半資料
機械学習CROSS 後半資料機械学習CROSS 後半資料
機械学習CROSS 後半資料
 
機械学習CROSS 前半資料
機械学習CROSS 前半資料機械学習CROSS 前半資料
機械学習CROSS 前半資料
 
Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門Jubatus Casual Talks #2 異常検知入門
Jubatus Casual Talks #2 異常検知入門
 
Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤Jubatusが目指すインテリジェンス基盤
Jubatusが目指すインテリジェンス基盤
 
今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました今年のKDDベストペーパーを実装・公開しました
今年のKDDベストペーパーを実装・公開しました
 
さらば!データサイエンティスト
さらば!データサイエンティストさらば!データサイエンティスト
さらば!データサイエンティスト
 
ICML2013読み会 開会宣言
ICML2013読み会 開会宣言ICML2013読み会 開会宣言
ICML2013読み会 開会宣言
 
ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?ビッグデータはどこまで効率化できるか?
ビッグデータはどこまで効率化できるか?
 

Recently uploaded

2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
ssuserbefd24
 

Recently uploaded (10)

論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
論文紹介: Offline Q-Learning on diverse Multi-Task data both scales and generalizes
 
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
2024年度_サイバーエージェント_新卒研修「データベースの歴史」.pptx
 
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
YugabyteDB適用に向けた取り組みと隠れた魅力 (DSS Asia 2024 発表資料)
 
【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow【AI論文解説】Consistency ModelとRectified Flow
【AI論文解説】Consistency ModelとRectified Flow
 
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
論文紹介: Exploiting semantic segmentation to boost reinforcement learning in vid...
 
20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf20240523_IoTLT_vol111_kitazaki_v1___.pdf
20240523_IoTLT_vol111_kitazaki_v1___.pdf
 
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
Amazon Cognitoで実装するパスキー (Security-JAWS【第33回】 勉強会)
 
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアルLoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
LoRaWAN 4チャンネル電流センサー・コンバーター CS01-LB 日本語マニュアル
 
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
2024年5月25日Serverless Meetup大阪 アプリケーションをどこで動かすべきなのか.pptx
 
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
MPAなWebフレームワーク、Astroの紹介 (その2) 2024/05/24の勉強会で発表されたものです。
 

あなたの業務に機械学習を活用する5つのポイント

  • 1. あなたの仕事に 機械学習を活かす 5つのポイント 株式会社Preferred Infrastructure ⽐比⼾戸 将平
  • 2. この話の対象者 ! 機械学習を使う「信念念」を持っている⼈人 ! 信念念:機械学習を使うことが絶対にプラスになる ! 前半の「仕事」:⾃自社サービス改善 ! Gunosyさん「数値は神より正しい」 ! サービスに関する全権限があれば徹底できる ! 後半の「業務」:もう少し広く機械学習が使える仕事 ! ⼈人⼿手で経験と勘によってやってきた業務の置き換え ! データ分析業務の⼀一環としてお客様に価値提供 ! 機械学習をキーにした新しいアプリ・ビジネス
  • 3. 機械学習と私 ! ヒド ショウヘイ ! Twitter: @sla ! 機械学習との関わり ! ⼤大学 ! 勉強する ! IBM基礎研 ! ⼿手法を考える ! ⼿手法つかう ! PFI ! Jubatus担当 ! ソフトウェアつくる 3
  • 5. (参考)前回のMLCTテーマ:テスト 他にもまだ 間違ってました!
  • 8. そう、「機械学習は苦しい」!!!! ! 機械学習を使えば楽して問題が解決する? ! 機械学習を使えば楽してお⾦金金が儲かる? ! 機械学習を使えば誰でも有⽤用な知⾒見見が得られる? ! 機械学習を使えば誰でも素晴らしいサービスを作れる? ! 機械学習を覚えればワンランク上の技術者になれる? ! 機械学習を覚えれば社内でも⼀一⽬目置かれる⼈人になれる? ! 機械学習を覚えればきっと新しい⾃自分になれる? ! 機械学習を覚えれば明⽇日から⾃自分もモテモテになる?
  • 9. 機械学習は普通のデータ活⽤用よりもハードルが⾼高い 意思決定者と作業者が分かれている場合に課題に 9 ! 効果をほとんど予⾒見見できない ! 通常のデータ集計・可視化・分析⽀支援・ルール処理理とは異異なる ! FAQ:どれくらいデータがあればどれくらい精度度でますか? ! 投資対効果が⾒見見えない ! 2⼈人⽉月でどれくらい成果がでるのか?→わかりません ! 4⼈人⽉月に増やしたらどれくらい変わるのか?→わかりません ! ROIの曲線が不不明確で、実際に極めていびつ ! 結果の解釈性・納得性が低い ! ⼀一般に予測結果の解釈や理理由説明が難しい ! 検証において精度度が出ても本番で 有効な保証は無い ! 投資側からすると成功しても失敗しても その理理由がわからない肚に落落ちない
  • 10. 機械学習に新たに挑む⼈人(特に専⾨門じゃない⼈人) =信念念を持った偉⼤大なるマゾ勇者 ! 機械学習はじめてみよう! ! たまねぎ勇者「機械学習勉強したいんだけど?」 ! 機械学習専⾨門家「そりゃーPRML⼀一択でしょー」 ! 機械学習つかってみよう ! たまねぎ勇者「機械学習つかってみたいんだけど?」 ! T◯kyo.Rの⼈人「そりゃーR⼀一択でしょー」 ! 機械学習を業務に使ってみよう! ! たまねぎ勇者「機械学習やりませんか!?!?」 ! 上司/経営陣「なにそれ美味しいの?」 10
  • 11. 5つのポイント ! 関係者を利利害に巻き込む ! 「データが全て」を徹底する ! 検証可能なKPIを共有する ! Minimum Viable Experimentを実施する ! 検証パターンを限界まで増やす
  • 12. (3) 検証可能なKPIを共有する ! KPI : Key Performance Indicator ! ビジネスの状態の善し悪しを図る指標 ! ここでは機械学習の効果を⽰示す単⼀一の値 ! (事前に)共有する ! ビジネス課題から定量量化できる基準を導出する ! 通常は関係者毎にバラつく(例例:品質保証⽬目標) ! 全員が「これが良良くなれば⽂文句句ない」を⽬目指す ! (報告書で)共有する ! ⽬目的にKPIの意味と改善⽬目標を書く ! 実験設定にKPIの算出⽅方法を書く ! 実験結果にKPIの具体的な値を書く ! まとめに達成したKPIの改善効果と投資対効果を書く 12
  • 13. (3) 検証可能なKPIを共有する 例例1:Webサービスの場合 ! サイト性能 ! クリックスルー率率率 ! コンバージョン率率率 ! ユーザー視点 ! 新規ユーザー数 ! アクティブユーザー数 13
  • 14. (3) 検証可能なKPIを共有する 例例2:製品の異異常検知の場合 ! 誤検知率率率→「⾒見見逃しはどうなった?」 ! ⾒見見逃し率率率→「誤検知はどうなった?」 ! F-measure/G-mean→「よく分からない」 ! AUC(Area Under ROC Curve)→「全く分からない」 ! 総誤検知コストと総⾒見見逃しコストの和→「現実的じゃない」 ! 誤検知率率率c%を固定した時の⾒見見逃し率率率→「なるほど…?」 ! cは0.01?0.1?1.0?10?→ 納得するまで相談しましょう 14 誤検知率率率 ⾒見見逃し率率率 c1c2
  • 15. (3) 検証可能なKPIを共有する 5つのポイントでもここが⼀一番⼤大事な所 ! (参考)アルゴリズムの優劣劣⽐比較の指標の場合 ! 異異なる問題(データセット)で共通→抽象的 ! Accuracy、P/R評価、ROC曲線、AUC… ! ⽬目の前のビジネス課題におけるパフォーマンスの場合 ! 関係者全員の評価の共通認識識→具体的 ! この値で投資対効果が評価されると肝に銘じる ! 絶対に曖昧にしない、妥協しない ! 「とりあえずやってみて…」 ! 何で評価すべきか決めてからにしましょう ! 「とりあえず精度度が上がればいいですよね」 ! 精度度ってなんですか? ! Accuracy? Precision? Recall? 15
  • 16. 5つのポイント ! 関係者を利利害に巻き込む ! 「データが全て」を徹底する ! 検証可能なKPIを共有する ! Minimum Viable Experimentを実施する ! 検証パターンを限界まで増やす
  • 17. (1) 関係者を利利害に巻き込む 「…みんなでしあわせになろうよ…?」 ! 典型的な関係者 ! 経営陣 ! ⾃自分の上司 ! 現場の責任者 ! データを管理理している⼈人 ! いま該当する業務をやってる⼈人 ! 利利益を得る部署の⼈人 ! 利利害 ! 「機械学習がうまくいったらみんなハッピー!」 ! それぞれの⼈人に向かってストーリーを作って説得する ! ここをサボるとその後の努⼒力力が無駄になる ! 利利害調整の仮定で共有すべきKPIも⾒見見えてくるはず 17
  • 18. (1) 関係者を利利害に巻き込む 典型的な失敗例例 ! 始める前 ! 思い⽴立立って機械学習の導⼊入を訴える上司と経営陣からゴーサイン ! 現場の責任者「それはいいね、コストゼロ、リスクゼロで試して くれるならどうぞ」 ! データ管理理者/業務担当者「⼿手伝わないけど邪魔しないなら勝⼿手 にどうぞ」 ! 結果 ! 上司/経営陣「それで結局これでいくら儲かるんだ?」 ! 現場の責任者「あー、そうやったんだ、そうか……残念念、これじ ゃ使えないね、またそのうち頑張ってよ」 ! データ管理理者/業務担当者「まぁ難しいよねw(仕事取られたく ない)」「まぁ難しいよねw(仕事増やされたくない)」 18
  • 19. (1) 関係者を利利害に巻き込む 「上⼿手くいったら認めてくれるだろう」は誤解 ! ⼈人間的な⾯面倒くささを避けない ! ⼀一般の仕事では投資対効果の評価をするのは⼈人間 ! 他⼈人にデメリットが無いなら表⾯面上はうまくいく ! 「ただでやってくれるならいいよ」 ! 「⾯面倒くさいから⼿手伝えないけど好きに使ってよ」 ! 投資しない⼈人が必要なものは誰も(本⼈人にも)分からない!! ! 誰しも無料料ならとりあえず何でも欲しがる ! 例例:街頭で受け取ったティッシュ⼊入りビラを5秒⾒見見つめて捨てる ! もらってからその価値を考える ! いらなかったら遠慮無く捨てる ! ⾃自分以外誰も責任を取らなくてもいい体制が問題 ! うまくいったら利利益を得る⼈人には責任も発⽣生させるべき ! うまくいくってなんだ?→(3)のKPIの話 19
  • 20. 5つのポイント ! 関係者を利利害に巻き込む ! 「データが全て」を徹底する ! 検証可能なKPIを共有する ! Minimum Viable Experimentを実施する ! 検証パターンを限界まで増やす
  • 21. (2) 「データが全て」を徹底する 今度度は逆に期待値をコントロールする ! 「機械学習を使えば何でも予測・検出できる!?」→NO! ! 機械学習は魔法ではない ! 何でも解決できるわけではない ! 例例1:「株価変動を予想して儲けられる!?」→NO! ! データ以外の外部要因の影響が過⼤大 ! 例例:政策・法規制の変更更、戦争勃発、投機マネーの流流動、etc ! 統計的予測による株式売買の実情 ! 平時はそれなりにプラス+激変時に⼤大きなマイナス ! =トータル平均はプラスマイナスゼロ ! 例例2:「⾃自動⾞車車のどんな故障も事前に検知できる!?」→NO! ! センサが捕まえられない種類の予兆は発⾒見見できない ! 消耗的故障(ネジ劣劣化によるホイール脱離離)と突発的故障(オイ ル漏漏れ) 21
  • 22. (2) 「データが全て」を徹底する 機械学習とはデータを使い切切る技術のこと ! 機械学習がもたらす価値<=データに潜む価値 ! 使うデータに無い情報・知⾒見見は⾒見見つからない ! どんなに学習を頑張っても無理理なものは無理理 ! 機械学習の意義/得意な点 ! データを様々な切切り⼝口で調べていく ! ⼈人⼿手の分析が及ばない視点をカバーする ! ⼤大規模・⾼高次元データで特に有効になる ! 利利害関係者に訴えること ! まだ最⼤大限利利⽤用できてないデータが眠ってないか? ! 本当はデータを⽣生かせそうな仮説はあるか? ! 実現できていないのは⼿手法やコストの問題か? ! 機械学習アプローチで解決できそうにないか? 22
  • 23. 5つのポイント ! 関係者を利利害に巻き込む ! 「データが全て」を徹底する ! 検証可能なKPIを共有する ! Minimum Viable Experimentを実施する ! 検証パターンを限界まで増やす
  • 24. (4) Minimum Viable Experimentを実施する ! (参考)Minimum Viable Product (MVP) ! リーンスタートアップ:スタートアップでの開発理理論論で登場 ! 検証に必要な最⼩小限の機能を持った製品 ! Minimum Viable Experiment (MVE, 造語) ! 検証に必要な最⼩小限のリソースを⽤用いた評価実験 ! 前提:検証に⽤用いるKPIはすでに決定している ! リソース ! 教師データ ! テストデータ ! アルゴリズム(実装) ! 計算環境・開発・実験コスト ! フィージビリティスタディ/パイロット/PoCと呼ぶ場合が多い 24
  • 25. (4) Minimum Viable Experimentを実施する 最⼩小限のリソースで検証:計画性が⼤大事 ! データ ! データ収集 ! 教師データ作り ! クリーニング ! 前処理理 ! アルゴリズム ! ルール/⼈人⼒力力をベースラインに ! 実装探す・使えるようにする ! パラメータチューニング ! その他作業コスト ! 環境を⽤用意・使えるようにする ! データを⼊入⼒力力して実験を回す ! 結果を考察して報告書を作る25 前処理理済データ アルゴリズム /パラメータ KPI評価 結果
  • 26. Minimum Viable Experimentで⽬目指すとこ 26 時間 リターン 次やってもいいよライン
  • 27. (4) Minimum Viable Experimentを実施する 失敗すれば次の本番プロジェクトは無いと思え ! 失敗=今後の投資対効果が⾒見見えない ! リソースと期間は有限 ! まずはOne-pass通すこと ! ベストのリソース配分を計画 ! 個⼈人的な欲望は抑えこむ ! やりたいことは本番まで待つ ! やってはいけない ! 「これを期にRよりNumPyでも覚え…」 ! 「実データは後回しにしてアルゴr…」 ! 経験的なアドバイス ! データの前処理理までに予想の3倍かかる ! アルゴリズム頑張る前に前処理理 ! チューニング頑張る前に前処理理 27 前処理理済データ アルゴリズム /パラメータ KPI評価 結果
  • 28. 5つのポイント ! 関係者を利利害に巻き込む ! 「データが全て」を徹底する ! 検証可能なKPIを共有する ! Minimum Viable Experimentを実施する ! 検証パターンを限界まで増やす
  • 29. (5) 検証パターンを限界まで増やす おめでとうございます、ついに本番です ! 「ついに好きな事ができる…!!」 ! 新しい統計処理理環境・⾔言語に⼿手を出してみたり ! 論論⽂文読んで新しいアルゴリズム実装したり ! いっそクラウドに分散実験環境作ってみたり ! 実験を⾃自動化するスクリプトを整備したり ! ちょっと待とう!! ! MVEだけではまだビジネス上は役に⽴立立っていない ! 成果を出すまでが機械学習を使ったお仕事です ! MVEの結果を最⼤大限レバレッジするのが使命 ! 「策⼠士策に溺溺れる」にならないように ! 成果が⼀一番 ! コストが⼆二番 ! 個⼈人の欲望はこっそりね…?29
  • 30. (5) 検証パターンを限界まで増やす 計画性や好みよりも網羅羅性を ! MVEの遺産 ! 実験をOne-pass流流す仕組み ! データやアルゴリズムは置き換え可能 ! チューニングも可能な限り省省⼒力力化へ ! 参考: https://github.com/pfi/maf ! ひたすらパターンを増やす ! データを増やす ! 前処理理バリエーションを増やす ! アルゴリズムを増やす ! チューニングの網羅羅性を⾼高める ! これらのかけ算で結果が増える ! 注:KPIは動かさない 30 前処理理済データ アルゴリズム /パラメータ KPI評価 結果
  • 31. (5) 検証パターンを限界まで増やす 思い込みや先⼊入観を捨てる ! 与えられたデータをしっかり使い切切る ! 古いデータより新しいデータ ! 変数を限定したデータより全変数 ! サンプリングしたデータより全データ ! 注:後⼯工程で削るのはアリ ! アルゴリズムを選り好みしない ! まずC4.5、ロジスティック回帰、ナイーブベイズ ! SVM、Boosting、Random Forest ! 「けどDeep Learningやりたいんです!」→最後にしよう ! チューニング ! 各パラメータ最低限3段階で試験 ! 変数のスケールとの相性に注意 31
  • 32. “Machine learning that matters” Kiri L. Wagstaff, ICML, 2012. ! 機械学習研究におけるベンチマーク性能向上への偏向、 評価関数の有⽤用性、実応⽤用との乖離離を批判し実⽤用指向を推奨 ! もっと応⽤用を指向した機械学習研究と開発が今後加速する ! 異異常検知は特にドメイン知識識が重要で専⾨門家の強⼒力力が不不可⽋欠 32