SlideShare a Scribd company logo
株式会社ブレインパッド 栗原理央
2018年7月30日
機械学習PJの流れとデータ活用に大切なこと
データサイエンティスト女子部 第3回セミナー@渋谷
Analytics Innovation Company ©2016 BrainPad Inc. 1
Ajenda
1. 自己紹介
2. 本日想定しているオーディエンスとセミナー後に期待すること
3. はじめに
1. データサイエンティストとは
2. 応用領域と代表的な手法
4. データ分析の流れ
5. 各フローで初心者が陥りがちなポイント
6. おまけ
7. まとめ
Analytics Innovation Company ©2016 BrainPad Inc. 2
栗原 理央(Rio Kurihara)
http://free-illustrations.gatag.net/
https://www.pakutaso.com/
https://free-materials.com/
大学時代
• 専攻は生命化学(免疫)
• 分析に関しては独学。学生コンペ・インターン等に参加していた
• 学部卒
社会人
2012
2016
• 株式会社ブレインパッドへデータサイエンティストとして入社
※過去PJについては後述
• 社外発表は慣れていないので緊張している
好きなこと 使っている主な言語・ツールストレングスファインダーTOP5
Rank 強み
1 戦略性
2 責任感
3 活発性
4 着想
5 包含
Analytics Innovation Company ©2016 BrainPad Inc. 3
本日想定しているオーディエンスとセミナー後に期待すること
対象 セミナー後に期待すること
学生/DSを目指している人
(分析歴1年未満)
• データ分析の業務のイメージを掴む
• 学ぶことはかなり多そうだけどなんとかやっていけそう、と思ってもらう
• 「何から手を付けたらよいかわからない」を解消する
分析業務に従事している人
(分析歴2~4年)
• 普段使っているアルゴリズムをきちんと勉強しなおそうというきっかけ
• 多くの分析手法があることを知ってもらい、目的に沿った手法選択の重要性を感じる
全員
• 分析や情報処理のバックグラウンドを持っていない新卒3年目でもこの程度のレベルまで引
きあがれることを知ってもらう
• ワクワク感
Analytics Innovation Company ©2016 BrainPad Inc. 4
はじめに
データサイエンティスト?
Analytics Innovation Company ©2016 BrainPad Inc. 5
業務に必要な3つのスキルセット
資料:データサイエンティスト協会プレスリリース (2014.12.10) http://www.datascientist.or.jp/news/2014/pdf/1210.pdf
ビジネス力
(business problem
solving)
データ
サイエンス
(data science)
データ
エンジニアリング
(data
engineering)
課題背景を理解した上で、
ビジネス課題を整理し、
解決する力
情報処理、人工知
能、統計学などの
情報科学系の知恵
を理解し、使う力
データサイエンスを
意味のある形に使えるよ
うにし、実装、運用でき
るようにする力
業務に必要なスキルセット
Analytics Innovation Company ©2016 BrainPad Inc. 6
たくさんの応用領域があります(例)
マーケティング領域
販売数予測
在庫最適化
レコメンド
広告効果の可視化
広告費最適化
顧客行動分析
オペレーション領域
工程時間予測
異常検知
物体識別
データ活用基盤確立
画像処理
自然言語処理
Analytics Innovation Company ©2016 BrainPad Inc. 7
たくさんの手法があります(例)
• 回帰 例:売上予測
• 分類 例:スパムメール判別
• 次元圧縮 例:次元数が多いデータの可視化
• 強化学習 例:AlphaGo
• GAN 例:画像の生成
必要な基礎・前提知識もたくさんあります(例)
線形代数
ベクトル・行列演算
行列式
固有値・固有ベクトル
逆行列
内積・距離空間 確率・統計
確率分布
中心極限定理 母集団・標本集合
仮説検定
データ処理と評価方法
データのタイプ
ダミー変数
尺度合わせ
異常値処理
モデル選択
精度評価
何から手を付けたらいいの?
と思うのは当たり前です
Analytics Innovation Company ©2016 BrainPad Inc. 10
過去のPJ
• 某通販サービスにおいて、
同一商品を表すが商品
名は異なるものに対して、
それらを紐づけるアルゴリ
ズムを実装。従来はルー
ルベースで処理されてい
たシステムに対し、自然
言語処理や深層学習を
活用したアルゴリズムにて
業務を効率化
自然言語認識
• 某通販業において、
TVCMやインフォマーシャ
ル、リスティング広告、新
聞、チラシなどの複数チャ
ネルへの出稿についてROI
を最大化するMMM
• 某小売業にて、需要と在
庫に合わせて価格を最適
化することで売上を最大
化するアルゴリズムを実装
最適化問題
• 某メーカーにてデータサイ
エンティスト養成を支援。
機器の利用データからユー
ザーの行動を機械学習モ
デリングを活用して推定
• 某飲料メーカーにおいて、
より効果的なプロモーショ
ンを行うため、SNSの投稿
画像から収集したデータと
機械学習を活用し、ドリン
クの消費シーンを分析した
結果をレポートティング
将来予測/要因把握
• 麻雀牌の画像データを
学習させ、自動で点数
計算するアルゴリズムを
実装。鋭意システム構
築中
画像認識
※非業務
麻雀 自動計算 AI
Analytics Innovation Company ©2016 BrainPad Inc. 11
本日話す領域
• 某通販サービスにおいて、
同一商品を表すが商品
名は異なるものに対して、
それらを紐づけるアルゴリ
ズムを実装。従来はルー
ルベースで処理されてい
たシステムに対し、自然
言語処理や深層学習を
活用したアルゴリズムにて
業務を効率化
自然言語認識
• 某通販業において、
TVCMやインフォマーシャ
ル、リスティング広告、新
聞、チラシなどの複数チャ
ネルへの出稿についてROI
を最大化するMMM
• 某小売業にて、需要と在
庫に合わせて価格を最適
化することで売上を最大
化するアルゴリズムを実装
最適化問題
• 某メーカーにてデータサイ
エンティスト養成を支援。
機器の利用データからユー
ザーの行動を機械学習モ
デリングを活用して推定
• 某飲料メーカーにおいて、
より効果的なプロモーショ
ンを行うため、SNSの投稿
画像から収集したデータと
機械学習を活用し、ドリン
クの消費シーンを分析した
結果をレポートティング
将来予測/要因把握
• 麻雀牌の画像データを
学習させ、自動で点数
計算するアルゴリズムを
実装。鋭意システム構
築中
画像認識
※非業務
麻雀 自動計算 AI
Analytics Innovation Company ©2016 BrainPad Inc. 12
本日は機械学習PJの分析フロー別に、
初心者が陥りがちなポイントを
私が過去やらかしたものを交えながらご紹介します
プロセス
ヒアリング・
ビジネス理解
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
施策提言・システム開発
今日話すこと/話さないこと
集計してレポーティング・施策提案等の話はしません
手法の細かい説明しません
(ググって出てくる基本的な内容はキーワードだけ紹介)
数式出てきません
ビジネスの話もメインではしません
Analytics Innovation Company ©2016 BrainPad Inc. 13
各フローで重要なこと
初心者が陥りがちなポイント
Analytics Innovation Company ©2016 BrainPad Inc. 14
データの理解・準備 実施内容
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
実施内容:問題設定に沿って、元データを分析できるデータに加工する
• レコード数やデータの型、欠損、異常値、テーブル紐づけ、重複有無等、基本的なデータ概観の確認
• 上記に対する適切な処理
ファイル名 レコード数/列数 ユニークキー 期間
XXX.csv 20, 000 / 20 Id 20XX/XX/XX ~20XX/XX/XX
… … …
列名 ユニーク数 概要 型 欠損状況 異常値状況
Id 20,000 取引Id int なし なし
date 364 日付 date 20XX/YY/YYが
全て欠損
なし
item 100 購入商品 str 200件
Id1100のみ欠損率が90%
なし
price 5,000 購入価格 int 400件 マイナスの
値が存在
… … …
※イメージ
表1.データ概観
表2.データ理解・欠損状況の確認
欠損補完 手法 検索
外れ値検出 検索
参考:http://kskbyt.hatenablog.jp/entry/2016/05/14/151748
図1.ER図
Analytics Innovation Company ©2016 BrainPad Inc. 15
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
データの理解・準備 ポイント
プロセス
• 色々集計する前にまずデータ確認を行うこと
• 前処理を疎かにしないこと
• 正しい解釈ができなくなる
• 「このキャンペーンを打ったあと売上伸びてる!」
⇒ 特定のIDのユーザーが1度だけ異常に購入していた ≒ 外れ値
• その後の分析が進められない
• 何故か予測結果が出ない・・・
⇒ Nullがあると予測はできません
• 「Nullがあるからとりあえず除外するか」
• ⇒ 他の変数に依存して欠損が発生するケースがあります
• 全体の何割程度が欠損しているかに依りますが、とりあえず除外・とりあえず
平均埋めは軽率です
Analytics Innovation Company ©2016 BrainPad Inc. 16
基礎集計 実施内容
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基本統計量から、問題設定の難易度を見直したり、分析設計のためのヒントを得る
• 基本統計量の確認(平均・分散・偏差・中央値・最大値・最小値)
• 目的変数と説明変数の相関・時系列等の可視化
※イメージ
図2.相関行列のヒートマップ
表3.基本統計量
図3.目的変数ラベル別の件数
Analytics Innovation Company ©2016 BrainPad Inc. 17
基礎集計 ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
必ず検算
集計中に気づいた必要な前処理もここで実施
軸を決めて集計する
Ex:) 顧客軸、商品軸、時間軸…
Analytics Innovation Company ©2016 BrainPad Inc. 18
分析設計 実施内容
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します)
(正直ここは経験がものをいうプロセスだと思います)
Analytics Innovation Company ©2016 BrainPad Inc. 19
分析設計 具体例・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します)
分類 or 回帰
Analytics Innovation Company ©2016 BrainPad Inc. 20
分析設計 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します)
売上予測をする場合、
商品単位?店舗単位?等
Analytics Innovation Company ©2016 BrainPad Inc. 21
分析設計 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します)
• ビジネス上の制約を考慮する
• 精度重視、解釈重視、処理速度制約
• 工数とも相談
• 特徴量作成に手がかからない学習器?
• 学習時間どれくらいかかってもいい?
• モジュールはある?
• (データとの相性)ここは経験積むしか・・・
分類 機械学習 アルゴリズム 検索
一般化線形モデル アルゴリズム 検索
Analytics Innovation Company ©2016 BrainPad Inc. 22
分析設計 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します) • 単純にランダムでよい場合もあるが、時系列が絡んでくる
場合は要注意
(データ期間:1年の場合)
⇒ ランダムの場合、テスト対象期間より未来のデータも含めて学習することとなり、カンニングになる
1月 6月 12月
学習データ期間:1月~10月 テストデータ期間
1月 6月 12月
⇒ 完全に未来のデータを予測しているため、モデルの汎化性を含めた精度評価に適している
(ただし上記の場合、11, 12月の情報は学習させないため、冬特有の傾向がある場合は、どんなに頑張っても予測は難しい)
Analytics Innovation Company ©2016 BrainPad Inc. 23
分析設計 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
• 目的に沿って、解くべき問題を設定する
• 予測粒度の決定
• 学習器の決定
• 学習データとテストデータの分割方法の決定
• 評価指標の決定(後述します)
Analytics Innovation Company ©2016 BrainPad Inc. 24
特徴量作成 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基礎集計で得たヒントを元に、特徴量を作成していく
一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく
• データのスケーリング
• 値の大小によって影響がある学習器がある
• 予測する時点で知り得ない情報は入れてはいけない
• 因果関係を意識する
• 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない
データ 正規化 検索
Analytics Innovation Company ©2016 BrainPad Inc. 25
特徴量作成 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基礎集計で得たヒントを元に、特徴量を作成していく
一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく
• データのスケーリング
• 値の大小によって影響がある学習器がある
• 予測する時点で知り得ない情報は入れてはいけない
• 因果関係を意識する
• 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない
データ 正規化 検索
Analytics Innovation Company ©2016 BrainPad Inc. 26
特徴量作成 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基礎集計で得たヒントを元に、特徴量を作成していく
一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく
• データのスケーリング
• 値の大小によって影響がある学習器がある
• 予測する時点で知り得ない情報は入れてはいけない
• 因果関係を意識する
• 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない
(データ期間:1年)
特徴量として年間の売上や12月の気温等を入れると、
カンニングになり、正しい精度評価ができない
1月 6月 12月
学習データ期間:1月~10月 テストデータ期間
Analytics Innovation Company ©2016 BrainPad Inc. 27
特徴量作成 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基礎集計で得たヒントを元に、特徴量を作成していく
一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく
• データのスケーリング
• 値の大小によって影響がある学習器がある
• 予測する時点で知り得ない情報は入れてはいけない
• 因果関係を意識する
割引率
オペレーション
在庫をみて割引率を決めるため、割引率と目的変数(≒在庫)の相関は高い。
予測対象の翌日の割引率は、予測時点の在庫の情報を含んでいるため特徴量に入れてはいけない
オーナーがその日の在庫の数を見て、次の日の割引率を決定しているケース
在庫 在庫割引率
因果関係
問題:在庫数予測
日付 在庫 割引率
1/1 20 0.1
1/2 50 0.3
1/3 100 0.5
1/4 70 0.4
Analytics Innovation Company ©2016 BrainPad Inc. 28
モデリング 実施内容・ポイント
プロセス
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
基本的には分析設計と特徴量作成ができていれば、実装のみ
学習データとテストデータのほかに、考察用のValidationデータを用意する
• 学習器の特徴をよく理解して進める
ランダムフォレストでの失敗例(詳細は理解できなくても大丈夫です)
• 決定木よりも精度が上がらなかった
• 特徴量の数は約1500個
• 目的変数の60%を説明できる変数が1つあった
• Scikit-learnのデフォルトパラメータのまま学習させていた
• デフォルトだと学習に使う特徴量は 特徴量数のため、39個程度
⇒全体の2%の特徴量しか採用されない
• 上記の強い特徴量が入っていない場合に精度が低く、弱いモデルが大量生成されていた
アルゴリズムを理解せずに進めて高精度のモデルを構築するのはほぼ不可能
Analytics Innovation Company ©2016 BrainPad Inc. 29
評価 実施内容・ポイント
プロセス
基礎集計
分析設計
データ加工
データマート作成
統計的機械学習
モデリング
データの
理解・準備
評価
評価指標を決定(分析設計フェーズで行う)
• 何を重視して「よい分析」と定義するのかを決める
• 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある
• モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい)
• 定性評価も重要(泥臭いけど)
図4.分類モデルにおける一般的な評価指標
Analytics Innovation Company ©2016 BrainPad Inc. 30
評価 実施内容・ポイント
プロセス
基礎集計
分析設計
データ加工
データマート作成
統計的機械学習
モデリング
データの
理解・準備
評価
評価指標を決定(分析設計フェーズで行う)
• 何を重視して「よい分析」と定義するのかを決める
• 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある
• モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい)
• 定性評価も重要(泥臭いけど)
False positiveとFalse negative、どちらが重要か?
例①:患者がガンか否かを予測するとき(ガンが負例)
⇒ガンと予測したけど本当は健康だった (FP)
⇒ガンじゃないと予測したけど本当はガンだった (FN) ← こっちの方がヤバイ
例②:人によるスパム判定のサポート(スパムが負例)
⇒スパムと予測したけど本当はスパムじゃなかった(FP) ← こっちの方がヤバイ
⇒スパムでないと予測したけど本当はスパムだった(FN)
人手チェックが入るので、間違えてスパムと言っても許容できるが、取りこぼしがあると困る
Analytics Innovation Company ©2016 BrainPad Inc. 31
評価 実施内容・ポイント
プロセス
基礎集計
分析設計
データ加工
データマート作成
統計的機械学習
モデリング
データの
理解・準備
評価
評価指標を決定(分析設計フェーズで行う)
• 何を重視して「よい分析」と定義するのかを決める
• 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある
• モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい)
• 定性評価も重要(泥臭いけど)
何故誤分類しているか?何故予測精度が上がらないのか?
⇒ 定量評価だけでなく、目でデータを見て傾向を探し、改善方針を立てることはとても重要
Analytics Innovation Company ©2016 BrainPad Inc. 32
分析フローのうち
一つでも疎かにするとうまくいきません
Analytics Innovation Company ©2016 BrainPad Inc. 33
おまけ
• 初心者におすすめの学習法
• 過去のあるある話
Analytics Innovation Company ©2016 BrainPad Inc. 34
初心者におすすめの学習法
企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い
合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社
(Wikipediaより)
1. 自分の興味のあるコンペを探してデータをダウンロード(あまりデータサイズ大きくないのがおすすめ)
2. 今日の資料にそって分析を進めてみる
3. サブミットする
• 初心者には結構ハードル高いですが、データサイエンティストに近づくための大きな第一歩
• サブミットに至るまでは必要な知識・処理がたくさんあります
• ツールは正直なんでもいいですが、私はPythonをおすすめします(Webにたくさん情報がある、機械学習パッケージも豊富)
「kaggleにサブミットする」
Analytics Innovation Company ©2016 BrainPad Inc. 35
過去のあるある話 (1/2)
精度が出なくて困った
クライアントに理解してもらうのに時間がかかった
データが汚すぎた、足りなすぎた
データが重すぎて困った
Analytics Innovation Company ©2016 BrainPad Inc. 36
過去のあるある話 (1/2)
精度が出なくて困った
クライアントに理解してもらうのに時間がかかった
データが汚すぎた、足りなすぎた
データが重すぎて困った
Analytics Innovation Company ©2016 BrainPad Inc. 37
過去のあるある話 (2/2)
問題があったプロセス 問題
データの理解・確認
教師データに問題があった
• 人が作った教師データの場合は注意(データの確認不足)
データの分布に問題があった
• 目的変数が酷く偏っていた(データの確認不足)
分析設計 解く問題と手法の相性が悪かった(経験不足)
評価
改善方針を立てて再度モデル構築するサイクルが回しづらく、効率が悪かった(評価指
標の設計ミス)
機械学習的評価指標を提示しても、結局サービスに落としたときにどの程度使えるのかわ
からなかった。(サービス目線の不足)
プロセス
ヒアリング・
ビジネス理解
基礎集計
分析設計
特徴量作成
統計的機械学習
モデリング
データの
理解・準備
評価
施策提言・システム開発
仮説通りに結果が出なかったり、予測精度が低いとき
どのプロセスに問題があるのかを見極める必要がある
Analytics Innovation Company ©2016 BrainPad Inc. 38
分析フローのうち
一つでも疎かにするとうまくいきません
Analytics Innovation Company ©2016 BrainPad Inc. 39
ご清聴ありがとうございました
Analytics Innovation Company ©2016 BrainPad Inc. 40
質疑応答タイム
なんでもどうぞ
本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報が含まれており、
これら情報に基づく本資料の内容は、御社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その一部または全文を複製、使用、公
開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部または全文を使用または公開することは、いかなる
場合も禁じられております。
株式会社ブレインパッド
〒108-0071 東京都港区白金台3-2-10 白金台ビル3F
TEL:03-6721-7002 FAX:03-6721-7010
www.brainpad.co.jp info@brainpad.co.jp
Analytics Innovation Company

More Related Content

Similar to 20180730 ds womens

Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介
IBM Analytics Japan
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
syou6162
 
[RIT]MLmodeling service
[RIT]MLmodeling service[RIT]MLmodeling service
[RIT]MLmodeling service
RIT
 
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
ReNom User Group
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
株式会社Consumer first
 
ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測
澪標アナリティクス
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
mayu tech
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
Leading Edge Co.,Ltd.
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
BrainPad Inc.
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
H. K
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
junji kumooka
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話
GIG inc.
 
CIA/AAR分析
CIA/AAR分析CIA/AAR分析
CIA/AAR分析
You&I
 
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
Hironori Washizaki
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
Satoshi Noto
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
圭輔 大曽根
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
Yasuyuki Kataoka
 
データ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだことデータ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだこと
Koki Shibata
 
Contextual package
Contextual packageContextual package
Contextual package
Shota Yasui
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー
慧悟 岩本
 

Similar to 20180730 ds womens (20)

Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介Datawatch Monarch for Ibm Analyticsのご紹介
Datawatch Monarch for Ibm Analyticsのご紹介
 
カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録カスタマーサクセスのためのデータ整備人の活動記録
カスタマーサクセスのためのデータ整備人の活動記録
 
[RIT]MLmodeling service
[RIT]MLmodeling service[RIT]MLmodeling service
[RIT]MLmodeling service
 
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
AIによる働き方改革!~本当にストレスを感じている社員を見逃すな~
 
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~大切なお客様を、一生のお客様に  ~自社・競合データから導く、結果につながるデータ分析の最新事例~
大切なお客様を、一生のお客様に ~自社・競合データから導く、結果につながるデータ分析の最新事例~
 
ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測ディープラーニングによるユーザーの行動予測
ディープラーニングによるユーザーの行動予測
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 
データ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdfデータ分析コンペでスキルアップしよう.pdf
データ分析コンペでスキルアップしよう.pdf
 
杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2杉並診断士会向けKintoneご紹介コンテンツr2
杉並診断士会向けKintoneご紹介コンテンツr2
 
LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話 LT.22 機械学習におけるPDCAを回せる環境構築の話
LT.22 機械学習におけるPDCAを回せる環境構築の話
 
CIA/AAR分析
CIA/AAR分析CIA/AAR分析
CIA/AAR分析
 
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日早稲田・鷲崎-ゴール指向の測定によるソフトウェア品質評価と改善の実践的取組み(三つのコツ、三つの事例)-2015年2月19日
早稲田・鷲崎-ゴール指向の測定によるソフトウェア 品質評価と改善の実践的取組み (三つのコツ、三つの事例)-2015年2月19日
 
データ分析チームの振り返り
データ分析チームの振り返りデータ分析チームの振り返り
データ分析チームの振り返り
 
いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標いまさら聞けない機械学習の評価指標
いまさら聞けない機械学習の評価指標
 
How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)How to organize data science project (データサイエンスプロジェクトの始め方101)
How to organize data science project (データサイエンスプロジェクトの始め方101)
 
データ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだことデータ分析チームを組成して3ヶ月で学んだこと
データ分析チームを組成して3ヶ月で学んだこと
 
Contextual package
Contextual packageContextual package
Contextual package
 
新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー新卒採用を、まっとうに ー面接者への通信簿ー
新卒採用を、まっとうに ー面接者への通信簿ー
 

20180730 ds womens

  • 2. Analytics Innovation Company ©2016 BrainPad Inc. 1 Ajenda 1. 自己紹介 2. 本日想定しているオーディエンスとセミナー後に期待すること 3. はじめに 1. データサイエンティストとは 2. 応用領域と代表的な手法 4. データ分析の流れ 5. 各フローで初心者が陥りがちなポイント 6. おまけ 7. まとめ
  • 3. Analytics Innovation Company ©2016 BrainPad Inc. 2 栗原 理央(Rio Kurihara) http://free-illustrations.gatag.net/ https://www.pakutaso.com/ https://free-materials.com/ 大学時代 • 専攻は生命化学(免疫) • 分析に関しては独学。学生コンペ・インターン等に参加していた • 学部卒 社会人 2012 2016 • 株式会社ブレインパッドへデータサイエンティストとして入社 ※過去PJについては後述 • 社外発表は慣れていないので緊張している 好きなこと 使っている主な言語・ツールストレングスファインダーTOP5 Rank 強み 1 戦略性 2 責任感 3 活発性 4 着想 5 包含
  • 4. Analytics Innovation Company ©2016 BrainPad Inc. 3 本日想定しているオーディエンスとセミナー後に期待すること 対象 セミナー後に期待すること 学生/DSを目指している人 (分析歴1年未満) • データ分析の業務のイメージを掴む • 学ぶことはかなり多そうだけどなんとかやっていけそう、と思ってもらう • 「何から手を付けたらよいかわからない」を解消する 分析業務に従事している人 (分析歴2~4年) • 普段使っているアルゴリズムをきちんと勉強しなおそうというきっかけ • 多くの分析手法があることを知ってもらい、目的に沿った手法選択の重要性を感じる 全員 • 分析や情報処理のバックグラウンドを持っていない新卒3年目でもこの程度のレベルまで引 きあがれることを知ってもらう • ワクワク感
  • 5. Analytics Innovation Company ©2016 BrainPad Inc. 4 はじめに データサイエンティスト?
  • 6. Analytics Innovation Company ©2016 BrainPad Inc. 5 業務に必要な3つのスキルセット 資料:データサイエンティスト協会プレスリリース (2014.12.10) http://www.datascientist.or.jp/news/2014/pdf/1210.pdf ビジネス力 (business problem solving) データ サイエンス (data science) データ エンジニアリング (data engineering) 課題背景を理解した上で、 ビジネス課題を整理し、 解決する力 情報処理、人工知 能、統計学などの 情報科学系の知恵 を理解し、使う力 データサイエンスを 意味のある形に使えるよ うにし、実装、運用でき るようにする力 業務に必要なスキルセット
  • 7. Analytics Innovation Company ©2016 BrainPad Inc. 6 たくさんの応用領域があります(例) マーケティング領域 販売数予測 在庫最適化 レコメンド 広告効果の可視化 広告費最適化 顧客行動分析 オペレーション領域 工程時間予測 異常検知 物体識別 データ活用基盤確立 画像処理 自然言語処理
  • 8. Analytics Innovation Company ©2016 BrainPad Inc. 7 たくさんの手法があります(例) • 回帰 例:売上予測 • 分類 例:スパムメール判別 • 次元圧縮 例:次元数が多いデータの可視化 • 強化学習 例:AlphaGo • GAN 例:画像の生成
  • 11. Analytics Innovation Company ©2016 BrainPad Inc. 10 過去のPJ • 某通販サービスにおいて、 同一商品を表すが商品 名は異なるものに対して、 それらを紐づけるアルゴリ ズムを実装。従来はルー ルベースで処理されてい たシステムに対し、自然 言語処理や深層学習を 活用したアルゴリズムにて 業務を効率化 自然言語認識 • 某通販業において、 TVCMやインフォマーシャ ル、リスティング広告、新 聞、チラシなどの複数チャ ネルへの出稿についてROI を最大化するMMM • 某小売業にて、需要と在 庫に合わせて価格を最適 化することで売上を最大 化するアルゴリズムを実装 最適化問題 • 某メーカーにてデータサイ エンティスト養成を支援。 機器の利用データからユー ザーの行動を機械学習モ デリングを活用して推定 • 某飲料メーカーにおいて、 より効果的なプロモーショ ンを行うため、SNSの投稿 画像から収集したデータと 機械学習を活用し、ドリン クの消費シーンを分析した 結果をレポートティング 将来予測/要因把握 • 麻雀牌の画像データを 学習させ、自動で点数 計算するアルゴリズムを 実装。鋭意システム構 築中 画像認識 ※非業務 麻雀 自動計算 AI
  • 12. Analytics Innovation Company ©2016 BrainPad Inc. 11 本日話す領域 • 某通販サービスにおいて、 同一商品を表すが商品 名は異なるものに対して、 それらを紐づけるアルゴリ ズムを実装。従来はルー ルベースで処理されてい たシステムに対し、自然 言語処理や深層学習を 活用したアルゴリズムにて 業務を効率化 自然言語認識 • 某通販業において、 TVCMやインフォマーシャ ル、リスティング広告、新 聞、チラシなどの複数チャ ネルへの出稿についてROI を最大化するMMM • 某小売業にて、需要と在 庫に合わせて価格を最適 化することで売上を最大 化するアルゴリズムを実装 最適化問題 • 某メーカーにてデータサイ エンティスト養成を支援。 機器の利用データからユー ザーの行動を機械学習モ デリングを活用して推定 • 某飲料メーカーにおいて、 より効果的なプロモーショ ンを行うため、SNSの投稿 画像から収集したデータと 機械学習を活用し、ドリン クの消費シーンを分析した 結果をレポートティング 将来予測/要因把握 • 麻雀牌の画像データを 学習させ、自動で点数 計算するアルゴリズムを 実装。鋭意システム構 築中 画像認識 ※非業務 麻雀 自動計算 AI
  • 13. Analytics Innovation Company ©2016 BrainPad Inc. 12 本日は機械学習PJの分析フロー別に、 初心者が陥りがちなポイントを 私が過去やらかしたものを交えながらご紹介します プロセス ヒアリング・ ビジネス理解 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 施策提言・システム開発 今日話すこと/話さないこと 集計してレポーティング・施策提案等の話はしません 手法の細かい説明しません (ググって出てくる基本的な内容はキーワードだけ紹介) 数式出てきません ビジネスの話もメインではしません
  • 14. Analytics Innovation Company ©2016 BrainPad Inc. 13 各フローで重要なこと 初心者が陥りがちなポイント
  • 15. Analytics Innovation Company ©2016 BrainPad Inc. 14 データの理解・準備 実施内容 プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 実施内容:問題設定に沿って、元データを分析できるデータに加工する • レコード数やデータの型、欠損、異常値、テーブル紐づけ、重複有無等、基本的なデータ概観の確認 • 上記に対する適切な処理 ファイル名 レコード数/列数 ユニークキー 期間 XXX.csv 20, 000 / 20 Id 20XX/XX/XX ~20XX/XX/XX … … … 列名 ユニーク数 概要 型 欠損状況 異常値状況 Id 20,000 取引Id int なし なし date 364 日付 date 20XX/YY/YYが 全て欠損 なし item 100 購入商品 str 200件 Id1100のみ欠損率が90% なし price 5,000 購入価格 int 400件 マイナスの 値が存在 … … … ※イメージ 表1.データ概観 表2.データ理解・欠損状況の確認 欠損補完 手法 検索 外れ値検出 検索 参考:http://kskbyt.hatenablog.jp/entry/2016/05/14/151748 図1.ER図
  • 16. Analytics Innovation Company ©2016 BrainPad Inc. 15 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 データの理解・準備 ポイント プロセス • 色々集計する前にまずデータ確認を行うこと • 前処理を疎かにしないこと • 正しい解釈ができなくなる • 「このキャンペーンを打ったあと売上伸びてる!」 ⇒ 特定のIDのユーザーが1度だけ異常に購入していた ≒ 外れ値 • その後の分析が進められない • 何故か予測結果が出ない・・・ ⇒ Nullがあると予測はできません • 「Nullがあるからとりあえず除外するか」 • ⇒ 他の変数に依存して欠損が発生するケースがあります • 全体の何割程度が欠損しているかに依りますが、とりあえず除外・とりあえず 平均埋めは軽率です
  • 17. Analytics Innovation Company ©2016 BrainPad Inc. 16 基礎集計 実施内容 プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基本統計量から、問題設定の難易度を見直したり、分析設計のためのヒントを得る • 基本統計量の確認(平均・分散・偏差・中央値・最大値・最小値) • 目的変数と説明変数の相関・時系列等の可視化 ※イメージ 図2.相関行列のヒートマップ 表3.基本統計量 図3.目的変数ラベル別の件数
  • 18. Analytics Innovation Company ©2016 BrainPad Inc. 17 基礎集計 ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 必ず検算 集計中に気づいた必要な前処理もここで実施 軸を決めて集計する Ex:) 顧客軸、商品軸、時間軸…
  • 19. Analytics Innovation Company ©2016 BrainPad Inc. 18 分析設計 実施内容 プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します) (正直ここは経験がものをいうプロセスだと思います)
  • 20. Analytics Innovation Company ©2016 BrainPad Inc. 19 分析設計 具体例・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します) 分類 or 回帰
  • 21. Analytics Innovation Company ©2016 BrainPad Inc. 20 分析設計 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します) 売上予測をする場合、 商品単位?店舗単位?等
  • 22. Analytics Innovation Company ©2016 BrainPad Inc. 21 分析設計 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します) • ビジネス上の制約を考慮する • 精度重視、解釈重視、処理速度制約 • 工数とも相談 • 特徴量作成に手がかからない学習器? • 学習時間どれくらいかかってもいい? • モジュールはある? • (データとの相性)ここは経験積むしか・・・ 分類 機械学習 アルゴリズム 検索 一般化線形モデル アルゴリズム 検索
  • 23. Analytics Innovation Company ©2016 BrainPad Inc. 22 分析設計 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します) • 単純にランダムでよい場合もあるが、時系列が絡んでくる 場合は要注意 (データ期間:1年の場合) ⇒ ランダムの場合、テスト対象期間より未来のデータも含めて学習することとなり、カンニングになる 1月 6月 12月 学習データ期間:1月~10月 テストデータ期間 1月 6月 12月 ⇒ 完全に未来のデータを予測しているため、モデルの汎化性を含めた精度評価に適している (ただし上記の場合、11, 12月の情報は学習させないため、冬特有の傾向がある場合は、どんなに頑張っても予測は難しい)
  • 24. Analytics Innovation Company ©2016 BrainPad Inc. 23 分析設計 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 • 目的に沿って、解くべき問題を設定する • 予測粒度の決定 • 学習器の決定 • 学習データとテストデータの分割方法の決定 • 評価指標の決定(後述します)
  • 25. Analytics Innovation Company ©2016 BrainPad Inc. 24 特徴量作成 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基礎集計で得たヒントを元に、特徴量を作成していく 一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく • データのスケーリング • 値の大小によって影響がある学習器がある • 予測する時点で知り得ない情報は入れてはいけない • 因果関係を意識する • 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない データ 正規化 検索
  • 26. Analytics Innovation Company ©2016 BrainPad Inc. 25 特徴量作成 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基礎集計で得たヒントを元に、特徴量を作成していく 一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく • データのスケーリング • 値の大小によって影響がある学習器がある • 予測する時点で知り得ない情報は入れてはいけない • 因果関係を意識する • 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない データ 正規化 検索
  • 27. Analytics Innovation Company ©2016 BrainPad Inc. 26 特徴量作成 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基礎集計で得たヒントを元に、特徴量を作成していく 一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく • データのスケーリング • 値の大小によって影響がある学習器がある • 予測する時点で知り得ない情報は入れてはいけない • 因果関係を意識する • 特徴量作成のときに、予測する時点で知り得ない情報は入れてはいけない (データ期間:1年) 特徴量として年間の売上や12月の気温等を入れると、 カンニングになり、正しい精度評価ができない 1月 6月 12月 学習データ期間:1月~10月 テストデータ期間
  • 28. Analytics Innovation Company ©2016 BrainPad Inc. 27 特徴量作成 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基礎集計で得たヒントを元に、特徴量を作成していく 一旦仮説ベースで作り、モデルに投入して結果を評価し改善していく • データのスケーリング • 値の大小によって影響がある学習器がある • 予測する時点で知り得ない情報は入れてはいけない • 因果関係を意識する 割引率 オペレーション 在庫をみて割引率を決めるため、割引率と目的変数(≒在庫)の相関は高い。 予測対象の翌日の割引率は、予測時点の在庫の情報を含んでいるため特徴量に入れてはいけない オーナーがその日の在庫の数を見て、次の日の割引率を決定しているケース 在庫 在庫割引率 因果関係 問題:在庫数予測 日付 在庫 割引率 1/1 20 0.1 1/2 50 0.3 1/3 100 0.5 1/4 70 0.4
  • 29. Analytics Innovation Company ©2016 BrainPad Inc. 28 モデリング 実施内容・ポイント プロセス 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 基本的には分析設計と特徴量作成ができていれば、実装のみ 学習データとテストデータのほかに、考察用のValidationデータを用意する • 学習器の特徴をよく理解して進める ランダムフォレストでの失敗例(詳細は理解できなくても大丈夫です) • 決定木よりも精度が上がらなかった • 特徴量の数は約1500個 • 目的変数の60%を説明できる変数が1つあった • Scikit-learnのデフォルトパラメータのまま学習させていた • デフォルトだと学習に使う特徴量は 特徴量数のため、39個程度 ⇒全体の2%の特徴量しか採用されない • 上記の強い特徴量が入っていない場合に精度が低く、弱いモデルが大量生成されていた アルゴリズムを理解せずに進めて高精度のモデルを構築するのはほぼ不可能
  • 30. Analytics Innovation Company ©2016 BrainPad Inc. 29 評価 実施内容・ポイント プロセス 基礎集計 分析設計 データ加工 データマート作成 統計的機械学習 モデリング データの 理解・準備 評価 評価指標を決定(分析設計フェーズで行う) • 何を重視して「よい分析」と定義するのかを決める • 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある • モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい) • 定性評価も重要(泥臭いけど) 図4.分類モデルにおける一般的な評価指標
  • 31. Analytics Innovation Company ©2016 BrainPad Inc. 30 評価 実施内容・ポイント プロセス 基礎集計 分析設計 データ加工 データマート作成 統計的機械学習 モデリング データの 理解・準備 評価 評価指標を決定(分析設計フェーズで行う) • 何を重視して「よい分析」と定義するのかを決める • 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある • モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい) • 定性評価も重要(泥臭いけど) False positiveとFalse negative、どちらが重要か? 例①:患者がガンか否かを予測するとき(ガンが負例) ⇒ガンと予測したけど本当は健康だった (FP) ⇒ガンじゃないと予測したけど本当はガンだった (FN) ← こっちの方がヤバイ 例②:人によるスパム判定のサポート(スパムが負例) ⇒スパムと予測したけど本当はスパムじゃなかった(FP) ← こっちの方がヤバイ ⇒スパムでないと予測したけど本当はスパムだった(FN) 人手チェックが入るので、間違えてスパムと言っても許容できるが、取りこぼしがあると困る
  • 32. Analytics Innovation Company ©2016 BrainPad Inc. 31 評価 実施内容・ポイント プロセス 基礎集計 分析設計 データ加工 データマート作成 統計的機械学習 モデリング データの 理解・準備 評価 評価指標を決定(分析設計フェーズで行う) • 何を重視して「よい分析」と定義するのかを決める • 評価指標の設計は重要。一般的な評価指標だけでは足りないケースがある • モデルの評価=ビジネス上の評価になることがベスト(これがなかなか難しい) • 定性評価も重要(泥臭いけど) 何故誤分類しているか?何故予測精度が上がらないのか? ⇒ 定量評価だけでなく、目でデータを見て傾向を探し、改善方針を立てることはとても重要
  • 33. Analytics Innovation Company ©2016 BrainPad Inc. 32 分析フローのうち 一つでも疎かにするとうまくいきません
  • 34. Analytics Innovation Company ©2016 BrainPad Inc. 33 おまけ • 初心者におすすめの学習法 • 過去のあるある話
  • 35. Analytics Innovation Company ©2016 BrainPad Inc. 34 初心者におすすめの学習法 企業や研究者がデータを投稿し、世界中の統計家やデータ分析家がその最適モデルを競い 合う、予測モデリング及び分析手法関連プラットフォーム及びその運営会社 (Wikipediaより) 1. 自分の興味のあるコンペを探してデータをダウンロード(あまりデータサイズ大きくないのがおすすめ) 2. 今日の資料にそって分析を進めてみる 3. サブミットする • 初心者には結構ハードル高いですが、データサイエンティストに近づくための大きな第一歩 • サブミットに至るまでは必要な知識・処理がたくさんあります • ツールは正直なんでもいいですが、私はPythonをおすすめします(Webにたくさん情報がある、機械学習パッケージも豊富) 「kaggleにサブミットする」
  • 36. Analytics Innovation Company ©2016 BrainPad Inc. 35 過去のあるある話 (1/2) 精度が出なくて困った クライアントに理解してもらうのに時間がかかった データが汚すぎた、足りなすぎた データが重すぎて困った
  • 37. Analytics Innovation Company ©2016 BrainPad Inc. 36 過去のあるある話 (1/2) 精度が出なくて困った クライアントに理解してもらうのに時間がかかった データが汚すぎた、足りなすぎた データが重すぎて困った
  • 38. Analytics Innovation Company ©2016 BrainPad Inc. 37 過去のあるある話 (2/2) 問題があったプロセス 問題 データの理解・確認 教師データに問題があった • 人が作った教師データの場合は注意(データの確認不足) データの分布に問題があった • 目的変数が酷く偏っていた(データの確認不足) 分析設計 解く問題と手法の相性が悪かった(経験不足) 評価 改善方針を立てて再度モデル構築するサイクルが回しづらく、効率が悪かった(評価指 標の設計ミス) 機械学習的評価指標を提示しても、結局サービスに落としたときにどの程度使えるのかわ からなかった。(サービス目線の不足) プロセス ヒアリング・ ビジネス理解 基礎集計 分析設計 特徴量作成 統計的機械学習 モデリング データの 理解・準備 評価 施策提言・システム開発 仮説通りに結果が出なかったり、予測精度が低いとき どのプロセスに問題があるのかを見極める必要がある
  • 39. Analytics Innovation Company ©2016 BrainPad Inc. 38 分析フローのうち 一つでも疎かにするとうまくいきません
  • 40. Analytics Innovation Company ©2016 BrainPad Inc. 39 ご清聴ありがとうございました
  • 41. Analytics Innovation Company ©2016 BrainPad Inc. 40 質疑応答タイム なんでもどうぞ
  • 42. 本資料は、未刊行文書として日本及び各国の著作権法に基づき保護されております。本資料には、株式会社ブレインパッド所有の特定情報が含まれており、 これら情報に基づく本資料の内容は、御社以外の第三者に開示されること、また、本資料を評価する以外の目的で、その一部または全文を複製、使用、公 開することは、禁止されています。また、株式会社ブレインパッドによる書面での許可なく、それら情報の一部または全文を使用または公開することは、いかなる 場合も禁じられております。 株式会社ブレインパッド 〒108-0071 東京都港区白金台3-2-10 白金台ビル3F TEL:03-6721-7002 FAX:03-6721-7010 www.brainpad.co.jp info@brainpad.co.jp Analytics Innovation Company