SlideShare a Scribd company logo
1
データ分析における最適な判断材料とは何か?
天野 大輔
@dicethekamikaze
2
Background:
•自然言語処理
•言語学
•心理言語学
•機械学習
•python
•ちょっと統計
株式会社DoBoken
∼クーポンを戦略的に∼
人間の購買行動、欲しいと思ったタイミング、
迷っているをリアルタイムに、集計、分析し、
買い物の後押しをしてあげるサービスを提供しています。
やってること:
毎日、データとにらめっこ。
!
最近の取り組み:
離脱予測 とか
3
データ分析における判断要所  例(失敗談)
1. UXを考える。
2. よしデータが貯まったぞ! 生データを見てみよう!!
3.CVしてるユーザーはページ毎の滞在時間が長い傾向にあるな!あと、使っているブラウザはIEが多いな!!
!
!
4.よし!これらを説明変数に入れてみよう!パターンマイニングだ!!機械学習だ!
4.5 …ノーマライズ、 テストデータ、トレーニングデータ。。。もろもろ
5.学習器できた∼!!
とあるデータ分析フロー
4
• さん!これと、これと、これを説明変数に使ってNaive Bayesで学習モデルつく
りました!! 精度は75%出てます!
• じゃあやってみようか!
• 結果!!!
• Accurary: 45% …. ぜんぜん結果でません。なんでかな∼。
• チューニング。。。。
• 説明変数の見直し!
• そもそも、滞在時間は説明変数として信頼性が高いのか?
• ブラウザ情報(IE)などは、たまたまであってこれも信頼できないのでは無い
か?
このプロセス、繰り返しに1週間以上かかる
これではPDCAをガンガン回すことができない
データ分析における判断要所  例(失敗談)
5
データ分析における押さえおくべき要所
1. UXを考える。
2.よしデータが貯まったぞ! 生データを見てみよう!!
3.CVしてるユーザーはページ毎の滞在時間が長い傾向にあるな!あと、使っているブラウザはIEが多いな!!
!
4.よし!これも説明変数に入れてみよう!パターンマイニングだ!!機械学習だ!
4.5 …ノーマライズ、 テストデータ、トレーニングデータ。。。もろもろ
5.結果!!
データ分析をするにあたり、重要な判断要所はたくさんある。
判断要所
判断要所
判断要所
判断要所
判断要所
判断要所
判断要所
判断要所
ではどこが一番じゅうようなのか?
6
1.UX
 - 仮説を証明する為のデータを考える。
2. 生データ
 - 何を証明したいのかを明確にする。
 - 可能であればベースラインの設定。
3. 変数の選別
- 統計的に優位ではない変数は使わない。
- クライアントにわかる変数を使用する。
  ※精度について。
- 1)ベースラインを設定する
- 2)過去の知見が無い場合はとにかくやる!!
       - 1∼2週間の早いサイクルで回す。

More Related Content

Similar to 35thwebmining_lt

アクセスデータ収集と解析
アクセスデータ収集と解析アクセスデータ収集と解析
アクセスデータ収集と解析
Yoichi Tomi
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
Preferred Networks
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
Matsushita Laboratory
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングYuya Unno
 
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AISappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
yasuhiro ishida
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
HiroyukiOtsubo
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Yuya Unno
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
Core Concept Technologies
 
一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編
Jin Hirokawa
 
データプランナーによるデータ系施策について
データプランナーによるデータ系施策についてデータプランナーによるデータ系施策について
データプランナーによるデータ系施策について
Recruit Lifestyle Co., Ltd.
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)Yuya Unno
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
Preferred Networks
 
Fringe81内定者研修2013 yコンベンチャー発表資料
Fringe81内定者研修2013 yコンベンチャー発表資料Fringe81内定者研修2013 yコンベンチャー発表資料
Fringe81内定者研修2013 yコンベンチャー発表資料Yuzuru Tanaka
 
「いい検索」を考える
「いい検索」を考える「いい検索」を考える
「いい検索」を考える
Shuryo Uchida
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
Shu (shoe116)
 
ソフトウェアジャパン2018 ITフォーラムセッション(6)
ソフトウェアジャパン2018 ITフォーラムセッション(6)ソフトウェアジャパン2018 ITフォーラムセッション(6)
ソフトウェアジャパン2018 ITフォーラムセッション(6)
aitc_jp
 
Watson summit 公開用
Watson summit 公開用Watson summit 公開用
Watson summit 公開用
Izumi Akiyama
 
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
Shinsaku Kono
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
Yoji Kiyota
 
ターゲット心理をつかむ、正しいユーザー調査・分析
ターゲット心理をつかむ、正しいユーザー調査・分析ターゲット心理をつかむ、正しいユーザー調査・分析
ターゲット心理をつかむ、正しいユーザー調査・分析
schoowebcampus
 

Similar to 35thwebmining_lt (20)

アクセスデータ収集と解析
アクセスデータ収集と解析アクセスデータ収集と解析
アクセスデータ収集と解析
 
大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理大規模データ時代に求められる自然言語処理
大規模データ時代に求められる自然言語処理
 
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
松下研究室紹介_関西大学高槻キャンパスオープンキャンパス
 
Jubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニングJubatusの紹介@第6回さくさくテキストマイニング
Jubatusの紹介@第6回さくさくテキストマイニング
 
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AISappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
SappoRoR#11 LT: Exploring the Potential of Survey Tools Using Generative AI
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
 
ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知ディープラーニングによる時系列データの異常検知
ディープラーニングによる時系列データの異常検知
 
一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編一年目がWatsonを調べてみた Discovery編
一年目がWatsonを調べてみた Discovery編
 
データプランナーによるデータ系施策について
データプランナーによるデータ系施策についてデータプランナーによるデータ系施策について
データプランナーによるデータ系施策について
 
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
 
bigdata2012nlp okanohara
bigdata2012nlp okanoharabigdata2012nlp okanohara
bigdata2012nlp okanohara
 
Fringe81内定者研修2013 yコンベンチャー発表資料
Fringe81内定者研修2013 yコンベンチャー発表資料Fringe81内定者研修2013 yコンベンチャー発表資料
Fringe81内定者研修2013 yコンベンチャー発表資料
 
「いい検索」を考える
「いい検索」を考える「いい検索」を考える
「いい検索」を考える
 
tokyo_webmining_no51
tokyo_webmining_no51tokyo_webmining_no51
tokyo_webmining_no51
 
ソフトウェアジャパン2018 ITフォーラムセッション(6)
ソフトウェアジャパン2018 ITフォーラムセッション(6)ソフトウェアジャパン2018 ITフォーラムセッション(6)
ソフトウェアジャパン2018 ITフォーラムセッション(6)
 
Watson summit 公開用
Watson summit 公開用Watson summit 公開用
Watson summit 公開用
 
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
Big Dataで価値を生み出すためのSmall Trial & Method (みんなのPython勉強会#42)
 
マイニング探検会#12
マイニング探検会#12マイニング探検会#12
マイニング探検会#12
 
ターゲット心理をつかむ、正しいユーザー調査・分析
ターゲット心理をつかむ、正しいユーザー調査・分析ターゲット心理をつかむ、正しいユーザー調査・分析
ターゲット心理をつかむ、正しいユーザー調査・分析
 

35thwebmining_lt