Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

京都大学鹿島研究室勉強会資料-配布用-

1,928 views

Published on

7/17に実施した京都大学での勉強会資料です。

Published in: Data & Analytics
  • Be the first to comment

京都大学鹿島研究室勉強会資料-配布用-

  1. 1. 株式会社電通 統合データ・ソリューションセンター データサイエンティスト 近藤康一朗 1 京都大学 鹿島研究室 公開セミナー資料 データを価値化する解析プロセスの俯瞰と効率化
  2. 2. スピーカー紹介 2 近藤康一朗 株式会社電通 統合データ・ソリューションセンター データサイエンティスト 愛知出身、洛南高校→東大工学部→東大工学系研究科 2010年~2011年 :電通入社、デジタル・ビジネス局配属 社のトップクライアントのデジタル施策PDCA、 分析ツール開発・運用(Ignition One)を担当。 2012年 :社内試験によりクリエーティブ局配属 コピーライター・CMプランナーを担当。 テレビ・ラジオ広告賞を複数受賞。 2013年~:統合データ・ソリューションセンターに再配属 チーフアナリストとして、広告コンサルティング DMP導入・運用を推進。
  3. 3. データ分析サバイバル術 60分 + 分析家のキャリア論 30分 3 本日のテーマ
  4. 4. 4 最近注目を集めている「ビジュアライゼーション」「機械学習」は 大量の情報を「人間が使いやすい形に圧縮する」技術。 近年のトレンド:ビッグデータの山から価値を創出する 複雑且つ多量のデータ ビジュアライゼーション 機械学習 情報量を圧縮し 人間の認知しやすい形に落とす 情報量を圧縮し シンプルなパターン/法則に落とす
  5. 5. 一般的な分析の流れ データ分析の大きな流れを整理。要件定義~ビジュアライズまで60分で説明します。 今日伝えたいことは、スキルではなく、”アウトプットの出し方”です。 (※資料は公開するので、後でカタログ的に周辺領域を見直して頂くと学びも多いです) 要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ ・リサーチ ・課題抽出 ・前提条件確認 -時間 -金額 -データ -インフラ ・ダウンロード ・API ・スクレイピング ・データ統合 ・修正 ・RDBM化 タ ス ク 必 要 ス キ ル ・ 技 能 ・単純集計 ・クロス集計 ・統計解析 ・機械学習 ・表化 ・グラフ化 ・ダッシュボード化 ・コンサルティング ・プロジェクトマネジメ ント ・業界知見 ・ビジネス知見 (会計、その他) ・クローリング ・HTML/FTP等のサー バーインフラ系知識 ・データ加工のプログ ラミング ・データベース設計 ・SQL系のデータベー ス ・R、SAS系の予測分 析、機械学習系のプロ グラミング ・PowerPointでのプレ ゼン ・Tableau系のダッシュ ボードツール 時 間 3日~1週間 25% 1日~2日 10% 3日~1週間 25% 1日~1週間 20% 1日~1週間 20% 5
  6. 6. 本日のケース 今回は国立情報学研究所のダウンロードサービスにより株式会社ドワンゴから 提供を受けた「ニコニコ動画コメント等データ」を使います。 要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ ・リサーチ ・課題抽出 ・前提条件確認 -時間 -金額 -データ -インフラ ・ダウンロード ・API ・スクレイピング ・データ統合 ・修正 ・RDBM化 タ ス ク ・分析設計 ・単純集計 ・クロス集計 ・統計解析 ・機械学習 ・表化 ・グラフ化 ・ダッシュボード化 ・メッセージング 本 日 の 内 容 皆さんに わかりやすく 楽しいデータ ”分析例”を提供 wget一撃 json⇒SQL Python UNIXによる加工 SQLによる集計 とサンプリング Pentaho集計 Rによる解析 Tableauで可視化 ダッシュボード化 所 要 時 間 1日 30分 1時間 1日~3日 4時間 6
  7. 7. 分析用 データ 本日の分析フロー全体像 7 データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・デ ー タ 圧 縮 集計・単純分析 ビジュアリゼーション モデル化・解析 ダッシュボード化
  8. 8. 1.データ収集~分析用データの作成まで 8 分析用 データ データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・ デ ー タ 圧 縮 集計・ 単純分析 ビジュ アリ ゼーショ ン モデル化・ 解析 ダッ シュ ボード 化 下ごしらえ
  9. 9. 今回の利用データについて http://www.nii.ac.jp/cscenter/idr/nico/nico.html 国立情報学研究所が公開している「ニコニコ動画コメント等データ」を使います。 ニコニコ動画コメント等データ -動画メタデータ 【理由】 ・無料/使いやすい ・実サービスで、結果の解釈がしやすい ・時系列、テキストマイニング等、 あらゆるものをはめられる。 ・大きさもそこそこ(12GBくらい) ・ブログ書いてます (http://d.hatena.ne.jp/monnalisasmile/) 9
  10. 10. データ収集:スクレイピング wgetで一撃必殺。(-rオプションで、全てのリンク先を繰り返しdownload) wget –r example.com ≪格納先≫ 参考URL:http://girigiribauer.com/archives/925 【wgetコマンドをクローラーとして使う】 wget --recursive --level inf --no-clobber --random-wait --restrict-file-names=windows --convert-links --no-parent --adjust-extension example.com 10
  11. 11. 11 野生の解析屋さんがいっぱい。 Deep Learningはほぼ使わないです。 Boostingの方がメジャー。 解析したい、でもデータがない・・・! Kaggleは企業や研究者がデータを投稿し、世界中 の統計家やデータ分析家がその最適モデルを競い 合う、予測モデリング及び分析手法関連プラット フォーム及びその運営会社。 情報科学、統計学、経済学、数学などの分野から全 世界で約95,000人のデータサイエンティストが登録 しており[3]、同社はアメリカ航空宇宙局、ウィキペ ディア、デロイト トウシュ トーマツ、オールステート 保険等の組織と提携している。(wikipedia) 自習用
  12. 12. wget後、データサイズと形式の確認 動画メタデータ(video)を利用。 データサイズ12.87GB、約1900個のdatファイル。 12
  13. 13. 生データ確認:datファイル内の形式 datファイルの中身はjson形式。 Pythonの組み込み型の一つである辞書(ディクショナリ)と同じ形式。 じゃ、Pythonで処理して、扱いやすいSQL形式に変えてしまおう。 13
  14. 14. Python→SQLでRDB化 Dictionary処理をPythonコードで書いてみる。Tagの扱いに注意。(_でくっつけた) SQLiteにデータを格納。自分の扱いやすいデータ形式への加工をしてみます。 14
  15. 15. SQLiteの設定 .showでSQLiteの設定を確認します。 デフォルトでseparator(区切り文字)が”|”になっていたり、癖があるので注意。 【各設定の説明】 Headers:カラム名の出力有無 ⇒ON Output:画面出力orファイル出力 ⇒.output ファイル名で、ファイル出力 separator:区切り文字の説明 ⇒.separator ,でカンマ区切り 旧設定 設定変更 新設定 15
  16. 16. 【自習教材】 初心者向けSQL文の勉強 ①基礎を学ぶ②やりたいことから逆算で学ぶ③体系的な学習の順でやってみる。 http://www.sql-reference.com/ ②やりたいことから逆算 ③体系的に学習 http://www.1keydata.com/jp/sql/ ①クエリの読み方/書き方 16 自習用
  17. 17. 17 【自習教材】 中上級者向けSQL文の勉強 SQLは、プログラミング言語として、かなり特殊。 「書き方」のお作法を間違えると、ものすごく効率の悪い(時間のかかる)クエリになる。 【知っておいた方が良い概念】 1.SELECTで列選択、WHEREで行選択 2.INDEXの張り方、容量とのトレードオフ WHEREでの条件指定にも依存。 3.場合分けはWHEREではなくCASE WHEN 4.HAVINGは、可視性以外の用途なし。 FROM内にSELECTを入れるのと同じ。 5.INNER JOINを活用しまくる。 横連結+行フィルターの同時施行。 【中級者以上におすすめの書籍】 ・SQLパズル ・達人に学ぶSQL徹底指南書 自習用
  18. 18. SQLiteにてデータ構造を確認 【各カラムの説明】 video_id:ビデオのID番号 Title:ビデオのタイトル view_counter:再生数 mylist_counter:マイリスト数 Length:動画の長さ(秒) comment_counter:コメント数 upload_time:アップロードした時間 Tags:タグ(複数の場合、”_”で接続。 データ構造の確認 .schema 実際のデータ select * from table limit 10 18 .schemaで流し込んだデータのデータ構造を確認します。
  19. 19. SQL_Liteにて単純集計 動画数&再生数&コメント数&マイリスト数を集計。 約830万動画の平均、最大値を下記に集約。 単純集計で肌感を掴んでおくのは意外と大事。(異常値に対する感性が出てくる) 再生数 コメント数 マイリスト数 コメント率 マイリスト率 平均 4174.7 297.7 67.76 7.1% 1.6% 最大 15,454,295 517,528 65,535 (※) (※) Select avg(view_count),avg(xxxx),・・・ from yyyy; 19
  20. 20. 分析設計と分析用データ再作成 20 分析用 データ データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・ デ ー タ 圧 縮 集計・ 単純分析 ビジュ アリ ゼーショ ン モデル化・ 解析 ダッ シュ ボード 化 献立立案・料理
  21. 21. どんな分析をしたら面白い(意味がある)データなのか考えてみる どの時間帯に動画が多くアップロードされているの? どのカテゴリの動画がお気に入り率が高いの? 最近動画アップロード数は増えてる?減ってるの? 動画時間と再生数、コメント数との相関はあるの? 一番動画が見られるのはアップロードしてからどれ位なの? 各カテゴリの動画数はどれだけ? 再生数トップ5の動画は? ボーカロイドやっぱり流行ってるの? どの時間帯に一番再生されているの? 21
  22. 22. 分析の切り口=アイディア 22 分析の基本は「まとめる/分ける」「新指標を作る」「比較する」。 この3つをヒントに、意思決定につながりやすいアウトプットの切り口を練る。 ①まとめる/分ける -MECE、ペア思考、フレームワーク -ターゲットと「それ以外」 A = B + B’ ②新指標を作る -因数分解をしてみる(率の開発) -四則演算をしてみる C = B/A ③比較する -時系列での比較(変化) -属性毎での対比 A > B
  23. 23. 【自習】アイディアを出しやすい分析フレームを盗む コンサルタント等の書籍から「自分が使いやすい」分析フレームをくみ上げる。 参考書籍:意思決定のための「分析の技術」 後正武著 分析の体系 23 自習用
  24. 24. 時系列の分析用データを作る(Pentaho) 動画毎の集計データを日×時間帯別のデータへ集計&加工 加工前は動画毎のデータ 加工後は日付×時間帯別に集計されたデータに 24
  25. 25. Pentaho等のデータ加工ツールのメリット 一度設定を行えば、再生ボタンを押すだけで、それ以降の処理が全て自動化される。 「定期的に発生する同じ作業」や「コードを書けない人によるデータ加工処理」に適切。 25 再生ボタン
  26. 26. データクレンジング by UNIX タイトルやタグ内に区切り文字が入っていると、pentahoが列を分けてしまう。 列のズレを避けるために、export後にデータのクレンジングを行う必要がある。 ①SQL内で区切り文字をxxyyzzのような「タイトルやタグに含まれなさそうな文字」に変換。 ②一度sqliteからexportして、UNIXのsedコマンドにて”,”を”_”に変換する。 (希望区切り文字を消す) ③”xxyyzz”をsedで”,”に変換。(希望区切り文字に変換) ④もう一度SQLに入れ直す。 区切り文字をSqlite3上でxxyyzzへ変換 Sedコマンドによる置換 26
  27. 27. 【自習】 UNIXによるテキストファイル加工 UNIXによるデータ加工の良さは、①速い②カンタン③安い(タダ)。 Awkの1linerでいろんな加工を解決するヒトは、現場で超重宝します。 http://orangain.hatenablog.com/entry/20100916/1284631280 テキスト加工のイメージ学習 ・cat:縦結合 ・paste/join:横結合 ・head:行頭x行だけ抜く ・grep:条件による行抽出 ・cut:列抽出 ・sed:置換 ・sort:並び変え、uniqの前処理 ・uniq:ユニーク化 ・wc:行数を数える(答え併せ用) ・nkf:エンコーディング(要インスト) ・awk:スクリプト言語 便利なUNIXコマンド一覧 UNIXコマンド の基礎学習 27 自習用
  28. 28. 分析:アップロードの時間帯、曜日傾向は? やはり深夜が多く、休日は12時、13時からアップロードが増える。 朝方のアップロードが一番少なく、21時~0時が最もアップロードが多い。 28 曜日 時 間 帯
  29. 29. 簡易データビジュアリゼーション 29 分析用 データ データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・ デ ー タ 圧 縮 集計・ 単純分析 ビジュ アリ ゼーショ ン モデル化・ 解析 ダッ シュ ボード 化 盛り付け・飾り付け
  30. 30. メッセージが決まると、「わかりやすい表現」が決まる ビジュアリゼーションによって「わかりやすさ」を向上させるためには、 そもそも「何をわかってほしいのか=メッセージ」を考える必要がある。 30 曜日 時 間 帯 ?
  31. 31. わかって欲しいことの整理 31 時間と曜日のアップロード傾向を一目で理解してほしい。 その際に下記ファクトが、ビジュアルで確認出来ることが条件となる。 【わかってほしいこと】 ①深夜帯のアップロードが多い ②平日に比べ、休日が多い ③日曜は、昼からアップロードが増え始める ④朝方のアップロードは少ない
  32. 32. 改善①要素を加える 32 色の濃淡を付けることで、濃いところが多く、薄いところが少ないとわかる。 でも、これはまだ「直観的な理解」を促すに至らない。
  33. 33. 改善②要素を抜く 33 「深夜が多い」「休日は昼からアップロードが増える」「朝方が少ない」 これらの事実を一番わかりやすく示すために、要素をどんどん減らし、複雑さを排除。
  34. 34. わかりやすさを兎に角突き詰める 34 色を変えたり、粒度を変えたりしながら、わかってほしいことと見比べる。 多少 【わかってほしいこと】 ①夜のアップロードが多い ②平日に比べ、休日が多い ③日曜は、昼からアップロードが増え始める ④朝方のアップロードは少ない
  35. 35. アウトプットから、アクションを導き出す 35 ここ最近は分析担当に「エグゼキューション」も任されることが多い。 【アウトプット】 ①深夜帯のアップロードが多い ②平日に比べ、休日が多い ③日曜は、昼からアップロードが増え始める ④朝方のアップロードは少ない ⇒深夜帯のアップロードは朝方のx倍である。 【アクション】 アップロード量をモデル化し、サーバー許容量等を予測。 違法動画等の監視員の時間帯別最適配置数を予測
  36. 36. 目的に応じて、データの見せ方を変える 36 左脳的な ビジュアライゼーション わかりやすい 示唆に富む “意思決定”を導く データをメッセージに加工する 余計な部分を切り捨てる キレイ カッコいい “感動”を導く データに潜むストーリーを掘り出す データの持つ表現力を最大化する 右脳的な ビジュアライゼーション
  37. 37. ダッシュボードデザイン 37 分析用 データ データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・ デ ー タ 圧 縮 集計・ 単純分析 ビジュ アリ ゼーショ ン モデル化・ 解析 ダッ シュ ボード 化
  38. 38. 【ツール紹介】Tableauとは? 38
  39. 39. 【ツール紹介】Excelに代わる分析プラットフォーム 39
  40. 40. ダッシュボード構築(再生数10,000以上の動画のみ) 実際に、データを少し絞り込んで、ダッシュボードを構築してみました。 本日のまとめ俯瞰ダッシュボード 本日のまとめ分布ダッシュボード カテゴリ毎の動画特性を俯瞰 各カテゴリのトレンド、コメント、マイリスト等の反応 人気動画ランキング 動画特性に加えて、更に詳細な属性を分析 KWを含む動画の分布、ニコニコカテゴリによる属性分析 アップロード時間、流行し始めた時間 40
  41. 41. 俯瞰ダッシュボードの説明 カテゴリ毎の動画数シェア ランキング 41 時 系 列 推 移 フィルタリング状況 動画の 分数分布
  42. 42. キーワードダッシュボードの説明 42 分析設定入力 任 意 軸 で の 散 布 図 動 画 カ テ ゴ リ の 内 訳 動画の盛り上がったタイミング 動 画 が ア ッ プ ロ ー ド さ れ た 時 間 帯
  43. 43. 【自習用】ダッシュボードの作り方を学ぶ際の教材 書籍による学習 普段の情報収集 Occam’s Razor by Avinash Kaushik http://www.kaushik.net/avinash/ The information Lab http://www.theinformationlab.co.uk/ The Datographer http://datographer.blogspot.jp/ サイエンスメディアな日々、インフォグラフィックな日々 http://scivis.hateblo.jp/ ノウハウ例:Stephen Few on Data Visualization: 8 Core Principles 1. シンプルなダッシュボードを作ろう。19個以上の要素はいらない。 2. センセーショナルな”比較”を入れよう。詳細なんて覚えられない。 3. よりデータにアクセスしやすい環境を提供しよう 4. ただ、見ること、それだけで何かが発見出来るようにしよう 5. 多様性が確認出来るような包括的なものを作ろう 6. 何が起きたかよりも何故起きたかを考えよう 7. 懐疑的になって、色んな質問を繰り返そう 8. データを様々な場所にシェアしよう 43 自習用
  44. 44. 【参考】ダッシュボードに関する過去の議論 参考【第38回Tokyo webmining資料LT20140726用】 http://www.slideshare.net/koichirokondo/tokyo-webmining20140726 44 自習用 誰に見せるか?どんなアクションを促すかが極めて重要。
  45. 45. モデル化・解析・機械学習 45 分析用 データ データ 収集 データ 加工 分析用 データ 分析用 データ ク レ ン ジ ン グ ・ デ ー タ 圧 縮 集計・ 単純分析 ビジュ アリ ゼーショ ン モデル化・ 解析 ダッ シュ ボード 化
  46. 46. 摩耗分析:動画アップロード後、どれ位がホットなの? 再生数/アップロード経過日数により、日あたりの再生数をプロット。 アップされた動画への依存は強いが、初速に対し、2日目~4日目で6割、 1週間経つと4割程度の再生数に落ち込むことがわかる。 経過日数 ※正確にアップロード経過日数の再生数を記録しているわけではなく、 ある時点でのアップロードから3日経過した動画の平均値を出している。 46
  47. 47. 【参考】ニーズに「ぴったり」のデータが存在しない時 本来、摩耗分析を行うには、日別の各動画の再生数、コメント数等のデータが欲しい。 だが、今回のように「ぴったり」のデータはなかなか存在しない。 その際は「厳密には異なる」ことを意識しつつ、代わりに使えるデータがないか検証する。 47 動画タイトル 日付 再生数 AAAAAAA 2014/9/20 8,241 AAAAAAA 2014/9/21 6,125 AAAAAAA 2014/9/22 5,391 AAAAAAA 2014/9/23 531 AAAAAAA 2014/9/24 4,399 AAAAAAA 2014/9/25 3,123 AAAAAAA 2014/9/26 4,574 BBBBBBB 2014/9/14 3,715 BBBBBBB 2014/9/15 2,717 BBBBBBB 2014/9/16 8,460 BBBBBBB 2014/9/17 2,454 BBBBBBB 2014/9/18 1,982 BBBBBBB 2014/9/19 2,092 BBBBBBB 2014/9/20 7,444 BBBBBBB 2014/9/21 3,663 BBBBBBB 2014/9/22 4,246 BBBBBBB 2014/9/23 5,155 BBBBBBB 2014/9/24 9,400 BBBBBBB 2014/9/25 9,163 BBBBBBB 2014/9/26 1,855 本当に欲しいデータ 実際にあるデータ 動画タイトル アップロード日付 再生数 経過期間 AAAAAAA 2014/8/20 9,642 42 BBBBBBBB 2014/7/11 1,252 82 CCCCCCCC 2014/6/1 3,532 122 DDDDDDDD 2014/5/22 1,576 132 EEEEEEEEEE 2014/5/12 7,681 142 DF 2014/2/1 9,555 242 asdjhgtagaqg 2013/10/24 3,804 342 sgajghjahgah 2013/11/13 5,270 322 gdahdjkgahlgal 2013/12/3 3,669 302 ajsghjasdhgaklg 2013/8/25 1,437 402 sghajhjehahg 2013/7/16 7,166 442 aghajhgahjkerga 2013/6/6 8,006 482 egahjghaehgajkl 2013/7/27 8,983 431 gajseghjahjlghaj 2013/9/16 557 380 gnasjgjhdfakh@ 2013/11/6 9,941 329 nlghakjhiarh; 2013/12/27 1,282 278 algjoiwheghal 2012/11/18 4,090 682 gnalkgh;aoeugp 2011/10/11 2,327 1,086 gnklanhgheoha 2012/8/30 1,341 762 gnklao;ho;gweh 2013/7/20 5,367 438 アップロードからの経過日数を疑似的に摩耗期間と捉 えられないだろうか?
  48. 48. Excelの回帰で単純なモデル化を行ってみる モデル式は415.55×経過日数^*-0.666、R^2=0.9161 Rで分析する場合に更に精度の高いモデルを作れるのか。 y = 415.55x-0.666 R² = 0.9161 0 100 200 300 400 500 600 700 800 0 200 400 600 800 1000 1200 1400 1600 view_count Power (view_count) 48
  49. 49. 【教材】理論学習のお勧め書籍 固いが、基本につい ては一番しっかり書 いてある。 いや、使ってみて決 めるわというヒトに。 知識俯瞰にも有効。 データサイエンスを 一番よく俯瞰してい る。ここから各専門 書へ。 久保さんが神。 最小二乗法⇒尤 度推定⇒階層ベ イズの説明の流 れは神です。 49 自習用
  50. 50. 【教材】 Rのお勧め書籍 Rの学習をしながら 統計の勉強も出来る おトクな一冊 様々なデータセットを 使って実際に勉強でき る。米系データセットが 多いので、分析結果に ピンとこないものも。 会話形式で進むわかりや すい入門書。取り敢えずR で色々な分析回したい人 にはうってつけの書籍。 50 自習用
  51. 51. Levernberg-Marquardt法による非線形回帰(1) Nls.lm関数を使って減衰系のモデルを求めてみる。モデル式は下記の通り。 nls(非線形回帰)の関数は初期値を求めてくるので、局所解等から初期値を設定。 コードはGithubにあげておきます。 モデル式:view_count=a+b*date^c⇒パラメータa,b,cを推定 参考:「でたぁっ 感動と失敗の備忘録」 佐藤さんのブログhttp://deta.hateblo.jp/entry/2014/05/08/052916 > source('~/Desktop/R/decrease_model.R') It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566 It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096 It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378 It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528 It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525 51 R^2=0.9849772> 0.9161 (Excel)
  52. 52. 0.0% 20.0% 40.0% 60.0% 80.0% 100.0% 120.0% 0 5 10 15 20 25 30 35 view_count predictionR prediction_xls Levernberg-Marquardt法による非線形回帰(1) エクセル回帰よりもRの方が精緻に最初の10日間の動きを表現出来ている。 モデルでは、2日目で初速再生数の6割、1週間で25%、1ヵ月で8.5%に摩耗する。 アップロードからの経過日数 初 速 に 対 す る 摩 耗 率 1日あたりの再生数摩耗状況 52
  53. 53. パラメーター数を一つ増やしたことによるペナルティ 当てはまりはよくなるものの、パラメーター数も2つから3つへと増えている。 モデルを精緻に評価するために、モデルの複雑さと当てはまりの両方を考慮した AIC(赤池情報規準:大きくなるほど悪いモデル)でモデルを選択する。 53 Y = a + b*x^cモデル AIC:2401.326 Y = b*x^cモデル AIC:2431.819 当てはまりの良さ パラメーター数によるペナルティ
  54. 54. 「役立つ」アウトプットにするために「アクション」を入れる② 54 【アウトプットから得られる知見】 2日で初速の6割、1週間で25%に再生数は落ちる。 その後、1カ月で8.5%に落ちる 【アクション】 もしも動画に誘導枠を貼るなら、1カ月経ってからの方が良い。 【さらなる深掘り分析】 カテゴリ別に摩耗の「しやすい」「しにくい」の傾向はないか?
  55. 55. 55 機械学習によるアウトプット SVM Random Forest Decision Tree Bagging Clustering Deep Learning Linear Regression ERM algorithm Multi Dimensional Scaling Neural Networks Association Analysis Bayesian Network Boosting 手法の名前は山ほど聞くけれど、どうやって正しくそれを使うのか?
  56. 56. 56 機械学習/統計解析における価値創出 シンプルなアウトプット 超複雑なインプットデータ(可視化しても謎) 機械学習/統計解析(情報の単純化/法則化) 今後を予測できる モデル式 よい/悪い パターン 何らかの 相性/法則
  57. 57. 機械学習が普及した背景 57 Input/ Storage Modeling/S peed Execution データの拡充 マシン性能の向上 施策出口の拡充 IoT、センサーデータの増加 ストレージ単価の減少 データ処理の高速化 ライブラリ/オープン化 One to Oneマーケティング Operating Automation
  58. 58. コモディティ化する機械学習 58 計算量でこれまでの匠の技を 全てカバーしていく世界観 超高単価&難解な「専門家の趣味」から、「汎用技術」へと進化している 破壊的アルゴリズム パッケージング化 決定木→Random Forestのパラダイム クラウドサービス、ストレージなど 他サービスへの統合、合わせ売り Amazon Machine Learning 【引用】AWSブログhttp://aws.typepad.com/aws_japan/2015/04/amazon-machine-learning.html
  59. 59. データがあるから機械学習、ではなく解決したい課題を解く。 59 欲しいアウトプットの想定 解決したい課題 機械学習/統計解析 設計されたインプットデータ あるべき姿 よくわからないままの 機械学習 何かしらのビッグデータ(笑) (汚い、バイアスあり) 解決されない課題 さらにわからない アウトプット よくある姿
  60. 60. データ・サイエンティスト キャリア論 60
  61. 61. 学生時代の専攻:技術経営(MOT) 61 研究テーマ:「テクノロジーの進展が、経営行動に与える影響の定量化」 同期は、コンサルとか、商社、代理店などクライアントワークをする人が多い。
  62. 62. データサイエンティストって? 62 人材需要がこれから爆発的に伸びるのに対し、供給が追い付かない、 21世紀、最もセクシー(おいしい)職業だと言われています。
  63. 63. デジタルメディアの成長=マーケティングデータの拡大 63 特にデジタルはローコスト、リアルタイムでデータが集まる世界 どのサイトに 訪れているか どんな呟きを しているか Amazonで 何を買ったか どの広告に 反応したか 性別・年代 お得意様? 初めて? どのサイトに よく行くのか
  64. 64. コミュニケーションにおける活用例 64 データに基づいてインサイトを推定し、コミュニケーションを設計する 車種検討期 購入検討期 ①価格訴求 ②オプション訴求 買い替え検討期 ③アフターサービス訴求 買い替えは〇○○で! 今だけキャンペーン中! for家族持ち for独身 forアウトドア ≪ターゲットを見つける≫ 車を買って何年目か 例:車購入後8年目 ≪相手の好みに合わせる≫ 他に見ているサイトは? 例:アウトドアサイト 閲覧履歴 ≪最後の一押し≫ 年収・オプション履歴 例:第三者データ 顧客データ
  65. 65. 広告界の「呪い」の解消 65
  66. 66. 成長に事欠かない環境 66 ・線形代数学や微積分の基礎知識があり、論文も一通り読める ・AWS等のクラウドサービスをコントロールできる ・SQL, UNIX等でデータのクレンジングや整形ができる ・Python, R, SAS, SPSSなどで統計解析、機械学習を回せる ・Tableau等のBIツールでダッシュボードの構築が出来る ・メッセージが明確なプレゼンテーションが可能である ・解析、広告配信ツールのエグゼキューションが出来る ・制作チームに対し、クリエーティブ開発/指示が出来る ・様々なベンダーに対し、リーダーシップを取れる ・アドテクノロジーに精通し、適切なロードマップが描ける 私が会社に入って身に着けたスキル
  67. 67. 67 代理店のデータサイエンティスト=データから宝を探す 好奇心 論理的思考 粘り強さ
  68. 68. ご清聴ありがとうございました。 68 おわり
  69. 69. APPENDIX 69
  70. 70. 【参考】JSON形式について[JavaScript Object Notation] JSON(ジェイソン、JavaScript Object Notation)は軽量なデータ記述言語の1つである。 様々なソフトウェアやプログラミング言語間におけるデータの受け渡しに使えるよう設計されている。(wikipedia) ⇒今やWEB上でデータベース化されている情報の多くがjson形式を取っている ⇒ネスト構造も可能 ⇒そのままではRDBMSに入らない http://thinkit.co.jp/article/70/1/ 70
  71. 71. 【参考】Dashboard構築前に考えるべきコト ビジュアライズ 対象データ 処理&分析 ・スケーラビリティ ・リアルタイム性 (更新頻度) ・クレンジング有無 ・分析インフラ ・集計インフラ ・DB、データマート化? ビジュアライズプロジェクト運用における検討ポイント ビジュアライズプロジェクト開始における検討ポイント ・誰が何を確認するためのビジュアライズなのか?(ビジュアライズ大方針) -目的(Purpose)は何か? -閲覧者、意思決定者(Target)は誰か? ⇒例:外部要因・内部要因から、明日の売上を予測するダッシュボード? お客様の属性別に購買行動を可視化するためのダッシュボード? ・いつ、どこで、どのように確認するのか? (ビジュアライズのディティール) -どのデバイス(where)で確認するのか?⇒スマホ?PC?スクリーン? -どのくらいの頻度(when)で確認するのか?⇒毎日?週次?月次? -どのようなオケージョン(How)で確認するのか?⇒会議?朝の電車? デザイン ・ツール ・デバイス ・インタラクションの増減 組織共有 ・オンライン ・アプリケーション ・メール ・紙 選 択 オ プ シ ョ ン 評 価 ポ イ ン ト ・属性データ ・トランザクションデータ ・ウェブログ等 ・速度 ・高度分析の有無 ・デザインツールとの連携 ・見やすさ/わかりやすさ ・包括性 ・情報量とメッセージング ・深掘りの可否 ・アクション誘引 ・アベイラビリティ ・意思決定者のリテラシー 71
  72. 72. 【参考】近似値分析:ジャンル別の動画摩耗分析 動画摩耗分析を動画ジャンル別に分析すると、政治やアニメといった 「生放送」要素のあるものはかなり摩耗率が高い。 比べて、ゲームや御三家、音楽等は繰り返し見られるため、摩耗率は低い。 ただし、カテゴリ別に分けると、個々の動画の成績が影響してしまい、正確性に欠ける可能性が高い。 経過日数 摩耗率少ない 摩耗率少ない 摩耗率高い 摩耗率超高い 摩耗率高い 摩耗率普通 摩耗率普通 摩耗率少ない 摩耗率少ない 摩耗率少ない 72
  73. 73. ダッシュボードって? 【ダッシュボードの定義】 1.A dashboard is a visual display(ディスプレイ上のビジュアル) of 2.the most important information needed to achieve one or more objectives (目標を達成するための最も大切な情報を集約している) that has been 3.consolidated on a single computer screen(一つのスクリーンで見ることが出来る) so it can be 4.monitored at a glance(一目で確認が出来る) 73
  74. 74. 【参考】為替推移ダッシュボード 任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。 対象期間の設定 対象通貨の設定 74
  75. 75. 【参考】為替推移ダッシュボード 任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。 対象期間の設定 対象通貨の設定 75
  76. 76. 俯瞰ダッシュボードの改善(Before) 色が少ない文字が多い、文字の説明がいい加減、文字割れしている、回帰線いらない 76
  77. 77. 俯瞰ダッシュボードの改善(After) 何がどこにあるのかわかる、タイトルが見やすい、色もわかりやすい。 77
  78. 78. 分布ダッシュボードの改善(Before) 色を使い過ぎ、動画の分類の定義がわからない、時間分布と動画分類で同じ色が使われる 数字がほとんど隠れている、百分率某チャートが多すぎる、散布図の○が汚い 78
  79. 79. 分布ダッシュボードの改善(After) 79 散布図はカテゴリの絞り方に依存するものの、書かれている項目はシンプルでわかりやすい。

×