SlideShare a Scribd company logo
株式会社電通
統合データ・ソリューションセンター
データサイエンティスト
近藤康一朗
1
京都大学 鹿島研究室 公開セミナー資料
データを価値化する解析プロセスの俯瞰と効率化
スピーカー紹介
2
近藤康一朗
株式会社電通
統合データ・ソリューションセンター
データサイエンティスト
愛知出身、洛南高校→東大工学部→東大工学系研究科
2010年~2011年
:電通入社、デジタル・ビジネス局配属
社のトップクライアントのデジタル施策PDCA、
分析ツール開発・運用(Ignition One)を担当。
2012年 :社内試験によりクリエーティブ局配属
コピーライター・CMプランナーを担当。
テレビ・ラジオ広告賞を複数受賞。
2013年~:統合データ・ソリューションセンターに再配属
チーフアナリストとして、広告コンサルティング
DMP導入・運用を推進。
データ分析サバイバル術
60分
+
分析家のキャリア論
30分
3
本日のテーマ
4
最近注目を集めている「ビジュアライゼーション」「機械学習」は
大量の情報を「人間が使いやすい形に圧縮する」技術。
近年のトレンド:ビッグデータの山から価値を創出する
複雑且つ多量のデータ
ビジュアライゼーション 機械学習
情報量を圧縮し
人間の認知しやすい形に落とす
情報量を圧縮し
シンプルなパターン/法則に落とす
一般的な分析の流れ
データ分析の大きな流れを整理。要件定義~ビジュアライズまで60分で説明します。
今日伝えたいことは、スキルではなく、”アウトプットの出し方”です。
(※資料は公開するので、後でカタログ的に周辺領域を見直して頂くと学びも多いです)
要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ
・リサーチ
・課題抽出
・前提条件確認
-時間
-金額
-データ
-インフラ
・ダウンロード
・API
・スクレイピング
・データ統合
・修正
・RDBM化
タ
ス
ク
必
要
ス
キ
ル
・
技
能
・単純集計
・クロス集計
・統計解析
・機械学習
・表化
・グラフ化
・ダッシュボード化
・コンサルティング
・プロジェクトマネジメ
ント
・業界知見
・ビジネス知見
(会計、その他)
・クローリング
・HTML/FTP等のサー
バーインフラ系知識
・データ加工のプログ
ラミング
・データベース設計
・SQL系のデータベー
ス
・R、SAS系の予測分
析、機械学習系のプロ
グラミング
・PowerPointでのプレ
ゼン
・Tableau系のダッシュ
ボードツール
時
間
3日~1週間
25%
1日~2日
10%
3日~1週間
25%
1日~1週間
20%
1日~1週間
20%
5
本日のケース
今回は国立情報学研究所のダウンロードサービスにより株式会社ドワンゴから
提供を受けた「ニコニコ動画コメント等データ」を使います。
要件定義 データ収集 クレンジング・加工 集計・分析 ビジュアライズ
・リサーチ
・課題抽出
・前提条件確認
-時間
-金額
-データ
-インフラ
・ダウンロード
・API
・スクレイピング
・データ統合
・修正
・RDBM化
タ
ス
ク
・分析設計
・単純集計
・クロス集計
・統計解析
・機械学習
・表化
・グラフ化
・ダッシュボード化
・メッセージング
本
日
の
内
容
皆さんに
わかりやすく
楽しいデータ
”分析例”を提供
wget一撃
json⇒SQL
Python
UNIXによる加工
SQLによる集計
とサンプリング
Pentaho集計
Rによる解析
Tableauで可視化
ダッシュボード化
所
要
時
間
1日 30分 1時間 1日~3日 4時間
6
分析用
データ
本日の分析フロー全体像
7
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・デ
ー
タ
圧
縮
集計・単純分析
ビジュアリゼーション
モデル化・解析
ダッシュボード化
1.データ収集~分析用データの作成まで
8
分析用
データ
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・
デ
ー
タ
圧
縮
集計・ 単純分析
ビジュ アリ ゼーショ ン
モデル化・ 解析
ダッ シュ ボード 化
下ごしらえ
今回の利用データについて
http://www.nii.ac.jp/cscenter/idr/nico/nico.html
国立情報学研究所が公開している「ニコニコ動画コメント等データ」を使います。
ニコニコ動画コメント等データ
-動画メタデータ
【理由】
・無料/使いやすい
・実サービスで、結果の解釈がしやすい
・時系列、テキストマイニング等、
あらゆるものをはめられる。
・大きさもそこそこ(12GBくらい)
・ブログ書いてます
(http://d.hatena.ne.jp/monnalisasmile/)
9
データ収集:スクレイピング
wgetで一撃必殺。(-rオプションで、全てのリンク先を繰り返しdownload)
wget –r example.com ≪格納先≫
参考URL:http://girigiribauer.com/archives/925
【wgetコマンドをクローラーとして使う】
wget
--recursive
--level inf
--no-clobber
--random-wait
--restrict-file-names=windows
--convert-links
--no-parent
--adjust-extension
example.com
10
11
野生の解析屋さんがいっぱい。
Deep Learningはほぼ使わないです。
Boostingの方がメジャー。
解析したい、でもデータがない・・・!
Kaggleは企業や研究者がデータを投稿し、世界中
の統計家やデータ分析家がその最適モデルを競い
合う、予測モデリング及び分析手法関連プラット
フォーム及びその運営会社。
情報科学、統計学、経済学、数学などの分野から全
世界で約95,000人のデータサイエンティストが登録
しており[3]、同社はアメリカ航空宇宙局、ウィキペ
ディア、デロイト トウシュ トーマツ、オールステート
保険等の組織と提携している。(wikipedia)
自習用
wget後、データサイズと形式の確認
動画メタデータ(video)を利用。
データサイズ12.87GB、約1900個のdatファイル。
12
生データ確認:datファイル内の形式
datファイルの中身はjson形式。
Pythonの組み込み型の一つである辞書(ディクショナリ)と同じ形式。
じゃ、Pythonで処理して、扱いやすいSQL形式に変えてしまおう。
13
Python→SQLでRDB化
Dictionary処理をPythonコードで書いてみる。Tagの扱いに注意。(_でくっつけた)
SQLiteにデータを格納。自分の扱いやすいデータ形式への加工をしてみます。
14
SQLiteの設定
.showでSQLiteの設定を確認します。
デフォルトでseparator(区切り文字)が”|”になっていたり、癖があるので注意。
【各設定の説明】
Headers:カラム名の出力有無
⇒ON
Output:画面出力orファイル出力
⇒.output ファイル名で、ファイル出力
separator:区切り文字の説明
⇒.separator ,でカンマ区切り
旧設定
設定変更
新設定
15
【自習教材】 初心者向けSQL文の勉強
①基礎を学ぶ②やりたいことから逆算で学ぶ③体系的な学習の順でやってみる。
http://www.sql-reference.com/
②やりたいことから逆算 ③体系的に学習
http://www.1keydata.com/jp/sql/
①クエリの読み方/書き方
16
自習用
17
【自習教材】 中上級者向けSQL文の勉強
SQLは、プログラミング言語として、かなり特殊。
「書き方」のお作法を間違えると、ものすごく効率の悪い(時間のかかる)クエリになる。
【知っておいた方が良い概念】
1.SELECTで列選択、WHEREで行選択
2.INDEXの張り方、容量とのトレードオフ
WHEREでの条件指定にも依存。
3.場合分けはWHEREではなくCASE WHEN
4.HAVINGは、可視性以外の用途なし。
FROM内にSELECTを入れるのと同じ。
5.INNER JOINを活用しまくる。
横連結+行フィルターの同時施行。
【中級者以上におすすめの書籍】
・SQLパズル
・達人に学ぶSQL徹底指南書
自習用
SQLiteにてデータ構造を確認
【各カラムの説明】
video_id:ビデオのID番号
Title:ビデオのタイトル
view_counter:再生数
mylist_counter:マイリスト数
Length:動画の長さ(秒)
comment_counter:コメント数
upload_time:アップロードした時間
Tags:タグ(複数の場合、”_”で接続。
データ構造の確認 .schema
実際のデータ select * from table limit 10
18
.schemaで流し込んだデータのデータ構造を確認します。
SQL_Liteにて単純集計
動画数&再生数&コメント数&マイリスト数を集計。
約830万動画の平均、最大値を下記に集約。
単純集計で肌感を掴んでおくのは意外と大事。(異常値に対する感性が出てくる)
再生数 コメント数 マイリスト数 コメント率 マイリスト率
平均 4174.7 297.7 67.76 7.1% 1.6%
最大 15,454,295 517,528 65,535 (※) (※)
Select avg(view_count),avg(xxxx),・・・ from yyyy;
19
分析設計と分析用データ再作成
20
分析用
データ
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・
デ
ー
タ
圧
縮
集計・ 単純分析
ビジュ アリ ゼーショ ン
モデル化・ 解析
ダッ シュ ボード 化
献立立案・料理
どんな分析をしたら面白い(意味がある)データなのか考えてみる
どの時間帯に動画が多くアップロードされているの?
どのカテゴリの動画がお気に入り率が高いの?
最近動画アップロード数は増えてる?減ってるの?
動画時間と再生数、コメント数との相関はあるの?
一番動画が見られるのはアップロードしてからどれ位なの?
各カテゴリの動画数はどれだけ?
再生数トップ5の動画は?
ボーカロイドやっぱり流行ってるの?
どの時間帯に一番再生されているの?
21
分析の切り口=アイディア
22
分析の基本は「まとめる/分ける」「新指標を作る」「比較する」。
この3つをヒントに、意思決定につながりやすいアウトプットの切り口を練る。
①まとめる/分ける
-MECE、ペア思考、フレームワーク
-ターゲットと「それ以外」
A = B + B’
②新指標を作る
-因数分解をしてみる(率の開発)
-四則演算をしてみる
C = B/A
③比較する
-時系列での比較(変化)
-属性毎での対比
A > B
【自習】アイディアを出しやすい分析フレームを盗む
コンサルタント等の書籍から「自分が使いやすい」分析フレームをくみ上げる。
参考書籍:意思決定のための「分析の技術」 後正武著
分析の体系
23
自習用
時系列の分析用データを作る(Pentaho)
動画毎の集計データを日×時間帯別のデータへ集計&加工
加工前は動画毎のデータ 加工後は日付×時間帯別に集計されたデータに
24
Pentaho等のデータ加工ツールのメリット
一度設定を行えば、再生ボタンを押すだけで、それ以降の処理が全て自動化される。
「定期的に発生する同じ作業」や「コードを書けない人によるデータ加工処理」に適切。
25
再生ボタン
データクレンジング by UNIX
タイトルやタグ内に区切り文字が入っていると、pentahoが列を分けてしまう。
列のズレを避けるために、export後にデータのクレンジングを行う必要がある。
①SQL内で区切り文字をxxyyzzのような「タイトルやタグに含まれなさそうな文字」に変換。
②一度sqliteからexportして、UNIXのsedコマンドにて”,”を”_”に変換する。
(希望区切り文字を消す)
③”xxyyzz”をsedで”,”に変換。(希望区切り文字に変換)
④もう一度SQLに入れ直す。
区切り文字をSqlite3上でxxyyzzへ変換 Sedコマンドによる置換
26
【自習】 UNIXによるテキストファイル加工
UNIXによるデータ加工の良さは、①速い②カンタン③安い(タダ)。
Awkの1linerでいろんな加工を解決するヒトは、現場で超重宝します。
http://orangain.hatenablog.com/entry/20100916/1284631280
テキスト加工のイメージ学習
・cat:縦結合
・paste/join:横結合
・head:行頭x行だけ抜く
・grep:条件による行抽出
・cut:列抽出
・sed:置換
・sort:並び変え、uniqの前処理
・uniq:ユニーク化
・wc:行数を数える(答え併せ用)
・nkf:エンコーディング(要インスト)
・awk:スクリプト言語
便利なUNIXコマンド一覧
UNIXコマンド
の基礎学習
27
自習用
分析:アップロードの時間帯、曜日傾向は?
やはり深夜が多く、休日は12時、13時からアップロードが増える。
朝方のアップロードが一番少なく、21時~0時が最もアップロードが多い。
28
曜日
時
間
帯
簡易データビジュアリゼーション
29
分析用
データ
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・
デ
ー
タ
圧
縮
集計・ 単純分析
ビジュ アリ ゼーショ ン
モデル化・ 解析
ダッ シュ ボード 化
盛り付け・飾り付け
メッセージが決まると、「わかりやすい表現」が決まる
ビジュアリゼーションによって「わかりやすさ」を向上させるためには、
そもそも「何をわかってほしいのか=メッセージ」を考える必要がある。
30
曜日
時
間
帯
?
わかって欲しいことの整理
31
時間と曜日のアップロード傾向を一目で理解してほしい。
その際に下記ファクトが、ビジュアルで確認出来ることが条件となる。
【わかってほしいこと】
①深夜帯のアップロードが多い
②平日に比べ、休日が多い
③日曜は、昼からアップロードが増え始める
④朝方のアップロードは少ない
改善①要素を加える
32
色の濃淡を付けることで、濃いところが多く、薄いところが少ないとわかる。
でも、これはまだ「直観的な理解」を促すに至らない。
改善②要素を抜く
33
「深夜が多い」「休日は昼からアップロードが増える」「朝方が少ない」
これらの事実を一番わかりやすく示すために、要素をどんどん減らし、複雑さを排除。
わかりやすさを兎に角突き詰める
34
色を変えたり、粒度を変えたりしながら、わかってほしいことと見比べる。
多少
【わかってほしいこと】
①夜のアップロードが多い
②平日に比べ、休日が多い
③日曜は、昼からアップロードが増え始める
④朝方のアップロードは少ない
アウトプットから、アクションを導き出す
35
ここ最近は分析担当に「エグゼキューション」も任されることが多い。
【アウトプット】
①深夜帯のアップロードが多い
②平日に比べ、休日が多い
③日曜は、昼からアップロードが増え始める
④朝方のアップロードは少ない
⇒深夜帯のアップロードは朝方のx倍である。
【アクション】
アップロード量をモデル化し、サーバー許容量等を予測。
違法動画等の監視員の時間帯別最適配置数を予測
目的に応じて、データの見せ方を変える
36
左脳的な
ビジュアライゼーション
わかりやすい
示唆に富む
“意思決定”を導く
データをメッセージに加工する
余計な部分を切り捨てる
キレイ
カッコいい
“感動”を導く
データに潜むストーリーを掘り出す
データの持つ表現力を最大化する
右脳的な
ビジュアライゼーション
ダッシュボードデザイン
37
分析用
データ
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・
デ
ー
タ
圧
縮
集計・ 単純分析
ビジュ アリ ゼーショ ン
モデル化・ 解析
ダッ シュ ボード 化
【ツール紹介】Tableauとは?
38
【ツール紹介】Excelに代わる分析プラットフォーム
39
ダッシュボード構築(再生数10,000以上の動画のみ)
実際に、データを少し絞り込んで、ダッシュボードを構築してみました。
本日のまとめ俯瞰ダッシュボード 本日のまとめ分布ダッシュボード
カテゴリ毎の動画特性を俯瞰
各カテゴリのトレンド、コメント、マイリスト等の反応
人気動画ランキング
動画特性に加えて、更に詳細な属性を分析
KWを含む動画の分布、ニコニコカテゴリによる属性分析
アップロード時間、流行し始めた時間
40
俯瞰ダッシュボードの説明
カテゴリ毎の動画数シェア ランキング
41
時
系
列
推
移
フィルタリング状況
動画の
分数分布
キーワードダッシュボードの説明
42
分析設定入力
任
意
軸
で
の
散
布
図
動
画
カ
テ
ゴ
リ
の
内
訳
動画の盛り上がったタイミング
動
画
が
ア
ッ
プ
ロ
ー
ド
さ
れ
た
時
間
帯
【自習用】ダッシュボードの作り方を学ぶ際の教材
書籍による学習 普段の情報収集
Occam’s Razor by Avinash Kaushik
http://www.kaushik.net/avinash/
The information Lab
http://www.theinformationlab.co.uk/
The Datographer
http://datographer.blogspot.jp/
サイエンスメディアな日々、インフォグラフィックな日々
http://scivis.hateblo.jp/
ノウハウ例:Stephen Few on Data Visualization: 8 Core Principles
1. シンプルなダッシュボードを作ろう。19個以上の要素はいらない。
2. センセーショナルな”比較”を入れよう。詳細なんて覚えられない。
3. よりデータにアクセスしやすい環境を提供しよう
4. ただ、見ること、それだけで何かが発見出来るようにしよう
5. 多様性が確認出来るような包括的なものを作ろう
6. 何が起きたかよりも何故起きたかを考えよう
7. 懐疑的になって、色んな質問を繰り返そう
8. データを様々な場所にシェアしよう
43
自習用
【参考】ダッシュボードに関する過去の議論
参考【第38回Tokyo webmining資料LT20140726用】
http://www.slideshare.net/koichirokondo/tokyo-webmining20140726
44
自習用
誰に見せるか?どんなアクションを促すかが極めて重要。
モデル化・解析・機械学習
45
分析用
データ
データ
収集
データ
加工
分析用
データ
分析用
データ
ク
レ
ン
ジ
ン
グ
・
デ
ー
タ
圧
縮
集計・ 単純分析
ビジュ アリ ゼーショ ン
モデル化・ 解析
ダッ シュ ボード 化
摩耗分析:動画アップロード後、どれ位がホットなの?
再生数/アップロード経過日数により、日あたりの再生数をプロット。
アップされた動画への依存は強いが、初速に対し、2日目~4日目で6割、
1週間経つと4割程度の再生数に落ち込むことがわかる。
経過日数
※正確にアップロード経過日数の再生数を記録しているわけではなく、
ある時点でのアップロードから3日経過した動画の平均値を出している。
46
【参考】ニーズに「ぴったり」のデータが存在しない時
本来、摩耗分析を行うには、日別の各動画の再生数、コメント数等のデータが欲しい。
だが、今回のように「ぴったり」のデータはなかなか存在しない。
その際は「厳密には異なる」ことを意識しつつ、代わりに使えるデータがないか検証する。
47
動画タイトル 日付 再生数
AAAAAAA 2014/9/20 8,241
AAAAAAA 2014/9/21 6,125
AAAAAAA 2014/9/22 5,391
AAAAAAA 2014/9/23 531
AAAAAAA 2014/9/24 4,399
AAAAAAA 2014/9/25 3,123
AAAAAAA 2014/9/26 4,574
BBBBBBB 2014/9/14 3,715
BBBBBBB 2014/9/15 2,717
BBBBBBB 2014/9/16 8,460
BBBBBBB 2014/9/17 2,454
BBBBBBB 2014/9/18 1,982
BBBBBBB 2014/9/19 2,092
BBBBBBB 2014/9/20 7,444
BBBBBBB 2014/9/21 3,663
BBBBBBB 2014/9/22 4,246
BBBBBBB 2014/9/23 5,155
BBBBBBB 2014/9/24 9,400
BBBBBBB 2014/9/25 9,163
BBBBBBB 2014/9/26 1,855
本当に欲しいデータ 実際にあるデータ
動画タイトル アップロード日付 再生数 経過期間
AAAAAAA 2014/8/20 9,642 42
BBBBBBBB 2014/7/11 1,252 82
CCCCCCCC 2014/6/1 3,532 122
DDDDDDDD 2014/5/22 1,576 132
EEEEEEEEEE 2014/5/12 7,681 142
DF 2014/2/1 9,555 242
asdjhgtagaqg 2013/10/24 3,804 342
sgajghjahgah 2013/11/13 5,270 322
gdahdjkgahlgal 2013/12/3 3,669 302
ajsghjasdhgaklg 2013/8/25 1,437 402
sghajhjehahg 2013/7/16 7,166 442
aghajhgahjkerga 2013/6/6 8,006 482
egahjghaehgajkl 2013/7/27 8,983 431
gajseghjahjlghaj 2013/9/16 557 380
gnasjgjhdfakh@ 2013/11/6 9,941 329
nlghakjhiarh; 2013/12/27 1,282 278
algjoiwheghal 2012/11/18 4,090 682
gnalkgh;aoeugp 2011/10/11 2,327 1,086
gnklanhgheoha 2012/8/30 1,341 762
gnklao;ho;gweh 2013/7/20 5,367 438
アップロードからの経過日数を疑似的に摩耗期間と捉
えられないだろうか?
Excelの回帰で単純なモデル化を行ってみる
モデル式は415.55×経過日数^*-0.666、R^2=0.9161
Rで分析する場合に更に精度の高いモデルを作れるのか。
y = 415.55x-0.666
R² = 0.9161
0
100
200
300
400
500
600
700
800
0 200 400 600 800 1000 1200 1400 1600
view_count
Power (view_count)
48
【教材】理論学習のお勧め書籍
固いが、基本につい
ては一番しっかり書
いてある。
いや、使ってみて決
めるわというヒトに。
知識俯瞰にも有効。
データサイエンスを
一番よく俯瞰してい
る。ここから各専門
書へ。
久保さんが神。
最小二乗法⇒尤
度推定⇒階層ベ
イズの説明の流
れは神です。
49
自習用
【教材】 Rのお勧め書籍
Rの学習をしながら
統計の勉強も出来る
おトクな一冊
様々なデータセットを
使って実際に勉強でき
る。米系データセットが
多いので、分析結果に
ピンとこないものも。
会話形式で進むわかりや
すい入門書。取り敢えずR
で色々な分析回したい人
にはうってつけの書籍。
50
自習用
Levernberg-Marquardt法による非線形回帰(1)
Nls.lm関数を使って減衰系のモデルを求めてみる。モデル式は下記の通り。
nls(非線形回帰)の関数は初期値を求めてくるので、局所解等から初期値を設定。
コードはGithubにあげておきます。
モデル式:view_count=a+b*date^c⇒パラメータa,b,cを推定
参考:「でたぁっ 感動と失敗の備忘録」
佐藤さんのブログhttp://deta.hateblo.jp/entry/2014/05/08/052916
> source('~/Desktop/R/decrease_model.R')
It. 0, RSS = 44314.9, Par. = 4.2 819.469 -0.800566
It. 1, RSS = 15135.2, Par. = -3.27199 689.324 -0.719096
It. 2, RSS = 15049.2, Par. = -4.06311 692.061 -0.713378
It. 3, RSS = 15049.2, Par. = -4.05919 692.114 -0.713528
It. 4, RSS = 15049.2, Par. = -4.05942 692.113 -0.713525
51
R^2=0.9849772> 0.9161 (Excel)
0.0%
20.0%
40.0%
60.0%
80.0%
100.0%
120.0%
0 5 10 15 20 25 30 35
view_count
predictionR
prediction_xls
Levernberg-Marquardt法による非線形回帰(1)
エクセル回帰よりもRの方が精緻に最初の10日間の動きを表現出来ている。
モデルでは、2日目で初速再生数の6割、1週間で25%、1ヵ月で8.5%に摩耗する。
アップロードからの経過日数
初
速
に
対
す
る
摩
耗
率
1日あたりの再生数摩耗状況
52
パラメーター数を一つ増やしたことによるペナルティ
当てはまりはよくなるものの、パラメーター数も2つから3つへと増えている。
モデルを精緻に評価するために、モデルの複雑さと当てはまりの両方を考慮した
AIC(赤池情報規準:大きくなるほど悪いモデル)でモデルを選択する。
53
Y = a + b*x^cモデル AIC:2401.326
Y = b*x^cモデル AIC:2431.819
当てはまりの良さ パラメーター数によるペナルティ
「役立つ」アウトプットにするために「アクション」を入れる②
54
【アウトプットから得られる知見】
2日で初速の6割、1週間で25%に再生数は落ちる。
その後、1カ月で8.5%に落ちる
【アクション】
もしも動画に誘導枠を貼るなら、1カ月経ってからの方が良い。
【さらなる深掘り分析】
カテゴリ別に摩耗の「しやすい」「しにくい」の傾向はないか?
55
機械学習によるアウトプット
SVM
Random Forest
Decision Tree
Bagging
Clustering
Deep
Learning
Linear Regression
ERM algorithm
Multi Dimensional Scaling
Neural Networks
Association Analysis
Bayesian Network
Boosting
手法の名前は山ほど聞くけれど、どうやって正しくそれを使うのか?
56
機械学習/統計解析における価値創出
シンプルなアウトプット
超複雑なインプットデータ(可視化しても謎)
機械学習/統計解析(情報の単純化/法則化)
今後を予測できる
モデル式
よい/悪い
パターン
何らかの
相性/法則
機械学習が普及した背景
57
Input/
Storage
Modeling/S
peed
Execution
データの拡充 マシン性能の向上 施策出口の拡充
IoT、センサーデータの増加
ストレージ単価の減少
データ処理の高速化
ライブラリ/オープン化
One to Oneマーケティング
Operating Automation
コモディティ化する機械学習
58
計算量でこれまでの匠の技を
全てカバーしていく世界観
超高単価&難解な「専門家の趣味」から、「汎用技術」へと進化している
破壊的アルゴリズム パッケージング化
決定木→Random Forestのパラダイム
クラウドサービス、ストレージなど
他サービスへの統合、合わせ売り
Amazon Machine Learning
【引用】AWSブログhttp://aws.typepad.com/aws_japan/2015/04/amazon-machine-learning.html
データがあるから機械学習、ではなく解決したい課題を解く。
59
欲しいアウトプットの想定
解決したい課題
機械学習/統計解析
設計されたインプットデータ
あるべき姿
よくわからないままの
機械学習
何かしらのビッグデータ(笑)
(汚い、バイアスあり)
解決されない課題
さらにわからない
アウトプット
よくある姿
データ・サイエンティスト キャリア論
60
学生時代の専攻:技術経営(MOT)
61
研究テーマ:「テクノロジーの進展が、経営行動に与える影響の定量化」
同期は、コンサルとか、商社、代理店などクライアントワークをする人が多い。
データサイエンティストって?
62
人材需要がこれから爆発的に伸びるのに対し、供給が追い付かない、
21世紀、最もセクシー(おいしい)職業だと言われています。
デジタルメディアの成長=マーケティングデータの拡大
63
特にデジタルはローコスト、リアルタイムでデータが集まる世界
どのサイトに
訪れているか
どんな呟きを
しているか
Amazonで
何を買ったか
どの広告に
反応したか
性別・年代
お得意様?
初めて?
どのサイトに
よく行くのか
コミュニケーションにおける活用例
64
データに基づいてインサイトを推定し、コミュニケーションを設計する
車種検討期 購入検討期
①価格訴求
②オプション訴求
買い替え検討期
③アフターサービス訴求
買い替えは〇○○で!
今だけキャンペーン中!
for家族持ち
for独身
forアウトドア
≪ターゲットを見つける≫
車を買って何年目か
例:車購入後8年目
≪相手の好みに合わせる≫
他に見ているサイトは?
例:アウトドアサイト
閲覧履歴
≪最後の一押し≫
年収・オプション履歴
例:第三者データ
顧客データ
広告界の「呪い」の解消
65
成長に事欠かない環境
66
・線形代数学や微積分の基礎知識があり、論文も一通り読める
・AWS等のクラウドサービスをコントロールできる
・SQL, UNIX等でデータのクレンジングや整形ができる
・Python, R, SAS, SPSSなどで統計解析、機械学習を回せる
・Tableau等のBIツールでダッシュボードの構築が出来る
・メッセージが明確なプレゼンテーションが可能である
・解析、広告配信ツールのエグゼキューションが出来る
・制作チームに対し、クリエーティブ開発/指示が出来る
・様々なベンダーに対し、リーダーシップを取れる
・アドテクノロジーに精通し、適切なロードマップが描ける
私が会社に入って身に着けたスキル
67
代理店のデータサイエンティスト=データから宝を探す
好奇心
論理的思考
粘り強さ
ご清聴ありがとうございました。
68
おわり
APPENDIX
69
【参考】JSON形式について[JavaScript Object Notation]
JSON(ジェイソン、JavaScript Object Notation)は軽量なデータ記述言語の1つである。
様々なソフトウェアやプログラミング言語間におけるデータの受け渡しに使えるよう設計されている。(wikipedia)
⇒今やWEB上でデータベース化されている情報の多くがjson形式を取っている
⇒ネスト構造も可能
⇒そのままではRDBMSに入らない http://thinkit.co.jp/article/70/1/
70
【参考】Dashboard構築前に考えるべきコト
ビジュアライズ
対象データ
処理&分析
・スケーラビリティ
・リアルタイム性
(更新頻度)
・クレンジング有無
・分析インフラ
・集計インフラ
・DB、データマート化?
ビジュアライズプロジェクト運用における検討ポイント
ビジュアライズプロジェクト開始における検討ポイント
・誰が何を確認するためのビジュアライズなのか?(ビジュアライズ大方針)
-目的(Purpose)は何か?
-閲覧者、意思決定者(Target)は誰か?
⇒例:外部要因・内部要因から、明日の売上を予測するダッシュボード?
お客様の属性別に購買行動を可視化するためのダッシュボード?
・いつ、どこで、どのように確認するのか? (ビジュアライズのディティール)
-どのデバイス(where)で確認するのか?⇒スマホ?PC?スクリーン?
-どのくらいの頻度(when)で確認するのか?⇒毎日?週次?月次?
-どのようなオケージョン(How)で確認するのか?⇒会議?朝の電車?
デザイン
・ツール
・デバイス
・インタラクションの増減
組織共有
・オンライン
・アプリケーション
・メール
・紙
選
択
オ
プ
シ
ョ
ン
評
価
ポ
イ
ン
ト
・属性データ
・トランザクションデータ
・ウェブログ等
・速度
・高度分析の有無
・デザインツールとの連携
・見やすさ/わかりやすさ
・包括性
・情報量とメッセージング
・深掘りの可否
・アクション誘引
・アベイラビリティ
・意思決定者のリテラシー
71
【参考】近似値分析:ジャンル別の動画摩耗分析
動画摩耗分析を動画ジャンル別に分析すると、政治やアニメといった
「生放送」要素のあるものはかなり摩耗率が高い。
比べて、ゲームや御三家、音楽等は繰り返し見られるため、摩耗率は低い。
ただし、カテゴリ別に分けると、個々の動画の成績が影響してしまい、正確性に欠ける可能性が高い。
経過日数
摩耗率少ない
摩耗率少ない
摩耗率高い
摩耗率超高い
摩耗率高い
摩耗率普通
摩耗率普通
摩耗率少ない
摩耗率少ない
摩耗率少ない
72
ダッシュボードって?
【ダッシュボードの定義】
1.A dashboard is a visual display(ディスプレイ上のビジュアル)
of
2.the most important information needed to achieve one or more objectives
(目標を達成するための最も大切な情報を集約している)
that has been
3.consolidated on a single computer screen(一つのスクリーンで見ることが出来る)
so it can be
4.monitored at a glance(一目で確認が出来る)
73
【参考】為替推移ダッシュボード
任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。
対象期間の設定
対象通貨の設定
74
【参考】為替推移ダッシュボード
任意の通貨、期間における様々な変化や、スペックを一目で確認出来る。
対象期間の設定
対象通貨の設定
75
俯瞰ダッシュボードの改善(Before)
色が少ない文字が多い、文字の説明がいい加減、文字割れしている、回帰線いらない
76
俯瞰ダッシュボードの改善(After)
何がどこにあるのかわかる、タイトルが見やすい、色もわかりやすい。
77
分布ダッシュボードの改善(Before)
色を使い過ぎ、動画の分類の定義がわからない、時間分布と動画分類で同じ色が使われる
数字がほとんど隠れている、百分率某チャートが多すぎる、散布図の○が汚い
78
分布ダッシュボードの改善(After)
79
散布図はカテゴリの絞り方に依存するものの、書かれている項目はシンプルでわかりやすい。

More Related Content

Viewers also liked

Dbda勉強会chapter18
Dbda勉強会chapter18Dbda勉強会chapter18
Dbda勉強会chapter18
Koichiro Kondo
 
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
Takanobu Mizuta
 
Tokyo webmining資料LT20140726用
Tokyo webmining資料LT20140726用Tokyo webmining資料LT20140726用
Tokyo webmining資料LT20140726用
Koichiro Kondo
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
Shinya Akiba
 
ビジネスモデルをシステムにつなげる
ビジネスモデルをシステムにつなげるビジネスモデルをシステムにつなげる
ビジネスモデルをシステムにつなげる
Zenji Kanzaki
 
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
Shu Tanaka
 
人工知能界隈のためのざっくり物理マップ
人工知能界隈のためのざっくり物理マップ人工知能界隈のためのざっくり物理マップ
人工知能界隈のためのざっくり物理マップ
尚行 坂井
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
Koichiro Kondo
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with Data
Seth Familian
 

Viewers also liked (9)

Dbda勉強会chapter18
Dbda勉強会chapter18Dbda勉強会chapter18
Dbda勉強会chapter18
 
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
人工知能が変える投資の世界 人工知能はすでにここまで身近になっている
 
Tokyo webmining資料LT20140726用
Tokyo webmining資料LT20140726用Tokyo webmining資料LT20140726用
Tokyo webmining資料LT20140726用
 
PythonによるDeep Learningの実装
PythonによるDeep Learningの実装PythonによるDeep Learningの実装
PythonによるDeep Learningの実装
 
ビジネスモデルをシステムにつなげる
ビジネスモデルをシステムにつなげるビジネスモデルをシステムにつなげる
ビジネスモデルをシステムにつなげる
 
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
次世代量子情報技術 量子アニーリングが拓く新時代 -- 情報処理と物理学のハーモニー --
 
人工知能界隈のためのざっくり物理マップ
人工知能界隈のためのざっくり物理マップ人工知能界隈のためのざっくり物理マップ
人工知能界隈のためのざっくり物理マップ
 
第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016第二回データサイエンティスト木曜勉強会20141016
第二回データサイエンティスト木曜勉強会20141016
 
Visual Design with Data
Visual Design with DataVisual Design with Data
Visual Design with Data
 

Similar to 京都大学鹿島研究室勉強会資料-配布用-

「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
Leading Edge Co.,Ltd.
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
Rakuten Group, Inc.
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
Tsuyoshi Hisamatsu
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
Tsuyoshi Hisamatsu
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
Tsuyoshi Hisamatsu
 
合同会社エンジニアリングマネージメント会社説明資料 2023-016
合同会社エンジニアリングマネージメント会社説明資料 2023-016合同会社エンジニアリングマネージメント会社説明資料 2023-016
合同会社エンジニアリングマネージメント会社説明資料 2023-016
Tsuyoshi Hisamatsu
 
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
Deep Learning Lab(ディープラーニング・ラボ)
 
評BanにおけるJubatus活用事例
評BanにおけるJubatus活用事例評BanにおけるJubatus活用事例
評BanにおけるJubatus活用事例
JubatusOfficial
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
Takuya Minagawa
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
Kazuyuki Miyazawa
 
Microsoft AI と深層学習
Microsoft AI と深層学習Microsoft AI と深層学習
Microsoft AI と深層学習
Shohei Nagata
 
Zarc_メンバー紹介資料
Zarc_メンバー紹介資料Zarc_メンバー紹介資料
Zarc_メンバー紹介資料
ssuser285aa5
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Atsushi Tsuchiya
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
Takuya Minagawa
 
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
Junichi Kodama
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
NTT DATA Technology & Innovation
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
Takuya Minagawa
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
Takuya Minagawa
 
文科系教育におけるIT人材育成
文科系教育におけるIT人材育成文科系教育におけるIT人材育成
文科系教育におけるIT人材育成
Jun Iio
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
Tsuyoshi Hisamatsu
 

Similar to 京都大学鹿島研究室勉強会資料-配布用- (20)

「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
 
合同会社エンジニアリングマネージメント会社説明資料 2023-016
合同会社エンジニアリングマネージメント会社説明資料 2023-016合同会社エンジニアリングマネージメント会社説明資料 2023-016
合同会社エンジニアリングマネージメント会社説明資料 2023-016
 
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
[Keynote-2] リターン・オン・モデル(ROM)で価値の最大化を目指す、社会実装されるための機械学習テクニック
 
評BanにおけるJubatus活用事例
評BanにおけるJubatus活用事例評BanにおけるJubatus活用事例
評BanにおけるJubatus活用事例
 
「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料「コンピュータビジョン勉強会@関東」紹介資料
「コンピュータビジョン勉強会@関東」紹介資料
 
Data-Centric AIの紹介
Data-Centric AIの紹介Data-Centric AIの紹介
Data-Centric AIの紹介
 
Microsoft AI と深層学習
Microsoft AI と深層学習Microsoft AI と深層学習
Microsoft AI と深層学習
 
Zarc_メンバー紹介資料
Zarc_メンバー紹介資料Zarc_メンバー紹介資料
Zarc_メンバー紹介資料
 
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
Open Cloud Innovation2016 day1(これからのデータ分析者とエンジニアに必要なdatascienceexperienceツールと...
 
run Keras model on opencv
run Keras model on opencvrun Keras model on opencv
run Keras model on opencv
 
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
誰もがアプリ開発に携われる時代へ ビジネスを加速させるローコードプラットフォーム Power Platform のご紹介
 
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
データ活用を俊敏に進めるためのDataOps実践方法とその高度化のためのナレッジグラフ活用の取り組み(NTTデータ テクノロジーカンファレンス 2020 ...
 
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT  vol112 発表資料)
ろくに電子工作もしたことない人間がIoT用ミドルウェアを作った話(IoTLT vol112 発表資料)
 
20170211クレジットカード認識
20170211クレジットカード認識20170211クレジットカード認識
20170211クレジットカード認識
 
文科系教育におけるIT人材育成
文科系教育におけるIT人材育成文科系教育におけるIT人材育成
文科系教育におけるIT人材育成
 
合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料合同会社エンジニアリングマネージメント会社・事業説明資料
合同会社エンジニアリングマネージメント会社・事業説明資料
 

京都大学鹿島研究室勉強会資料-配布用-

Editor's Notes

  1. 特に注目しているのは、匠の技的な話や事業ドメイン知見の強みがなくなってきたこと。 Deep learningもパラメーターチューニングによって、重要な特徴量を抽出してしまう世界観。 破壊的なアルゴリズムだと思っている。
  2. ちなみに、データサイエンティストは前処理で一度死にます。 実は、機械学習がメインなのではなく、インプットデータを作るまでが極めて重要。