Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
本当に知ってる!?
リアルなデータ分析の世界
~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
祖山 寿雄
株式会社サイカ
2017/03/16
ヒカラボ
ヒカラボ
2017/03/16
2
自己紹介
●
祖山 寿雄
– @who_you_me
●
株式会社サイカ
– Statistics Division
●
Data Analysis Engineer
●
社会学修士→ネットワークエンジニア→...
今日の目的
Before
●
データサイエンティスト/AI/ディープラーニング
流行ってるけどなんだかよく分からない
●
自分もやってみたいけど、どこから何に手を付け
After
●
AI/ディープラーニング/機械学習/統計学 これ
らがどんなものか分かる
●
これらの分野の将来像が分かる
ヒカラボ
2017/03/16
6
今日話さないこと
●
個別の手法の解説
– 自分で手を動かして学ばないと身につかないです
– 自ら学ぶためのアドバイスはします
●
明日すぐに役立つこと
– 明日役に立つことは明後日には役に立たなくなって
る...
1.
AI/ディープラーニング/
機械学習/統計学
一体何が違うのか
ヒカラボ
2017/03/16
8
一般的なイメージ (1/2)
●
AI
– なんかすごいもの
– 人の仕事を奪うもの
– いつかはこいつが人類を支配する日が来るらしい
●
ディープラーニング
– なんかすごいもの
– 囲碁で人間に勝った
ヒカラボ
2017/03/16
9
一般的なイメージ (2/2)
●
機械学習
– よくわからない
●
統計学
– 昔授業でやったけどぜんぜんわからなかったやつ
ヒカラボ
2017/03/16
10
実際はこうじゃ
ヒカラボ
2017/03/16
11
AI (1/2)
●
人工的にコンピュータ上などで人間と同様の知
能を実現させようという試み、或いはそのため
の一連の基礎技術を指す(Wikipedia)
●
バズワードとして使われている「AI」は「機械
...
ヒカラボ
2017/03/16
12
AI (2/2)
●
「何でもできるすごいやつ」みたいに思われて
いる実際はそんなことない
●
現に大手ベンダーとかが「AI」と称して売って
いるのは単なる機械学習パッケージ
– H社の事例
●
http:...
ヒカラボ
2017/03/16
13
ディープラーニング
●
「機械学習」の一手法
●
パーセプトロン→ニューラルネットワーク→
ディープラーニング と進化してきた
– 半ば見捨てられていた手法がムーアの法則により蘇
り世界を席巻するという胸熱...
ヒカラボ
2017/03/16
14
再掲
残ったのは「機械学習」「統計学」
じゃあこれらはいったい?
の前に、説明してない
大事な言葉がもうひとつ
データサイエンス/
データサイエンティスト
ヒカラボ
2017/03/16
18
定義 (1/5)
●
「データサイエンティスト協会」なるものがあ
るのでここを見れば分かるに違いない
– http://www.datascientist.or.jp/
●
“実際には新しい職業である「デー...
ヒカラボ
2017/03/16
19
定義はどこだ (2/5)
●
がんばってPDF漁ったらあった
– http://www.datascientist.or.jp/news/2014/pdf/1
210.pdf
●
「データサイエンティストと...
ヒカラボ
2017/03/16
20
定義はどこだ (3/5)
●
「データサイエンス」「データエンジニアリン
グ」 is 何
●
データサイエンス(力)
– 「情報処理、人工知能、統計学などの情報科学系の
知恵を理解し、使う力」
●
データエ...
ヒカラボ
2017/03/16
21
定義を求めて三千里 (4/5)
●
よくわからんので、今春開設される滋賀大学
データサイエンス学部のサイトも見てみる
– https://www.ds.shiga-u.ac.jp/
●
“データサイエンスと...
ヒカラボ
2017/03/16
22
やっと定義に出会えた (5/5)
●
これは非常に分かりやすいし、皆さんがこの分
野に興味を持っているのもここなのでは
– データから価値を引き出したいですよね?
●
というわけで、やっと「機械学習」と「統...
機械学習 vs. 統計学 (1/3)
●
結論から言うと「データから価値を引き出す」
ヒカラボ
2017/03/16
24
機械学習 vs. 統計学 (2/3)
●
機械学習で定評のある入門書『はじめてのパ
ターン認識』で取り上げられている手法

ベイズの識別規則

kNN法

線形識別関数

ロジスティック回帰

パ...
ヒカラボ
2017/03/16
25
機械学習 vs. 統計学 (3/3)
●
明らかに統計学の手法だったり、そこから派生
したものだったりが混じっている

ベイズの識別規則

kNN法

線形識別関数

ロジスティック回帰

パーセ...
ヒカラボ
2017/03/16
26
機械学習の定義
●
大量のデータをコンピュータを使って学習し、そ
こに潜むパターンを見つけ出すこと
– SASのサイトから借用して一部アレンジ
●
見つけ出したパターンを未知のデータに適用し、
予測すること...
ヒカラボ
2017/03/16
27
統計学の定義
●
対象の全体または一部を観察し、そこから数量
的法則(規則)を発見する
– みんな大好き『統計学入門』を要約
●
あれっおんなじだ
ヒカラボ
2017/03/16
28
機械学習 vs. 統計学 再び
●
どちらも「データからパターン・法則を見出
す」という点であんまり変わらない
– 木を切るのに斧を使うのか鉈を使うのかぐらいのノ
リで、「木を切る」という行為に変わりはない...
ヒカラボ
2017/03/16
29
まとめ (1/2)
●
「AI」は「機械学習」とほぼ同義で使われてい
る
●
「ディープラーニング」は機械学習の一手法
●
「機械学習」「統計学」はどちらもデータから
何らかのパターン・法則を見出す手法
ヒカラボ
2017/03/16
30
まとめ (2/2)
●
我々がやりたいのは「データから価値を引き出
す」こと
●
この目的に照らすと、機械学習も統計学もあく
まで道具であり、取り立てて区別する必要はな
い
2.
「データ分析」の
今とこれから
ヒカラボ
2017/03/16
32
はじめに
●
ここまでは便宜上「統計学や機械学習を駆使し
てデータから法則を見出す行為」を「データサ
イエンス」と呼称していましたが、宗教上の理
由によりここからは「データ分析」とします
– 理由が気になる...
問題です
データ分析の中でも
「AI」がすごいブームですが、
なんでブームに
なっているんでしょうか?
答え
誰でも簡単にできるように
なってきたから
ヒカラボ
2017/03/16
37
昔
●
そもそもデータがない
●
データがあってもマシンパワーが足りない
●
高度な数学の知識がないと扱えない
●
ナレッジがない
ヒカラボ
2017/03/16
38
今 (1/2)
●
データなら腐るほどある
– 人の行動履歴がWebに蓄積されるようになった
– オープンデータがいっぱい
●
マシンパワーも腐るほどある
– ムーアの法則
– GPU
– クラウド
ヒカラボ
2017/03/16
39
今 (2/2)
●
大量データと潤沢な計算資源により、高度な数
学を駆使しなくても「物理で殴れる」
– 総当り(に近いノリ)で試行錯誤が可能に
●
ディープラーニングとかまさにそれ
●
情報がいくらでも転が...
ね、簡単でしょう?
ここで第二問
「誰でも簡単にできること」が
ただできるだけで
競争優位になるでしょうか?
ヒカラボ
2017/03/16
43
生存戦略としてのデータ分析 (1/5)
●
今流行ってるのは機械学習よりのアプローチ
●
機械学習は工学的なアプローチのため、ITエン
ジニアとの親和性が高い
– 理論、プロセスより結果重視
●
というのも...
ヒカラボ
2017/03/16
44
生存戦略としてのデータ分析 (2/5)
●
端的に言うとエンジニア個人の生存戦略という
観点ではこの分野はとっくにレッドオーシャン
●
他の分野で既に優秀な人が、得意分野と機械学
習を掛け合わせてなんかやる...
ヒカラボ
2017/03/16
45
生存戦略としてのデータ分析 (3/5)
●
まだあるよ
●
某2016年にもっとも売れた技術書にこんな記述
が
– 「ディープラーニングって学習の過程に人が介在し
ないから素晴らしい」(意訳)
●
それって...
ヒカラボ
2017/03/16
46
生存戦略としてのデータ分析 (4/5)
●
マシンパワーを武器に試行錯誤するアプローチ
は容易に機械で代替可能
●
「データさえ突っ込めば勝手に学習してくれ
る」ことを謳うプロダクトは既にいっぱいある
し、...
ヒカラボ
2017/03/16
47
生存戦略としてのデータ分析 (5/5)
●
こんな時代はもう目の前
– 実用上必要なレベルの精度は機械が勝手に出せる
– それを越えようとしたらとてつもない専門性が必要
●
データ収集や前処理など、とても大...
ヒカラボ
2017/03/16
48
小休止
●
「人工知能ブーム」は誰でも簡単にできるよう
になったから起こった
●
「誰でも簡単にできる」ので、既存の得意分野
と組み合わせるとか、みんなやりたがらないこ
とをするとかしないと競争優位にならな...
あれ?
あんまり明るい話にならない?
- - - ここからポジショントーク - - -
ヒカラボ
2017/03/16
51
このセクションのタイトルは?
●
「データ分析」の今とこれから
●
ここまで機械学習の話ばっかりだけど統計学は?
●
そうです
– なので
●
ここから
– さっきちょっと言った「若干のニュアンスの違い」の...
ヒカラボ
2017/03/16
52
ニュアンスの違い is 何
●
キーワードは既に出ている
– 「機械学習は工学的なアプローチ」
– 「理論、プロセスより結果重視」
●
「結果重視」の結果とは?
– 機械学習の定義をおさらい
●
大量のデー...
ヒカラボ
2017/03/16
53
機械学習
●
(主流の)機械学習の目的は「予測」
– 予測が当たれば正義
●
なので、予測精度が上がるためならなんでもやる
– ニューラルネットをものすごい多層にしたり
– 複数の学習器で多数決したり
ポジ...
ヒカラボ
2017/03/16
55
一方の統計学
●
「データからパターンを見出す」という点では
同じでは
– 同じです
●
だが、統計学においては必ずしもパターンを予
測に使うことが目的ではない
– 「パターンを見出しそれを理解する」ことに...
ポジショントーク中
http://xica.net/magellan/marketing-idea/stats/statistics-words/
それって何が違うのか (1/2)
●
競馬予測を例に取ってみましょう
ポジショントーク中
ヒカラボ
2017/03/16
58
それって何が違うのか (2/2)
●
予想屋
– 使える情報は全て使って、勝つ馬が予測できればそ
れでいい
●
勝つ馬が分かればお金が儲かるから
– 税務署がアップを始めました
●
馬主、調教師
– 予測で...
ヒカラボ
2017/03/16
59
なぜ意味がない?
●
彼らの仕事は「勝てる馬を育てる」「目の前に
いるこの馬を勝たせる」こと
– 「強い馬はなぜ強いのか」「今強くない馬を強くす
るにはどうすればいいか」が重要
●
なので、生まれてから成長...
ヒカラボ
2017/03/16
60
補足:それって機械学習じゃダメ?
●
機械学習なら予測できるんだから、シミュレー
ションして一番いい結果が出る方法を採用すれ
ばいいんじゃないの?
●
あまりよくない
– 特徴量がすごい多いので総当りできな...
- - ポジショントークが加速します - -
ポジショントーク中
ヒカラボ
2017/03/16
62
まとめ (1/5)
●
機械学習の目的は「未来(未知のデータ)を予
測すること」
– 予測さえできればそれがゴール
●
統計学の目的は「データの背後に潜むメカニズ
ムを理解すること」
– ある程度の予測精度...
ヒカラボ
2017/03/16
63
まとめ (2/5)
●
「未来を予測する」ことだけが目的なら、人を
介さず機械だけで完結する時代は目の前
– もちろんそれだけでも価値をたくさん生み出すこと
はできる
●
でも、やりたいことって本当にそれだ...
ヒカラボ
2017/03/16
64
まとめ (3/5)
●
競馬の話に戻ります
●
調教師は目の前にいる馬が「次のレースで負け
る」と予測されれば諦めるのか?
– 勝とうともがくよね
– 勝つための手段を追求し続けるよね
●
彼/彼女がやりた...
ヒカラボ
2017/03/16
65
まとめ (4/5)
●
「未来を予測する」だけではなく「未来を変え
る」ことまで求められるフィールドは絶対にある
●
「未来を変える」ためには「人の行動を変える」
必要がある
●
人の行動を変えられるのは人...
ヒカラボ
2017/03/16
66
まとめ (5/5)
●
なぜ人にしかできないのか
– 事象の背後に潜むメカニズムを明らかにして、成功
までのストーリーを提示しないと人は動かない
– 今のところ(そしてたぶん今後しばらくは)「背後
のメカニ...
結論
●
こっちはまだまだ明るいぞ
ポジショントーク中
- - - ポジショントークここまで - - -
おまけ
●
適当に書いて出した事前のプログラムから漏れ
ヒカラボ
2017/03/16
70
Googleと同じ土俵で戦っても
Googleには勝てない
●
機械学習(特にディープラーニング)では大量
のデータと潤沢な計算資源で「物理で殴る」の
がとっても有効
●
世界で一番データと計算資源を持って...
ヒカラボ
2017/03/16
71
「AI」の得意なこと、苦手なこと
(1/3)
●
実活用の分野では、人間の「ちょっぴり知的だ
けどほぼ単純作業」はかなりの部分が代替可能
– 名刺の画像からデータ化
– エッチな画像を検出してBAN
– ロ...
ヒカラボ
2017/03/16
72
「AI」の得意なこと、苦手なこと
(2/3)
●
「囲碁で勝つ」は「ちょっぴり知的だけどほぼ
単純作業」には当てはまらなそうだが、これも
万能ではない
– 囲碁で勝つAIは将棋では勝てない
●
それどころか...
ヒカラボ
2017/03/16
73
「AI」の得意なこと、苦手なこと
(3/3)
●
「ルールが明確に決まっていて今後もそのルー
ルは変わらない」分野では人間を超えられる
– この世界のごく一部
●
AIは意味を理解することができないので、ル...
3.
未来を変える人になるための
道標
ヒカラボ
2017/03/16
75
さあ一歩踏み出そう
●
さっきまでのは一旦忘れましょう
– あくまでハートやスタンスの問題であって、技術的
にはやることそんなに変わらない
– 機械学習を学ぶと統計にフィードバックがあるし、
逆もまた然り
...
ヒカラボ
2017/03/16
76
大事な心構え (1/2)
●
あなたが簡単に身に付けられるものは、隣の人
も簡単に身に付けられる
– なのですぐ追い付かれる
●
だが、苦労して身に付けたものは簡単には追い
付かれない
ヒカラボ
2017/03/16
77
大事な心構え (2/2)
●
努力しよう
●
「大事って分かっているが面倒だから実際には
なかなかできない」ことを地道にやろう
– それって具体的に何というのは後述
で、まずは何から
始めればいいの?
ヒカラボ
2017/03/16
79
これは実は
ヒカラボ
2017/03/16
80
こうじゃ
ヒカラボ
2017/03/16
81
数学は科学の女王にして奴隷 (1/3)
●
今日の聴衆はエンジニア想定だからコンピュー
タサイエンスはそこそこ分かってるとして……
●
当たり前だが数学分からないと無理
ヒカラボ
2017/03/16
82
数学は科学の女王にして奴隷 (2/3)
●
でも安心を
– 統計学/機械学習に入門するための数学はそこまで
レベル高くない
●
高校数学+大学入門レベルの微積・線形代数で
十分
– それすらやりたくない人は...
ヒカラボ
2017/03/16
83
数学は科学の女王にして奴隷 (3/3)
●
高校数学やり直しではこの本が評判いい
– 朝倉書店『統計学のための数学入門30講』
●
大学数学はぶっちゃけ学習参考書が実用的で割
といい
– マセマの『大学数学...
ヒカラボ
2017/03/16
84
大事な心構え 再び
●
「大事って分かっているが面倒だから実際には
なかなかできない」ことを地道にやろう
– 真面目に技術書読む時には「写経」するよね
– 数学も全く同じ
●
読むだけじゃ理解したつもりにな...
ヒカラボ
2017/03/16
85
準備は整った
●
ここまでやると、いよいよ統計学/機械学習の
入門書がちゃんと読めるようになる
●
ここからは独断と偏見で、というか自分が読ん
でよかったと思う本を紹介
– 割と定番書ばかりなので面白みとか...
ヒカラボ
2017/03/16
86
統計学編 (1/2)
●
東大出版会『統計学入門』(通称「赤本」)は
やはり外せない……
– 初学者には難しいという声もあるが、確率・確率分
布は早めに入門しておかないと
– 線形回帰はいろんな手法の基礎だ...
ヒカラボ
2017/03/16
87
統計学編 (2/2)
●
これだけだとベイズ論者から馬鹿にされるので
ベイズも
– 岩波書店『データ解析のための統計モデリング入
門』だと前2冊からうまく接続できる
●
「因果は相関と違う」と言ったが因果を...
ヒカラボ
2017/03/16
88
機械学習編
●
黄色い悪魔は必ず挫折するのでやめよう
●
森北出版『はじめてのパターン認識』(通称
「はじパタ」)はかなりいい
– が、結構難しいのでコロナ社『言語処理のための機
械学習入門』を先に読んでお...
ヒカラボ
2017/03/16
89
大事な心構え 再び
●
「大事って分かっているが面倒だから実際には
なかなかできない」ことを地道にやろう
– さあ紙とペンを持って
– 数式は全部写して式展開省略してるところは全部自
分で埋めるぐらいの気概...
プログラミング編
●
まあPythonだよね
●
インプレス『Python機械学習プログラミング』
ヒカラボ
2017/03/16
91
その先は……
●
ここまでできたあなたは相当力がついています
●
自分の好きな分野のオープンデータを探してい
ろいろやってみましょう
●
割とガチな勉強会に行ってもだいたい話は通じ
るので、人から刺激を受け...
という訳で
みんなで
「未来を変える分析ができる人」
になろう!
以上、
ご清聴ありがとうございました
本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~
Upcoming SlideShare
Loading in …5
×

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

4,527 views

Published on

2017/03/17 ヒカラボにて発表した資料
https://atnd.org/events/85720

Published in: Data & Analytics
  • Dating for everyone is here: ❶❶❶ http://bit.ly/39pMlLF ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Follow the link, new dating source: ❶❶❶ http://bit.ly/39pMlLF ❶❶❶
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Hello! Get Your Professional Job-Winning Resume Here - Check our website! https://vk.cc/818RFv
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here

本当に知ってる!? リアルなデータ分析の世界~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~

  1. 1. 本当に知ってる!? リアルなデータ分析の世界 ~サイカのエンジニアが語る、話題の技術の「いま」と「未来」~ 祖山 寿雄 株式会社サイカ 2017/03/16 ヒカラボ
  2. 2. ヒカラボ 2017/03/16 2 自己紹介 ● 祖山 寿雄 – @who_you_me ● 株式会社サイカ – Statistics Division ● Data Analysis Engineer ● 社会学修士→ネットワークエンジニア→Webエン ジニア→DBエンジニア→データ分析エンジニア
  3. 3. 今日の目的
  4. 4. Before ● データサイエンティスト/AI/ディープラーニング 流行ってるけどなんだかよく分からない ● 自分もやってみたいけど、どこから何に手を付け
  5. 5. After ● AI/ディープラーニング/機械学習/統計学 これ らがどんなものか分かる ● これらの分野の将来像が分かる
  6. 6. ヒカラボ 2017/03/16 6 今日話さないこと ● 個別の手法の解説 – 自分で手を動かして学ばないと身につかないです – 自ら学ぶためのアドバイスはします ● 明日すぐに役立つこと – 明日役に立つことは明後日には役に立たなくなって るかもしれません
  7. 7. 1. AI/ディープラーニング/ 機械学習/統計学 一体何が違うのか
  8. 8. ヒカラボ 2017/03/16 8 一般的なイメージ (1/2) ● AI – なんかすごいもの – 人の仕事を奪うもの – いつかはこいつが人類を支配する日が来るらしい ● ディープラーニング – なんかすごいもの – 囲碁で人間に勝った
  9. 9. ヒカラボ 2017/03/16 9 一般的なイメージ (2/2) ● 機械学習 – よくわからない ● 統計学 – 昔授業でやったけどぜんぜんわからなかったやつ
  10. 10. ヒカラボ 2017/03/16 10 実際はこうじゃ
  11. 11. ヒカラボ 2017/03/16 11 AI (1/2) ● 人工的にコンピュータ上などで人間と同様の知 能を実現させようという試み、或いはそのため の一連の基礎技術を指す(Wikipedia) ● バズワードとして使われている「AI」は「機械 学習」とほぼ同義であり、その中の大半は 「ディープラーニング」 – 囲碁、将棋 – 自動運転 etc...
  12. 12. ヒカラボ 2017/03/16 12 AI (2/2) ● 「何でもできるすごいやつ」みたいに思われて いる実際はそんなことない ● 現に大手ベンダーとかが「AI」と称して売って いるのは単なる機械学習パッケージ – H社の事例 ● http://social-innovation.hitachi/jp/solutions/ai/ ● https://wirelesswire.jp/2016/11/57683/
  13. 13. ヒカラボ 2017/03/16 13 ディープラーニング ● 「機械学習」の一手法 ● パーセプトロン→ニューラルネットワーク→ ディープラーニング と進化してきた – 半ば見捨てられていた手法がムーアの法則により蘇 り世界を席巻するという胸熱展開ではある
  14. 14. ヒカラボ 2017/03/16 14 再掲
  15. 15. 残ったのは「機械学習」「統計学」 じゃあこれらはいったい?
  16. 16. の前に、説明してない 大事な言葉がもうひとつ
  17. 17. データサイエンス/ データサイエンティスト
  18. 18. ヒカラボ 2017/03/16 18 定義 (1/5) ● 「データサイエンティスト協会」なるものがあ るのでここを見れば分かるに違いない – http://www.datascientist.or.jp/ ● “実際には新しい職業である「データサイエン ティスト」には明確な定義がなく、対応領域も 広いことから、さまざまな課題も生まれていま す” – 定義ないんかーい
  19. 19. ヒカラボ 2017/03/16 19 定義はどこだ (2/5) ● がんばってPDF漁ったらあった – http://www.datascientist.or.jp/news/2014/pdf/1 210.pdf ● 「データサイエンティストとは、データサイエ ンス力、データエンジニアリング力をベースに データから価値を創出し、ビジネス課題に答え を出すプロフェッショナル」
  20. 20. ヒカラボ 2017/03/16 20 定義はどこだ (3/5) ● 「データサイエンス」「データエンジニアリン グ」 is 何 ● データサイエンス(力) – 「情報処理、人工知能、統計学などの情報科学系の 知恵を理解し、使う力」 ● データエンジニアリング(力) – 「データサイエンスを意味のある形に使えるように し、実装、運用できるようにする力」
  21. 21. ヒカラボ 2017/03/16 21 定義を求めて三千里 (4/5) ● よくわからんので、今春開設される滋賀大学 データサイエンス学部のサイトも見てみる – https://www.ds.shiga-u.ac.jp/ ● “データサイエンスとは社会に溢れているデータ から<価値>を引き出す学問です”
  22. 22. ヒカラボ 2017/03/16 22 やっと定義に出会えた (5/5) ● これは非常に分かりやすいし、皆さんがこの分 野に興味を持っているのもここなのでは – データから価値を引き出したいですよね? ● というわけで、やっと「機械学習」と「統計 学」の話に戻ります
  23. 23. 機械学習 vs. 統計学 (1/3) ● 結論から言うと「データから価値を引き出す」
  24. 24. ヒカラボ 2017/03/16 24 機械学習 vs. 統計学 (2/3) ● 機械学習で定評のある入門書『はじめてのパ ターン認識』で取り上げられている手法  ベイズの識別規則  kNN法  線形識別関数  ロジスティック回帰  パーセプトロン  サポートベクトルマシン  主成分分析  部分空間法  k-means法  階層型クラスタリング  EMアルゴリズム  決定木  ブースティング  ランダムフォレスト
  25. 25. ヒカラボ 2017/03/16 25 機械学習 vs. 統計学 (3/3) ● 明らかに統計学の手法だったり、そこから派生 したものだったりが混じっている  ベイズの識別規則  kNN法  線形識別関数  ロジスティック回帰  パーセプトロン  サポートベクトルマシン  主成分分析  部分空間法  k-means法  階層型クラスタリング  EMアルゴリズム  決定木  ブースティング  ランダムフォレスト
  26. 26. ヒカラボ 2017/03/16 26 機械学習の定義 ● 大量のデータをコンピュータを使って学習し、そ こに潜むパターンを見つけ出すこと – SASのサイトから借用して一部アレンジ ● 見つけ出したパターンを未知のデータに適用し、 予測すること – メールの文章からスパムかどうか判定する – 明日の天気と気温からビールの売上を予測する
  27. 27. ヒカラボ 2017/03/16 27 統計学の定義 ● 対象の全体または一部を観察し、そこから数量 的法則(規則)を発見する – みんな大好き『統計学入門』を要約 ● あれっおんなじだ
  28. 28. ヒカラボ 2017/03/16 28 機械学習 vs. 統計学 再び ● どちらも「データからパターン・法則を見出 す」という点であんまり変わらない – 木を切るのに斧を使うのか鉈を使うのかぐらいのノ リで、「木を切る」という行為に変わりはない ● 若干のニュアンスの違いはある(後述) – とはいえ「データから価値を引き出す」が目的であ る我々にとっては単なる道具の違いでしかない – 道具を選り好みする奴にろくなのはいない
  29. 29. ヒカラボ 2017/03/16 29 まとめ (1/2) ● 「AI」は「機械学習」とほぼ同義で使われてい る ● 「ディープラーニング」は機械学習の一手法 ● 「機械学習」「統計学」はどちらもデータから 何らかのパターン・法則を見出す手法
  30. 30. ヒカラボ 2017/03/16 30 まとめ (2/2) ● 我々がやりたいのは「データから価値を引き出 す」こと ● この目的に照らすと、機械学習も統計学もあく まで道具であり、取り立てて区別する必要はな い
  31. 31. 2. 「データ分析」の 今とこれから
  32. 32. ヒカラボ 2017/03/16 32 はじめに ● ここまでは便宜上「統計学や機械学習を駆使し てデータから法則を見出す行為」を「データサ イエンス」と呼称していましたが、宗教上の理 由によりここからは「データ分析」とします – 理由が気になる人は懇親会で聞いてみてください
  33. 33. 問題です
  34. 34. データ分析の中でも 「AI」がすごいブームですが、 なんでブームに なっているんでしょうか?
  35. 35. 答え
  36. 36. 誰でも簡単にできるように なってきたから
  37. 37. ヒカラボ 2017/03/16 37 昔 ● そもそもデータがない ● データがあってもマシンパワーが足りない ● 高度な数学の知識がないと扱えない ● ナレッジがない
  38. 38. ヒカラボ 2017/03/16 38 今 (1/2) ● データなら腐るほどある – 人の行動履歴がWebに蓄積されるようになった – オープンデータがいっぱい ● マシンパワーも腐るほどある – ムーアの法則 – GPU – クラウド
  39. 39. ヒカラボ 2017/03/16 39 今 (2/2) ● 大量データと潤沢な計算資源により、高度な数 学を駆使しなくても「物理で殴れる」 – 総当り(に近いノリ)で試行錯誤が可能に ● ディープラーニングとかまさにそれ ● 情報がいくらでも転がっている – 出版ラッシュ – Webにもいっぱい
  40. 40. ね、簡単でしょう?
  41. 41. ここで第二問
  42. 42. 「誰でも簡単にできること」が ただできるだけで 競争優位になるでしょうか?
  43. 43. ヒカラボ 2017/03/16 43 生存戦略としてのデータ分析 (1/5) ● 今流行ってるのは機械学習よりのアプローチ ● 機械学習は工学的なアプローチのため、ITエン ジニアとの親和性が高い – 理論、プロセスより結果重視 ● というのもあり、周囲でも優秀なエンジニアが どんどん機械学習を始めている – 優秀なのですぐに成果が上がっている
  44. 44. ヒカラボ 2017/03/16 44 生存戦略としてのデータ分析 (2/5) ● 端的に言うとエンジニア個人の生存戦略という 観点ではこの分野はとっくにレッドオーシャン ● 他の分野で既に優秀な人が、得意分野と機械学 習を掛け合わせてなんかやる、みたいなのはま だまだ有望 ● むしろある程度使えないとヤバいみたいになる こともありえる……?
  45. 45. ヒカラボ 2017/03/16 45 生存戦略としてのデータ分析 (3/5) ● まだあるよ ● 某2016年にもっとも売れた技術書にこんな記述 が – 「ディープラーニングって学習の過程に人が介在し ないから素晴らしい」(意訳) ● それってもう人いらないじゃん……
  46. 46. ヒカラボ 2017/03/16 46 生存戦略としてのデータ分析 (4/5) ● マシンパワーを武器に試行錯誤するアプローチ は容易に機械で代替可能 ● 「データさえ突っ込めば勝手に学習してくれ る」ことを謳うプロダクトは既にいっぱいある し、精度もこれから上がる
  47. 47. ヒカラボ 2017/03/16 47 生存戦略としてのデータ分析 (5/5) ● こんな時代はもう目の前 – 実用上必要なレベルの精度は機械が勝手に出せる – それを越えようとしたらとてつもない専門性が必要 ● データ収集や前処理など、とても大事だが地道 でつらい作業は当分残りそうではある – そういうのが好きな人はそこに振るのはありそう
  48. 48. ヒカラボ 2017/03/16 48 小休止 ● 「人工知能ブーム」は誰でも簡単にできるよう になったから起こった ● 「誰でも簡単にできる」ので、既存の得意分野 と組み合わせるとか、みんなやりたがらないこ とをするとかしないと競争優位にならない – 「これしかできない」データサイエンティストはす ぐに仕事がなくなる……
  49. 49. あれ? あんまり明るい話にならない?
  50. 50. - - - ここからポジショントーク - - -
  51. 51. ヒカラボ 2017/03/16 51 このセクションのタイトルは? ● 「データ分析」の今とこれから ● ここまで機械学習の話ばっかりだけど統計学は? ● そうです – なので ● ここから – さっきちょっと言った「若干のニュアンスの違い」の話をします ポジショントーク中
  52. 52. ヒカラボ 2017/03/16 52 ニュアンスの違い is 何 ● キーワードは既に出ている – 「機械学習は工学的なアプローチ」 – 「理論、プロセスより結果重視」 ● 「結果重視」の結果とは? – 機械学習の定義をおさらい ● 大量のデータをコンピュータを使って学習し、そこに潜むパ ターンを見つけ出す ● 見つけ出したパターンを未知のデータに適用し、予測する ポジショントーク中
  53. 53. ヒカラボ 2017/03/16 53 機械学習 ● (主流の)機械学習の目的は「予測」 – 予測が当たれば正義 ● なので、予測精度が上がるためならなんでもやる – ニューラルネットをものすごい多層にしたり – 複数の学習器で多数決したり ポジショントーク中
  54. 54. ヒカラボ 2017/03/16 55 一方の統計学 ● 「データからパターンを見出す」という点では 同じでは – 同じです ● だが、統計学においては必ずしもパターンを予 測に使うことが目的ではない – 「パターンを見出しそれを理解する」ことに力点が 置かれる ポジショントーク中
  55. 55. ポジショントーク中 http://xica.net/magellan/marketing-idea/stats/statistics-words/
  56. 56. それって何が違うのか (1/2) ● 競馬予測を例に取ってみましょう ポジショントーク中
  57. 57. ヒカラボ 2017/03/16 58 それって何が違うのか (2/2) ● 予想屋 – 使える情報は全て使って、勝つ馬が予測できればそ れでいい ● 勝つ馬が分かればお金が儲かるから – 税務署がアップを始めました ● 馬主、調教師 – 予測できるだけではあまり意味がない ポジショントーク中
  58. 58. ヒカラボ 2017/03/16 59 なぜ意味がない? ● 彼らの仕事は「勝てる馬を育てる」「目の前に いるこの馬を勝たせる」こと – 「強い馬はなぜ強いのか」「今強くない馬を強くす るにはどうすればいいか」が重要 ● なので、生まれてから成長し、強くなるまでの パターン(メカニズム)そのものを理解する必 要がある ポジショントーク中
  59. 59. ヒカラボ 2017/03/16 60 補足:それって機械学習じゃダメ? ● 機械学習なら予測できるんだから、シミュレー ションして一番いい結果が出る方法を採用すれ ばいいんじゃないの? ● あまりよくない – 特徴量がすごい多いので総当りできなそう – 「相関」と「因果」は違う – 「雨の日には絶対勝てます!」じゃあ雨降らせろっ てか……? ポジショントーク中
  60. 60. - - ポジショントークが加速します - - ポジショントーク中
  61. 61. ヒカラボ 2017/03/16 62 まとめ (1/5) ● 機械学習の目的は「未来(未知のデータ)を予 測すること」 – 予測さえできればそれがゴール ● 統計学の目的は「データの背後に潜むメカニズ ムを理解すること」 – ある程度の予測精度はもちろん必要 – だが、予測の精度を上げるためには何でもやってい い訳ではない ポジショントーク中
  62. 62. ヒカラボ 2017/03/16 63 まとめ (2/5) ● 「未来を予測する」ことだけが目的なら、人を 介さず機械だけで完結する時代は目の前 – もちろんそれだけでも価値をたくさん生み出すこと はできる ● でも、やりたいことって本当にそれだけ? ポジショントーク中
  63. 63. ヒカラボ 2017/03/16 64 まとめ (3/5) ● 競馬の話に戻ります ● 調教師は目の前にいる馬が「次のレースで負け る」と予測されれば諦めるのか? – 勝とうともがくよね – 勝つための手段を追求し続けるよね ● 彼/彼女がやりたいのは「未来を変える」こと ポジショントーク中
  64. 64. ヒカラボ 2017/03/16 65 まとめ (4/5) ● 「未来を予測する」だけではなく「未来を変え る」ことまで求められるフィールドは絶対にある ● 「未来を変える」ためには「人の行動を変える」 必要がある ● 人の行動を変えられるのは人だけ – 「なんだかよく分からないけど当たるからそれに従 え」で人は動くか? – それって神のお告げと何も変わらない ポジショントーク中
  65. 65. ヒカラボ 2017/03/16 66 まとめ (5/5) ● なぜ人にしかできないのか – 事象の背後に潜むメカニズムを明らかにして、成功 までのストーリーを提示しないと人は動かない – 今のところ(そしてたぶん今後しばらくは)「背後 のメカニズムを理解する分析」は機械だけではでき ない ● 人や社会の行動に関する深い考察と、それを数式に落とし こむ能力が必要 ポジショントーク中
  66. 66. 結論 ● こっちはまだまだ明るいぞ ポジショントーク中
  67. 67. - - - ポジショントークここまで - - -
  68. 68. おまけ ● 適当に書いて出した事前のプログラムから漏れ
  69. 69. ヒカラボ 2017/03/16 70 Googleと同じ土俵で戦っても Googleには勝てない ● 機械学習(特にディープラーニング)では大量 のデータと潤沢な計算資源で「物理で殴る」の がとっても有効 ● 世界で一番データと計算資源を持っているのは 誰? – おまけに連中はディープラーニングに最適化された プロセッサを独自に作ったりとかしてるぞ
  70. 70. ヒカラボ 2017/03/16 71 「AI」の得意なこと、苦手なこと (1/3) ● 実活用の分野では、人間の「ちょっぴり知的だ けどほぼ単純作業」はかなりの部分が代替可能 – 名刺の画像からデータ化 – エッチな画像を検出してBAN – ローンの審査 – 自動運転もこの範疇かな
  71. 71. ヒカラボ 2017/03/16 72 「AI」の得意なこと、苦手なこと (2/3) ● 「囲碁で勝つ」は「ちょっぴり知的だけどほぼ 単純作業」には当てはまらなそうだが、これも 万能ではない – 囲碁で勝つAIは将棋では勝てない ● それどころか将棋を指すことすらできない – 将棋で勝てるAIも別にあるが、こんな面白い話が ● http://www.news-postseven.com/archives/20140424_ 252628.html
  72. 72. ヒカラボ 2017/03/16 73 「AI」の得意なこと、苦手なこと (3/3) ● 「ルールが明確に決まっていて今後もそのルー ルは変わらない」分野では人間を超えられる – この世界のごく一部 ● AIは意味を理解することができないので、ルー ル自体が変わると弱い – 囲碁で勝つことはできても「どうして勝っている か」は分からない ● 人に教えることはできない
  73. 73. 3. 未来を変える人になるための 道標
  74. 74. ヒカラボ 2017/03/16 75 さあ一歩踏み出そう ● さっきまでのは一旦忘れましょう – あくまでハートやスタンスの問題であって、技術的 にはやることそんなに変わらない – 機械学習を学ぶと統計にフィードバックがあるし、 逆もまた然り ● てなわけで、学ぶ時も好き嫌いせず両方やりま しょう
  75. 75. ヒカラボ 2017/03/16 76 大事な心構え (1/2) ● あなたが簡単に身に付けられるものは、隣の人 も簡単に身に付けられる – なのですぐ追い付かれる ● だが、苦労して身に付けたものは簡単には追い 付かれない
  76. 76. ヒカラボ 2017/03/16 77 大事な心構え (2/2) ● 努力しよう ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – それって具体的に何というのは後述
  77. 77. で、まずは何から 始めればいいの?
  78. 78. ヒカラボ 2017/03/16 79 これは実は
  79. 79. ヒカラボ 2017/03/16 80 こうじゃ
  80. 80. ヒカラボ 2017/03/16 81 数学は科学の女王にして奴隷 (1/3) ● 今日の聴衆はエンジニア想定だからコンピュー タサイエンスはそこそこ分かってるとして…… ● 当たり前だが数学分からないと無理
  81. 81. ヒカラボ 2017/03/16 82 数学は科学の女王にして奴隷 (2/3) ● でも安心を – 統計学/機械学習に入門するための数学はそこまで レベル高くない ● 高校数学+大学入門レベルの微積・線形代数で 十分 – それすらやりたくない人は諦めましょう
  82. 82. ヒカラボ 2017/03/16 83 数学は科学の女王にして奴隷 (3/3) ● 高校数学やり直しではこの本が評判いい – 朝倉書店『統計学のための数学入門30講』 ● 大学数学はぶっちゃけ学習参考書が実用的で割 といい – マセマの『大学数学キャンパス・ゼミシリーズ』 – 読んだことないが高校数学もマセマでいいかも
  83. 83. ヒカラボ 2017/03/16 84 大事な心構え 再び ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – 真面目に技術書読む時には「写経」するよね – 数学も全く同じ ● 読むだけじゃ理解したつもりになってるだけ – 手を動かそう ● さあ紙とペンを持って
  84. 84. ヒカラボ 2017/03/16 85 準備は整った ● ここまでやると、いよいよ統計学/機械学習の 入門書がちゃんと読めるようになる ● ここからは独断と偏見で、というか自分が読ん でよかったと思う本を紹介 – 割と定番書ばかりなので面白みとかはない – いきなり本だと重い人はオンラインコースでもいい かも ● 自分は詳しくないのでググッて
  85. 85. ヒカラボ 2017/03/16 86 統計学編 (1/2) ● 東大出版会『統計学入門』(通称「赤本」)は やはり外せない…… – 初学者には難しいという声もあるが、確率・確率分 布は早めに入門しておかないと – 線形回帰はいろんな手法の基礎だし ● 東大出版会『自然科学の統計学』(通称「青 本」)も超いい本だが難しい – 一人で読めたら自信を持っていい
  86. 86. ヒカラボ 2017/03/16 87 統計学編 (2/2) ● これだけだとベイズ論者から馬鹿にされるので ベイズも – 岩波書店『データ解析のための統計モデリング入 門』だと前2冊からうまく接続できる ● 「因果は相関と違う」と言ったが因果を追求す る統計学も実はある – 『岩波データサイエンス vol.3』がすごく分かりやす い
  87. 87. ヒカラボ 2017/03/16 88 機械学習編 ● 黄色い悪魔は必ず挫折するのでやめよう ● 森北出版『はじめてのパターン認識』(通称 「はじパタ」)はかなりいい – が、結構難しいのでコロナ社『言語処理のための機 械学習入門』を先に読んでおくといいかも ● 古い版は誤植多いので注意
  88. 88. ヒカラボ 2017/03/16 89 大事な心構え 再び ● 「大事って分かっているが面倒だから実際には なかなかできない」ことを地道にやろう – さあ紙とペンを持って – 数式は全部写して式展開省略してるところは全部自 分で埋めるぐらいの気概は必要 ● 一人でやるとしんどいので、教えてくれる人や一緒に悩ん でくれる人を探すのが結構重要かもしれない
  89. 89. プログラミング編 ● まあPythonだよね ● インプレス『Python機械学習プログラミング』
  90. 90. ヒカラボ 2017/03/16 91 その先は…… ● ここまでできたあなたは相当力がついています ● 自分の好きな分野のオープンデータを探してい ろいろやってみましょう ● 割とガチな勉強会に行ってもだいたい話は通じ るので、人から刺激を受けましょう
  91. 91. という訳で
  92. 92. みんなで 「未来を変える分析ができる人」 になろう!
  93. 93. 以上、 ご清聴ありがとうございました

×