Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
AI時代における
データ分析極論のすすめ
〜データ分析の本質を考える〜
アーク・システム・ソリューションズ株式会社
堀米 俊弘(ほりまい としひろ)
2018年6月21日
簡単な自己紹介
彼を知り己を知れば百戦危うからず
なぜここで
お話しすること
になったのか︖
はじめに
何を(偉そうに)話すの︖
回答︓
とあるところの
勉強会で話した内容
が好評だったから。
(そんなことないよう)
実はインサイトテクノロジー社を受けて内定をお断りした過去が…そ
れで講演の依頼を断り切れなかった…というのもあります。
Who Am I︖
自己紹介
• 所属︓アーク・システム・ソリューションズ株式会社
• ↑もうちょっとで丸3年(肩書はデータアナリスト)
• 堀米 俊弘(ほりまい としひろ)
• 1979年4月9日生まれ(←誕生日が⺟と同じ)
• 札幌第一高校卒業
• 北海道⼤学...
ここでCM
会社概要及び沿革
会社概要
名称 アーク・システム・ソリューションズ株式会社
設⽴ 平成20年1月
資本⾦ 1200万円
所在地 〒060-0001
札幌市中央区北一条⻄七丁目1番地15 あおいビル5階
役員 代表取締役 坂本 謙治
取締役 森...
8
事業概要
自動運転
先進運転⽀援システム(ADAS)
⾞載シミュレータ開発
HMI、カーナビ開発自動⾞
ビックデータ分析
機械学習
アプリケーション
iOS
Android
形式手法
情報セキュリティ評価
セキュリティコンセプト開発
形式手...
9
当社研究開発の取組み
研究開発期間 内容
2012年7月
〜
2015年3月
事業名 戦略的基盤技術高度化⽀援事業
研究名 形式手法を活用した組込みセキュリティ技術の確⽴と安全・安⼼な
CPS 社会を⽀える無線通信ミドルウェアの開発
成果 ...
AI(と言うバズワード)が流⾏している(独り歩きしている)
時代における
データ分析についてお話します。
肩の⼒を抜いて聞いてください。
何を(偉そうに)話すの︖
データ分析って︖
兵は国の大事なり
データはいろいろな所に“転がっている”
例えば
スマートフォン 監視カメラ POSデータ
IoTやクラウドの発展により安価で様々なデータを収集して利⽤することが可能になった。
…と言うのが10年以上前のお話し。(iPhone発売が2007年)
...
データサイエンティストの登場
データ・サイエンティストは
「今世紀でもっともセクシーな職業」
米国経営誌『ハーバード・ビジネス・レビュー』
(2012年10月号)
最近では…データから有意なデータを掘り出す人の事をデータサイエンティストと言う。...
個⼈的には激しく突っ込み
データ・サイエンティストは「今世紀でもっともセクシーな職業」
米国経営誌『ハーバード・ビジネス・レビュー』(2012年10月号)
…そんな事あるかい︕︕
そもそもセクシーって…刺激的︖︖
仕事の中身の大半はかなり地味で...
そもそも…データサイエンティストって…
どんな技能を持っている人︖
と…データサイエンティスト協会は言うけど…
全部出来るスーパー超人なかなかいない︕
それが現実。少なくとも私はそこまでスーパーな能⼒はないので、データアナリスト
(自称︓売れな...
データ分析はサイエンスである
古典的意味で科学的な方法とは以下が満たされることを言う
ただし、データサイエンティストは科学者のように真理を突き詰める事を目的にしては
いけない。あくまでそれがビジネスに役⽴たせる事が目的である
明瞭判明の規則 明...
データサイエンティストじゃないとダメ︖
そもそも
データ分析で何を実現した
いのか︖
データ分析で本当にやりたい事、
本質的に求められている事は何︖
データ分析で解決しうる課題の
設定を明確にする必要がある。
8
使命、目的、目標
顧客、ライバル企業、
市場動向
自社の能⼒、
事業推進能⼒
情勢、環境、
景気、法律
準備期間、実施時間
実⾏タイミング
状況判断はどのように⾏われているのか︖
Enemy
Mission
Troops
Terrain
T...
9
データ分析の考え方
課題
小課題小課題 小課題✖ ✖
⼀般的な課題は複数の課題に因数分解する事ができます。
課題を因数分解して得られる小課題をデータから導かれる仮説に基づき課題を解決する
意志決定を促進する事がデータ分析を活⽤した課題解決の...
例)ソーシャルゲームの売り上げ
売上⾦額=課⾦者数
×課⾦者一⼈当たりの課⾦⾦額(ARPPU)
※課⾦率=課⾦者数
÷アクティブユーザー数(期間内に実際に遊んでいるユーザーの数)
=アクティブユーザー数×課⾦率×ARPPU
つまり、売上⾦額をア...
データ分析の準備
対象の確認
• プロジェクトのターゲット
• プロジェクトの目的
• 評価基準
• データの種別、取得方法
• システム化の有無
• 競合などの確認
などなど
現状の確認
• 基本指標による集計
(定量評価)
• プロジェクト...
データ分析の流れ
分
析
準
備
施
策
の
作
成
施
策
の
実
⾏
• 効果の把握
• 仮説の検証
• 因数分解の検
証
分析(check)
計
画
の
調
整
ただし、気を付けるべきポイントを理解していないとひどい目に合います。
ところで…
ところで…
ある化合物について以下のような事実があります。あなたがこの物質に対して規制を
⾏うべきかの意思決定を⾏う⽴場だとして、情報は⾜りてますか︖⾜りてませんか︖
• 常温で液体の物質である
• ⼯業⽤の溶媒、冷媒として⽤いられる事がある。...
思い込みは禁物
思い込みが結論を間違った方向
にもっていく可能性があります
データを解釈する人によって結論は異なります。
(ちなみに…これに引っかかる人はマルチ商法に引っかかる恐れがあります。)
物事の結果だけではなく原因を含めた客観的な事実を...
ちなみに。
ある化合物について以下のような事実があります。あなたがこの物質に対して規制を
⾏うべきかの意思決定を⾏う⽴場だとして、情報は⾜りてますか︖⾜りてませんか︖
• 常温で液体の物質である
• ⼯業⽤の溶媒、冷媒として⽤いられる事がある。...
閑話休題。
8
データ分析の手法
データに応じて様々な分析⼿法があります。
例)
POS分析…バスケット分析、トライアンドリピート分析、ABC分析、etc
ゲーム分析…セグメント分析、離反分析、etc
カメラ画像…画像解析、⾏動解析、etc
今までは人の⼿...
9
AI〜その言葉に踊らされるな〜
AIとは︖
AIと聞いて何を
イメージしますか︖
あなたは何をイメージしますか︖︖
便利な道具を出してくれる猫型ロボット︖
空を飛べる10万⾺⼒の⼈型ロボット︖
日本AI学会前会⻑松原先生(はこだて未来⼤)曰く
「明確な定義はない」
→機械学習...
AI技術
機械学習
Deep
Learning
言葉の定義の整理(あくまで概念)
AI>機械学習>Deep Learning
技法︓
• 決定木学習
• ニューラルネットワーク→Deep Learning
• サポートベクターマシン(SVM)
• 強化学習
• などなど
特にAI技術の⼀つとしてDeep Learningが注...
Deep Learningの仕組み概要
⼊⼒
こ
れ
は
象
で
す
分類問題においては数学的には特徴量をN次元プロットし、
「どのように境界線を引くか」と言う問題と同義
判定結果
ニューラルネットワークを組んで対象を学習させることで繋がりに重...
参考)DeepLearningの使用例
畳
込
み
層
プ
ー
リ
ン
グ
層
⼊
⼒
画
像
畳
込
み
層
プ
ー
リ
ン
グ
層
畳
込
み
層
最適なフィルタリングを学習する層
プ
ー
リ
ン
グ
層
畳
込
み
層
全
結
合
層
全...
なぜ今流⾏っているのか︖
ニューラルネットワーク自体は昔からある。
じゃあなぜ今なの︖
• ニューラルネットワークを積み重ねると学習が上手
くいかない(微分の勾配が消失する)事が知られて
いた。
• データが少ない。
• 計算量が多くなり、CP...
ところで…
What is this?
ではこれは︖
8
学習データに気を付けよう
人間は猫と答える。
Deep Learningはこれを犬と答えるかもしれない。
(⿊いもの=犬、⽩いもの=猫と解釈した場合)
これはDeep Learningが特徴量をどのように取得、
解釈をするか判断できないこと...
9
DeepLearningを過信しない
Learningは万能
であるDeepLearningを使う事で膨大なデータを効率的に扱う事が出来ましたが、何でもで
きるわけではありません。
DeepLearningを過信しては
いけない
Deep ...
参考)AIとフレーム問題
AIが出来ないことはあるか︖
例えば…有限の情報処理能⼒しかないAIには、現実に起こりうる問題全
てに対処することができない。(これをフレーム問題と言う)
考慮すべき空間が有限でない限り、無限の可能性について考えざるを...
AI時代の
データ分析は
どうあるべきか
まず⼤前提
データ分析は⼿段であって
目的ではない。
難しい数学を使えば良いというものでもない。
簡単な仕組みで実現できるのであればそれに勝るものはない
どの時代でも言われることですが
必要なのはハサミ(Excel)ですか︖
チェンソー(⾼度な...
復習
言うまでもなく。
今後はビジネス⼒、
データエンジニアリング⼒が問われる
その為には何を理解しておく必要があるのでしょうか︖
2014年12月データサイエンティスト協会資料より
参考) https://www.linkedin.com/pulse/inconvenient-truth-data-science-kamil-bartocha/
1.データはどれも綺麗ではない
2.大半の時間は整理と前処理に費やされる
3....
自分の仮説を疑え
「完全にありえないことを取り除けば、残ったものは、いかにあり
そうにないことでも、事実に間違いないということです」
アーサー・コナン・ドイル「緑柱⽯の宝冠」
批判的な意⾒にさらされても生き残るのが真理に近い事実
DeepLea...
この章でのまとめ
データ分析はゴールではない
あくまで始まりである。
エンジニアリングとしては
 データを保存し再利⽤可能な状態にし続ける事
 メンテナンス性を考えて運⽤する事
ビジネスとしては
 収益性・効率性の担保
 説明責任を果たすこと
お⾦のお話し
算多きは勝ち、算少なきは勝たず
8
我々はプロフェッショナル…であるはず
趣味とプロの違いは何でしょう︖
趣味…好きな事を好きなタイミングでする。
求められない
プロ…求められた内容を一定の期間の中で⾏う。
その為に必要な要求が発生する。
要は仕事にする以上お⾦になる必要があ...
9
働くって何︖
銀⾏時代にパートさんから言われたこと。
「お客さんからしたら新卒もベテランも同じ」
→お⾦をもらう以上プロフェッショナルであることが求
められる。
程度はどうであれ周りの⼈からはそう⾒られてしまう。
プロとは(いろいろな定義が...
給料はどのように決まるか
例えば北海道のシステムエンジニアの給料
→中⼩だと年収300~600万くらい。
役職とかつくとランクアップ
出来る仕事(使えるプログラム)の種類なんかでも変わります。
では、年収400万(月収25万+ボーナス100万)...
ソーシャルゲームの場合(あくまで適当な例)
開発費1000万(16⼈月くらい)
+広告費300万
+運用維持費150万/月(サーバー費用+運用者費用)
→月幾ら売り上げが発生しなければならないのか︖
ソーシャルゲームの仕組み
・無料で遊べる
・...
ふたたびソーシャルゲームの売り上げ
売上⾦額=課⾦者数
×課⾦者一⼈当たりの課⾦⾦額(ARPPU)
※課⾦率=課⾦者数
÷アクティブユーザー数(期間内に実際に遊んでいるユーザーの数)
=アクティブユーザー数×課⾦率×ARPPU
つまり、売上⾦額...
売り上げ
開発費1000万+広告費300万+運⽤維持費150万/月
3か月で開発費と広告費を賄うとすると…ひと月5~600万の売り上げが必要
理想)
50000人×2%×5000円=500万円
現実)
10000人×1%×500円=5万円
なぜ...
分析でいくら“稼がないと”いけないのか︖
仮にその案件だけでお仕事するとして、毎月100万以上は利益を上げないといけない。
(もちろん、その案件だけをやってるわけではないと思うけど…)
データ分析それ自身ではお⾦は⽣み出せません。
あくまで業務...
まとめ
兵を知る者は、動いて迷わず、挙げて窮せず。
まとめ
⻑い時間お疲れ様でした。今回のまとめです。
• データ分析は⼿段であり、目的ではない。
→しつこいけどここが分かっていない人が結構いる。
• データの⾒せ方で人を違う結論に導く事が出来てしまう。
• 客観的に事実を積み上げて仮説を反証し...
最後に…
どんな職種であれ、若いうちに磨いておいた方が良い能⼒に
ついてお話しします。ポイントは4つ。
 ロジカルシンキング
 プレゼンテーション能⼒
 コミュニケーション能⼒
 適応⼒
ここまでは学生に求める話。
プロであるなら…自分だけの
...
8
付録)何を学ぶべきか
個人的な意⾒として。マーケティングをやっているなら以下は必須
• ⾏動経済学…⼊門編で⼗分。
• ⼼理学…特に消費者⼼理とか
• 兵法…孫⼦とかはおすすめ。
データサイエンスの技術を学びたいなら…
http://web...
Upcoming SlideShare
Loading in …5
×

[db analytics showcase Sapporo 2018] B11 AI時代におけるデータ分析極論のすすめ ~データ分析の本質を考える~

213 views

Published on

[db analytics showcase Sapporo 2018] B11 AI時代におけるデータ分析極論のすすめ ~データ分析の本質を考える~
アーク・システム・ソリューションズ株式会社 堀米 俊弘 氏

Published in: Technology
  • Be the first to comment

[db analytics showcase Sapporo 2018] B11 AI時代におけるデータ分析極論のすすめ ~データ分析の本質を考える~

  1. 1. AI時代における データ分析極論のすすめ 〜データ分析の本質を考える〜 アーク・システム・ソリューションズ株式会社 堀米 俊弘(ほりまい としひろ) 2018年6月21日
  2. 2. 簡単な自己紹介 彼を知り己を知れば百戦危うからず
  3. 3. なぜここで お話しすること になったのか︖ はじめに 何を(偉そうに)話すの︖
  4. 4. 回答︓ とあるところの 勉強会で話した内容 が好評だったから。 (そんなことないよう) 実はインサイトテクノロジー社を受けて内定をお断りした過去が…そ れで講演の依頼を断り切れなかった…というのもあります。 Who Am I︖
  5. 5. 自己紹介 • 所属︓アーク・システム・ソリューションズ株式会社 • ↑もうちょっとで丸3年(肩書はデータアナリスト) • 堀米 俊弘(ほりまい としひろ) • 1979年4月9日生まれ(←誕生日が⺟と同じ) • 札幌第一高校卒業 • 北海道⼤学⼯学研究科量⼦物理⼯学専攻修⼠卒 – 一浪一留 – 修論は複雑ネットワーク(要はFacebookとか) • 現在までのお仕事︓ – 銀⾏員(窓⼝) – システム屋さん(いわゆるSier。システム開発、各種提案、Webマーケティング) – ソーシャルゲーム分析 – ソーシャルゲーム製作(サーバーサイド)(設計、製造) • 趣味・特技︓サッカー観戦(コンサドーレ)、映画、剣道(四段)などなど。 • 現在︓ 機械学習(Deep Learning)を活用したシステムの研究開発担当 • Web屋さん+データ分析屋さん+AI屋さん…一言で言うと 「売れないお笑い芸人」みたいなもの
  6. 6. ここでCM
  7. 7. 会社概要及び沿革 会社概要 名称 アーク・システム・ソリューションズ株式会社 設⽴ 平成20年1月 資本⾦ 1200万円 所在地 〒060-0001 札幌市中央区北一条⻄七丁目1番地15 あおいビル5階 役員 代表取締役 坂本 謙治 取締役 森川 聡久 社外取締役 江丸 貴紀 社外監査役 松浦 元樹 関連会社 株式会社ヴィッツ (愛知県名古屋市、資本⾦7,500万円、代表 服部博⾏)
  8. 8. 8 事業概要 自動運転 先進運転⽀援システム(ADAS) ⾞載シミュレータ開発 HMI、カーナビ開発自動⾞ ビックデータ分析 機械学習 アプリケーション iOS Android 形式手法 情報セキュリティ評価 セキュリティコンセプト開発 形式手法開発ツール 農業機械 農業機械の機能安全 農業 IoT IoT/ビッグデータ ちいさな会社、⼤きな仕事 私たちはとてもちいさな会社ですが先端技術に挑み、そして悩みながら⼤きな仕事 に⽴ち向かっている企業です。IoT、データ分析、AI、⾞載向け組込みソリューショ ン、スマートフォンアプリ開発ソリューション、形式手法を活用した情報セキュリ ティ等によりお客様のベストパートナーを目指します。
  9. 9. 9 当社研究開発の取組み 研究開発期間 内容 2012年7月 〜 2015年3月 事業名 戦略的基盤技術高度化⽀援事業 研究名 形式手法を活用した組込みセキュリティ技術の確⽴と安全・安⼼な CPS 社会を⽀える無線通信ミドルウェアの開発 成果 ・ISO/IEC15408及びISO/IEC62443のセキュリティ技術に着目した組込み無 線通信ミドルウェアのセキュリティコンセプト開発 ・形式手法を活用した脅威分析検証の実施 ・ISO/IEC18405に基づいた脆弱性評価技術の習得 ・形式手法を活用した脆弱性評価実施方法のドキュメント化 2014年10月 〜 2017年3月 事業名 戦略的基盤技術高度化⽀援事業 研究名 農業機械のさらなる高度化と海外進出に資する次世代電⼦制御ソフト ウェア基盤の開発 成果 ・農業機械通信プロトコルの国際規格 ISO11783 と、農耕業機向け 機能安全規格 ISO/IEC25119に対応したソフトウェアを導出する 「アプリケーション開発フレームワーク」の実現 2017年9月 〜 2020年3月 事業名 戦略的基盤技術高度化⽀援事業 研究名 積雪寒冷地域の交通弱者移動⽀援のための雪道⾛⾏を可能とする自動 運転技術の開発 研究名 自律的自動運転の実現を⽀える⼈⼯知能搭載システムの安全性⽴証技 術の研究開発Now!!
  10. 10. AI(と言うバズワード)が流⾏している(独り歩きしている) 時代における データ分析についてお話します。 肩の⼒を抜いて聞いてください。 何を(偉そうに)話すの︖
  11. 11. データ分析って︖ 兵は国の大事なり
  12. 12. データはいろいろな所に“転がっている” 例えば スマートフォン 監視カメラ POSデータ IoTやクラウドの発展により安価で様々なデータを収集して利⽤することが可能になった。 …と言うのが10年以上前のお話し。(iPhone発売が2007年) 今ではデータを使って何かするは当たり前。(あえてデータ分析とは言わない) →最近ではAI技術を使ってデータを活⽤し、サービスを提供する時代
  13. 13. データサイエンティストの登場 データ・サイエンティストは 「今世紀でもっともセクシーな職業」 米国経営誌『ハーバード・ビジネス・レビュー』 (2012年10月号) 最近では…データから有意なデータを掘り出す人の事をデータサイエンティストと言う。 個人的には…
  14. 14. 個⼈的には激しく突っ込み データ・サイエンティストは「今世紀でもっともセクシーな職業」 米国経営誌『ハーバード・ビジネス・レビュー』(2012年10月号) …そんな事あるかい︕︕ そもそもセクシーって…刺激的︖︖ 仕事の中身の大半はかなり地味です(たぶん私だけでなく、データに関わる人みんな)。
  15. 15. そもそも…データサイエンティストって… どんな技能を持っている人︖ と…データサイエンティスト協会は言うけど… 全部出来るスーパー超人なかなかいない︕ それが現実。少なくとも私はそこまでスーパーな能⼒はないので、データアナリスト (自称︓売れないお笑い芸人) 2014年12月データサイエンティスト協会資料より
  16. 16. データ分析はサイエンスである 古典的意味で科学的な方法とは以下が満たされることを言う ただし、データサイエンティストは科学者のように真理を突き詰める事を目的にしては いけない。あくまでそれがビジネスに役⽴たせる事が目的である 明瞭判明の規則 明らかに真理と認められたものだけを判断の基準とする。 要素分解 解決可能な要素に分解して考察する。 具体から抽象へ 単純なものから複雑なものへと順番に認識をすすめる。 総合 ⾒落としがないことを⼗分に確かめて、完全な列挙と再構成により全体を 再構成する。 推論,実証,常識に関する⼀定規準を適⽤することで,主張の有効性は試されなければ ならないのである。 「すべてのアメリカ人のための科学」pp.17-18 17世紀デカルト『方法序説』より
  17. 17. データサイエンティストじゃないとダメ︖ そもそも データ分析で何を実現した いのか︖ データ分析で本当にやりたい事、 本質的に求められている事は何︖ データ分析で解決しうる課題の 設定を明確にする必要がある。
  18. 18. 8 使命、目的、目標 顧客、ライバル企業、 市場動向 自社の能⼒、 事業推進能⼒ 情勢、環境、 景気、法律 準備期間、実施時間 実⾏タイミング 状況判断はどのように⾏われているのか︖ Enemy Mission Troops Terrain Time 何 を す べ き か METTT 施策 成功するための課題 正しく状況判断するためには様々な角度から自身の置かれている状況を把握した上で意思決定 する必要があると言われています。
  19. 19. 9 データ分析の考え方 課題 小課題小課題 小課題✖ ✖ ⼀般的な課題は複数の課題に因数分解する事ができます。 課題を因数分解して得られる小課題をデータから導かれる仮説に基づき課題を解決する 意志決定を促進する事がデータ分析を活⽤した課題解決の構造となります。 データ データデータ 仮説 仮説 仮説 問題を解決するためには問題の本質を⾒極める事が必要です。 本質とは︖…物事の本来の性質や姿。それなしにはその物が存在し得ない性質・ 要素(⼤辞林 第三版) 戦略に起因 戦術に起因
  20. 20. 例)ソーシャルゲームの売り上げ 売上⾦額=課⾦者数 ×課⾦者一⼈当たりの課⾦⾦額(ARPPU) ※課⾦率=課⾦者数 ÷アクティブユーザー数(期間内に実際に遊んでいるユーザーの数) =アクティブユーザー数×課⾦率×ARPPU つまり、売上⾦額をアップさせるには、 ・課⾦率を上げる ・アクティブユーザー数をアップさせる ・一⼈当たりの単価をアップさせる のどれかしか方法がない。 小課題に対応する
  21. 21. データ分析の準備 対象の確認 • プロジェクトのターゲット • プロジェクトの目的 • 評価基準 • データの種別、取得方法 • システム化の有無 • 競合などの確認 などなど 現状の確認 • 基本指標による集計 (定量評価) • プロジェクトドメインの調 査 • 定性評価 • 課題の抽出 などなど データ戦略の策定 • 取得するKPI(重要業績 評価指標) • データ収集・保存方法 • データ管理方法 • 評価サイクルの設計 • 課題の因数分解 などなど デ ー タ 分 析 準 備 完 了 基本的な準備フローとしては以下のようなことを⾏います (⾊々なやり方はあると思うけど…)
  22. 22. データ分析の流れ 分 析 準 備 施 策 の 作 成 施 策 の 実 ⾏ • 効果の把握 • 仮説の検証 • 因数分解の検 証 分析(check) 計 画 の 調 整 ただし、気を付けるべきポイントを理解していないとひどい目に合います。
  23. 23. ところで…
  24. 24. ところで… ある化合物について以下のような事実があります。あなたがこの物質に対して規制を ⾏うべきかの意思決定を⾏う⽴場だとして、情報は⾜りてますか︖⾜りてませんか︖ • 常温で液体の物質である • ⼯業⽤の溶媒、冷媒として⽤いられる事がある。 • 原⼦⼒発電所で⽤いられている。 • 発泡スチロールの製造に⽤いられる。 • 日常生活における死因においてこれが直接の原因となった事故は交通事故よりも多い。 (交通事故︓4373人に対し4866人(2014年統計 Wikipediaより)) • 事件発生時における致死率が⾼い(約50%) • 中毒症状も報告されている。中毒になると頭痛や吐き気、嘔吐などがあり、重度になると けいれんや意識障害を引き起こし、死に⾄ることもある。 • アメリカにおける銃犯罪などの暴⼒的犯罪の60%以上は、摂取から8時間以内に起きて いる。 • 日常的に摂取して育った⼦供の約半数は、テストが平均点以下である。 • A国では、この危険物の接種を制限する法律は現時点では存在しない。
  25. 25. 思い込みは禁物 思い込みが結論を間違った方向 にもっていく可能性があります データを解釈する人によって結論は異なります。 (ちなみに…これに引っかかる人はマルチ商法に引っかかる恐れがあります。) 物事の結果だけではなく原因を含めた客観的な事実を評価することで初めて正しい判 断が可能となります。 知っている人はごめんなさい。この正体はDHMOと呼ばれる…水です。 ここで言いたいのは
  26. 26. ちなみに。 ある化合物について以下のような事実があります。あなたがこの物質に対して規制を ⾏うべきかの意思決定を⾏う⽴場だとして、情報は⾜りてますか︖⾜りてませんか︖ • 常温で液体の物質である • ⼯業⽤の溶媒、冷媒として⽤いられる事がある。 • 原⼦⼒発電所で⽤いられている。 • 発泡スチロールの製造に⽤いられる。 • 日常生活における死因においてこれが直接の原因となった事故は交通事故よりも多い。 (交通事故︓4373人に対し4866人(2014年統計 Wikipediaより)) • 事件発生時における致死率が⾼い(約50%) • 中毒症状も報告されている。中毒になると頭痛や吐き気、嘔吐などがあり、重度になると けいれんや意識障害を引き起こし、死に⾄ることもある。 • アメリカにおける銃犯罪などの暴⼒的犯罪の60%以上は、摂取から8時間以内に起きて いる。 • 日常的に摂取して育った⼦供の約半数は、テストが平均点以下である。 • A国では、この危険物の接種を制限する法律は現時点では存在しない。 風呂場での溺死は意外 と多いそうです 水中毒です。 当たり前です。 もう半分は平均点以上を 取っています。
  27. 27. 閑話休題。
  28. 28. 8 データ分析の手法 データに応じて様々な分析⼿法があります。 例) POS分析…バスケット分析、トライアンドリピート分析、ABC分析、etc ゲーム分析…セグメント分析、離反分析、etc カメラ画像…画像解析、⾏動解析、etc 今までは人の⼿ですべてを理解して分析する必要があった データ分析においても AI技術の活⽤が進んでいる
  29. 29. 9 AI〜その言葉に踊らされるな〜
  30. 30. AIとは︖ AIと聞いて何を イメージしますか︖ あなたは何をイメージしますか︖︖ 便利な道具を出してくれる猫型ロボット︖ 空を飛べる10万⾺⼒の⼈型ロボット︖ 日本AI学会前会⻑松原先生(はこだて未来⼤)曰く 「明確な定義はない」 →機械学習をするものだけが⼈⼯知能ではない。結果的 に知的な振舞いを⾏う事が出来れば人⼯知能である。 極論を言えば、IF文の組合せも人⼯知能と言える。 機械学習は機械が知的にふるまうための道具の一つ。 ⼀般的なAIは機械学習などの道具を組合せてサービスを実現している。 ところで…
  31. 31. AI技術 機械学習 Deep Learning 言葉の定義の整理(あくまで概念)
  32. 32. AI>機械学習>Deep Learning 技法︓ • 決定木学習 • ニューラルネットワーク→Deep Learning • サポートベクターマシン(SVM) • 強化学習 • などなど 特にAI技術の⼀つとしてDeep Learningが注目されている。 Deep Learningとは︖→深層ニューラルネットワークとも言う。 従来からあるニューラルネットワークを多層構造にする、脳科学を応用した機械学習の一種。 特徴量と言われる変数を自動で生成(発⾒)し分類する。→対象物のデータから特徴的 な量を抽出し、定義されたデータに分類を⾏う。 機械学習は以下の言葉で定義される。 「明⽰的にプログラムしなくても学習する能⼒をコンピュータに与える研究分野」 アーサー・サミュエル1959年 要はこれまで人間が判定してきた事を機械が判別する技術として注目を浴びているのが Deep Learning
  33. 33. Deep Learningの仕組み概要 ⼊⼒ こ れ は 象 で す 分類問題においては数学的には特徴量をN次元プロットし、 「どのように境界線を引くか」と言う問題と同義 判定結果 ニューラルネットワークを組んで対象を学習させることで繋がりに重み付けがなされていく 例︓象の画像を⼊⼒して、ニューラルネットに画像が何であるかを判定させる場合。
  34. 34. 参考)DeepLearningの使用例 畳 込 み 層 プ ー リ ン グ 層 ⼊ ⼒ 画 像 畳 込 み 層 プ ー リ ン グ 層 畳 込 み 層 最適なフィルタリングを学習する層 プ ー リ ン グ 層 畳 込 み 層 全 結 合 層 全 結 合 層 層 画像を判断する層 出 ⼒ 120×120 3×3×32のデータとし て出⼒
  35. 35. なぜ今流⾏っているのか︖ ニューラルネットワーク自体は昔からある。 じゃあなぜ今なの︖ • ニューラルネットワークを積み重ねると学習が上手 くいかない(微分の勾配が消失する)事が知られて いた。 • データが少ない。 • 計算量が多くなり、CPUでの計算は難しい 数年前 • 様々なブレークスルーの創出(例えばrelu関数) • データのビッグデータ化 • GPGPU(GPUを用いた汎用計算)の発展 • 膨⼤な画像や動画データの処理の需要 現在 ただし、ここでも落とし⽳があります。
  36. 36. ところで… What is this?
  37. 37. ではこれは︖
  38. 38. 8 学習データに気を付けよう 人間は猫と答える。 Deep Learningはこれを犬と答えるかもしれない。 (⿊いもの=犬、⽩いもの=猫と解釈した場合) これはDeep Learningが特徴量をどのように取得、 解釈をするか判断できないことが要因。 学習データは判定物の本質(特徴量)が判断でき るものでなければならない。 →偏りなく大量の学習データを集めることが重要… それが簡単に出来れば苦労しない。
  39. 39. 9 DeepLearningを過信しない Learningは万能 であるDeepLearningを使う事で膨大なデータを効率的に扱う事が出来ましたが、何でもで きるわけではありません。 DeepLearningを過信しては いけない Deep Learningで解決できるのは主に • 回帰問題 • 分類問題 です。分類問題を解くにしてもあらかじめ分類を適切な学習データを⽤意して学習が必要です
  40. 40. 参考)AIとフレーム問題 AIが出来ないことはあるか︖ 例えば…有限の情報処理能⼒しかないAIには、現実に起こりうる問題全 てに対処することができない。(これをフレーム問題と言う) 考慮すべき空間が有限でない限り、無限の可能性について考えざるを得ないという点 が問題なのであり、実際のAI研究では無数の問題全てに対処するのではなく、⼀定 の範囲(フレーム)を作ってその中だけで思考する事をしている。フレームの取捨選択 を⾏う事が有限時間で実現することは難しいため、汎⽤的AIは今の所出来ていない。 フレーム問題の例にもあるように、特化型AIと汎⽤的AI、解析可能なAIと解析不 可能なAIのようにAI技術の中でも技術要素間で本質的な違いが存在する。 そもそもAIと言う言葉は範囲が広く、⼀元的にAIと言う言葉を使う事で議論の収 束が図れなくなる可能性が存在するため、上記を踏まえた上で検討すべきAIを 定義しなおす必要がある。
  41. 41. AI時代の データ分析は どうあるべきか
  42. 42. まず⼤前提 データ分析は⼿段であって 目的ではない。 難しい数学を使えば良いというものでもない。 簡単な仕組みで実現できるのであればそれに勝るものはない どの時代でも言われることですが 必要なのはハサミ(Excel)ですか︖ チェンソー(⾼度な数学)ですか︖
  43. 43. 復習 言うまでもなく。 今後はビジネス⼒、 データエンジニアリング⼒が問われる その為には何を理解しておく必要があるのでしょうか︖ 2014年12月データサイエンティスト協会資料より
  44. 44. 参考) https://www.linkedin.com/pulse/inconvenient-truth-data-science-kamil-bartocha/ 1.データはどれも綺麗ではない 2.大半の時間は整理と前処理に費やされる 3.95%の仕事はDeep Learningを必要としない 4.90%のケースで線形回帰でうまくいく 5.ビッグデータはただの道具 6.ベイジアンに帰依せよ 7.どういうやり方をしようが誰も気にかけない 8.学術界と産業界とは2つの異なる世界だ 9.プレゼンは重要だ︓PowerPointマスターになろう 10.全てのモデルは嘘だ、だが中には役⽴つものもある 11.全自動化されたデータサイエンスなんてものはない、自ら⼿を汚して働け データサイエンスの不都合な真実
  45. 45. 自分の仮説を疑え 「完全にありえないことを取り除けば、残ったものは、いかにあり そうにないことでも、事実に間違いないということです」 アーサー・コナン・ドイル「緑柱⽯の宝冠」 批判的な意⾒にさらされても生き残るのが真理に近い事実 DeepLearningなどの統計的処理が⾏われたAI技術は“なぜそうなったか”を説明できない。 それでも結果から仮説を交えて説明する必要がある。 仮説 ただし、仮説は常に事実から反証し検証されなければならない。 データ 分析結果 個人的には納得できるストーリー性も仮説には必要な要素だと思ってます。
  46. 46. この章でのまとめ データ分析はゴールではない あくまで始まりである。 エンジニアリングとしては データを保存し再利⽤可能な状態にし続ける事 メンテナンス性を考えて運⽤する事 ビジネスとしては 収益性・効率性の担保 説明責任を果たすこと
  47. 47. お⾦のお話し 算多きは勝ち、算少なきは勝たず
  48. 48. 8 我々はプロフェッショナル…であるはず 趣味とプロの違いは何でしょう︖ 趣味…好きな事を好きなタイミングでする。 求められない プロ…求められた内容を一定の期間の中で⾏う。 その為に必要な要求が発生する。 要は仕事にする以上お⾦になる必要がある。と言う事。
  49. 49. 9 働くって何︖ 銀⾏時代にパートさんから言われたこと。 「お客さんからしたら新卒もベテランも同じ」 →お⾦をもらう以上プロフェッショナルであることが求 められる。 程度はどうであれ周りの⼈からはそう⾒られてしまう。 プロとは(いろいろな定義がありますが) 与えられた(期待された)仕事を 客観的に自分を⾒れる⼈ 責任をもってやり遂げられる⼈ 誇りを持っている⼈ 進歩しようと努⼒する⼈ なのかなと思います。多かれ少なかれ、誰かに求められないな らば仕事にはならない。 売れないお笑い芸人と同じ
  50. 50. 給料はどのように決まるか 例えば北海道のシステムエンジニアの給料 →中⼩だと年収300~600万くらい。 役職とかつくとランクアップ 出来る仕事(使えるプログラム)の種類なんかでも変わります。 では、年収400万(月収25万+ボーナス100万)の⼈がひと月に幾ら稼 がなければならないか︖ →会社によるけど月収の2~4倍稼ぐ必要がある。 …年⾦や保険料などなど。 (⼤企業であればもっと稼がなければならない…) 例えば…簡単なWebシステムの開発…月収25万のプログラマが設計、 要件定義、開発、テストなどをひと月で⾏った場合…1人月の⼯数がか かったと言います。この場合、1⼈月(20⼈日)50~75万円の作業とし てお客さんに請求します。(BtoBの場合)
  51. 51. ソーシャルゲームの場合(あくまで適当な例) 開発費1000万(16⼈月くらい) +広告費300万 +運用維持費150万/月(サーバー費用+運用者費用) →月幾ら売り上げが発生しなければならないのか︖ ソーシャルゲームの仕組み ・無料で遊べる ・課⾦するとガチャやアイテムを購⼊して 有利に進めやすく出来る →フリーミアムモデル 「サービスを無料で提供し、場合によっては広告 収⼊で支え、口コミ、紹介ネットワーク、有機的な 検索マーケティングなどで非常に効率的に多数の 顧客を獲得し、そして、顧客基盤に対して付加 価値サービスや強化版サービスを割増価格で提 供する事。」
  52. 52. ふたたびソーシャルゲームの売り上げ 売上⾦額=課⾦者数 ×課⾦者一⼈当たりの課⾦⾦額(ARPPU) ※課⾦率=課⾦者数 ÷アクティブユーザー数(期間内に実際に遊んでいるユーザーの数) =アクティブユーザー数×課⾦率×ARPPU つまり、売上⾦額をアップさせるには、 ・課⾦率を上げる ・アクティブユーザー数をアップさせる ・一⼈当たりの単価をアップさせる のどれかしか方法がない。
  53. 53. 売り上げ 開発費1000万+広告費300万+運⽤維持費150万/月 3か月で開発費と広告費を賄うとすると…ひと月5~600万の売り上げが必要 理想) 50000人×2%×5000円=500万円 現実) 10000人×1%×500円=5万円 なぜか︖ • ゲーム性の問題(がっつりやる系or隙間時間にやる系) • イベントの問題(課⾦したくなるか︖課⾦してメリットがあるか︖) • 単価の問題(⾼くしすぎてないか︖安くしすぎてないか︖) 施策(戦術)だけの問題でなくそもそもの事業設計(戦略)で失敗している可能 性もある。→それでも稼ぐ方法を考えなければならない。
  54. 54. 分析でいくら“稼がないと”いけないのか︖ 仮にその案件だけでお仕事するとして、毎月100万以上は利益を上げないといけない。 (もちろん、その案件だけをやってるわけではないと思うけど…) データ分析それ自身ではお⾦は⽣み出せません。 あくまで業務の効率化の結果です 例) セールがうまく⾏って収⼊が増えた 人件費などのコストが減った afterbefore ここがデータ分析に よる収益 利益
  55. 55. まとめ 兵を知る者は、動いて迷わず、挙げて窮せず。
  56. 56. まとめ ⻑い時間お疲れ様でした。今回のまとめです。 • データ分析は⼿段であり、目的ではない。 →しつこいけどここが分かっていない人が結構いる。 • データの⾒せ方で人を違う結論に導く事が出来てしまう。 • 客観的に事実を積み上げて仮説を反証し意思決定を推進させることが求めら れる。 • DeepLearningは万能ではない。 • 今後はビジネス⼒・データエンジニアリング⼒が強く求められる。 • ビジネスなのでお⾦は大事。 ⼀番言いたいのは… ⼀番大事なのは本質を理解した上での 課題設定能⼒(戦略)
  57. 57. 最後に… どんな職種であれ、若いうちに磨いておいた方が良い能⼒に ついてお話しします。ポイントは4つ。 ロジカルシンキング プレゼンテーション能⼒ コミュニケーション能⼒ 適応⼒ ここまでは学生に求める話。 プロであるなら…自分だけの 武器を持つこと。 今日の話が皆さんの糧に少しでもなっていただけると嬉しいです。
  58. 58. 8 付録)何を学ぶべきか 個人的な意⾒として。マーケティングをやっているなら以下は必須 • ⾏動経済学…⼊門編で⼗分。 • ⼼理学…特に消費者⼼理とか • 兵法…孫⼦とかはおすすめ。 データサイエンスの技術を学びたいなら… http://weblab.t.u-tokyo.ac.jp/deep-learning基礎講座演 習コンテンツ-公開ページ/ ↑かなりおすすめ。(Pythonで⾊々学べます)

×