SlideShare a Scribd company logo
データサイエンス勉強会 第5回
平成最後のデータサイエンス勉強会
本日のテーマ
コードが書けない人が
データサイエンスを始める方法を
真剣に考える
ターゲット
ノーコードでデータサイエンスがやりたい人
① データ分析に馴染みがないビジネスユーザー
(Business Analysts, Citizen Data Scientists)
② コーディングできるけどビジネスユーザーにも
アナリティクスを広げたいプロユーザー
(Professional Data Scientists)
自己紹介
名前:大平 祐輔
職業:HR系のコンサルティング会社。文系/非IT
年齢:昭和58年生まれ 36歳
家族構成:妻・娘
最近の興味:データサイエンスとピープルアナリティクスの勉強
ピープルアナリティクスを学びに海外に行きたい。
自己紹介② (仕事)
勤務先:HR系コンサルティング会社
仕事内容:アンケートサーベイや人事データの分析
仕事で使うツール・アプリ
データラングリング・可視化:Microsoft Power BI(使用歴:
1年)
データ分析(統計・機械学習):Exploratory(1年)
Azure Machine Learning Studio(3~4ヶ月)
その他:業務でAzureのリソースを色々と使おうとしている
コード:Rを勉強中。(3~4ヶ月)
Me (As a BI Analyst,
Citizen Data Scientist, Now)
私の職場のデータ・リテラシー
Professional Data
Scientists
My Colleagues
Me (As a Excel Master,
in 2017)
ご注意
• この資料はいかなる組織の意見を代表するものでもなく、
私個人の意見や思想に基づくものです。
• 当資料の情報の利用によりあらゆる損害、不都合が生じたと
しても、一切の責任を負いかねます。
• 各種サービス導入の際は、サービスベンダーの営業に詳細を
ご確認ください。PoC(検証)は慎重に。
本日のアジェンダ
1. 非IT人材のデータサイエンス進出
2. 自身(自組織)の環境に最適なツールを考える
3. ExploratoryとAzure Machine Learning
Studio(簡易デモ)
1.非IT人材の
データサイエンス進出
社会的な背景
出典:ITMedia
AI・IT人材育成「何より重要な課題」
データサイエンスに必要なスキル
ビジネス・
業務知識・経験
統計学
数学
IT
出典:Data Science Bootcamp (Exploratory.inc)
Most Valuable!
ビジネスアナリストの第一歩
ビジネス・
業務知識・経験
統計学
数学
IT
未経験者は一からコーディングを勉強するべき?
or
R, Python(文系 非ITがかじってみた印象)
• どちらもコードを覚えないと使えないが、Rは開発環境であるRstudioが
Pythonの開発環境であるJupyter Notebookより使いやすく、Rの方が
使いやすい
• 言語自体はPythonの方が文法がシンプル
• 初回インストールもRの方が簡単。 (WinかMacによっても異なるが)
• 手元で統計分析などを行う場合、Rが多く使われる(らしい)
• データの前処理はRが便利(らしい)
• Pythonはアプリ開発でも多く使われ、AIを搭載したアプリを開発するなら
Python。(Rでもアプリ開発できないことはない)(らしい)
• 機械学習のパッケージはPythonの方が充実している(らしい)
• Rは統計学者や心理学者によく使われ、Pythonはプログラマによく使われる
(らしい)
平成も終わるこの時代に?
時代はUI
UIでデータ分析をする方法はあります!
非IT人材のデータサイエンスへの進出が容易に
ビジネス・
業務知識・経験
統計学
数学
IT
統計学・数学はやっぱり大事
※個人の感想です
Physical ≒
Business Experience
Weapon ≒ IT Tools
Brain ≒ Statistics
Summary
• AI人材は不足傾向で今後さらに不足する見込み
• UIによるデータ分析ツールの普及により、非IT人材
のデータサイエンス進出の障壁が下がる。
• 統計学はやはり重要であるが、プログラミングよりは
障壁は低い。
2.自身(自組織)の環境に
最適なツールを考える
Data Science and Machine Learning Platforms
だがちょっと待ってほしい
BI Before AI
BI with AI
Data Wrangling
出典:Exploratory
データサイエンティストの仕事は9割が前処理
※諸説あります
正しいデータ活用例
①データ収集
②可視化
③仮説に基づくデータ分析
④分析結果に基づくKPIの定義
⑤KPIの改善
⑥因果関係の検証
y=ax+b
ざんねんなデータ活用
①仮説をもとにKPIを決める
②KPIの改善
③KPIのデータ収集
④非正規データの前処理
⑤KPIの分析
データ分析
データ前処理に時間をかけているレベルなら
BI Before AI
そもそも
What is the difference between
BI Tools
and
Machine Learning
Platforms?
Analyticsの種類
行動意思決定Data
Descriptive Analytics
(記述的アナリティクス)
・・・何が起きたか?
Diagnostic Analytics
(診断的アナリティクス)
・・・なぜ起きたか?
Predictive Analytics
(予測的アナリティクス)
・・・何が起きるか?
意思決定自動化
Prescriptive Analytics
(処方的アナリティクス)
・・・何が起きるかを知った上で、何をするか?
出典:Gartner
Analyticsの手段
Descriptive Analytics
Diagnostic Analytics
Predictive Analytics
Prescriptive Analytics
2つのツールがシームレスになってきている
Descriptive Analytics
Diagnostic Analytics
Predictive Analytics
Prescriptive Analytics
BI Tools
Machine Learning
Platform
Magic Quadrant for Analytics and
Business Intelligence Platforms (2019)
出典:Gartner
Analytics, BI Platformの15の重大な機能
Infrastructure
•セキュリティ
•クラウド/オンプレミス
•データソースとの接続
Data
Management
•メタデータ管理
•ストレージ
•データプリパレーション
•スケーラビリティ
Analysis and
Content Creation
•データサイエンティスト
のためのアドバンスド
アナリティクス
•アナリティックダッシュ
ボード
•インタラクティブビジュ
アル
•データディスカバリー
•モバイルデバイス
8.Sharing of
Findings
•アナリティックコンテン
ツの埋め込み
•パブリッシュ/シェア
出典:Gartner
15.管理・ワークフローの簡易さ
Magic Quadrant for Data Science and
Machine Learning Platforms(2019)
出典:Gartner
データサイエンス学ぶなら英語学ぶべし
• 統計学やR、Pythonの書籍は日本語の書籍が豊富。
• ただしビジネス領域によっては、ビジネスアナリティクスの日本
語書籍が出版されておらず、洋書が読めると選択肢が広が
る。 (e.g. People Analytics)
• 各種ニュースや文献、MLプラットフォームのリリースノートやコ
ミュニティ等は英語のみ、あるいは英語が主であることも多く、
リーディングができると各種情報を多く、迅速に手に入れられ
る。
真のデータサイエンスに必要なスキル
ビジネス・
業務知識・経験
統計学
数学
English
IT
※個人の感想です
閑話休題
1回目のデータサイエンス勉強会で出た意見
いいデータサイエンスのツールないですか?
(Exploratory高い…)
データサイエンス界 最強のコスパ
コスト管理
• 無料でできる範囲は?
• 予算は?
• 使っていない月はコストを下げたい?
• 管理しやすいサブスクリプションが良い?
クラウドかオンプレミスか
• 組織内のアナリティクスユーザーは一人か複数名か?
• ユーザーのOSは統一されているか?
• 十分なマシンスペックがあるか?
• 常時接続の安定したインターネット環境があるか?
その他 使いやすさ
• GUIが直感的か
• GUIが日本語か。
• 接続できるデータソースは?
• データが日本語に対応している
か。
• サポートの有無、言語
• マニュアル、分析サンプル
• ユーザーコミュニティ、言語
• ユーザー数
• Qiitaの投稿件数
• 拡張性(コード)
Analytics, BI Platformの15の重大な機能
Infrastructure
•セキュリティ
•クラウド/オンプレミス
•データソースとの接続
Data
Management
•メタデータ管理
•ストレージ
•データプリパレーション
•スケーラビリティ
Analysis and
Content Creation
•データサイエンティスト
のためのアドバンスド
アナリティクス
•アナリティックダッシュ
ボード
•インタラクティブビジュ
アル
•データディスカバリー
•モバイルデバイス
8.Sharing of
Findings
•アナリティックコンテン
ツの埋め込み
•パブリッシュ/シェア
出典:Gartner
15.管理・ワークフローの簡易さ
Summary
• 分析の目的、および自社のデータリテラリーから、
BIツールかML Platformか考える。
• 組織のガバナンスやコスト管理、クラウド利用など、
条件を確認する。
• 英語をできる人はいるか。
3.ExploratoryとAzure Machine
Learning Studio(簡易デモ)
Exploratory とは
• Rのフロントエンドツール および、分析結果を共有できるCloud環境
• デスクトップアプリはスタンドアローンで動く。インターネット環境が脆弱で
も使用できるが、多少のマシンスペックを要求する。
(インストール時や起動時にはインターネット接続が必要)
• データの前処理がとにかくやりやすい
• ダッシュボードを作ってBIツールとしても使える。
• 日本語GUI。日本語チャットでのサポート、日本語のコミュニティあり。
• サブスクリプション制。
Azure Machine Learning Studioとは
• Microsoftの提供するクラウドプラットフォームAzureのサービスの一つ。
• 全てCloud上で動く。ロースペックマシンでも問題なく動作する。
• データフローマップが常時表示され、何がどのように処理されているかが一
目でわかる。
• GUIは英語。データは日本語に対応。
• 機能制限のフリープランあり。
• 月額+従量課金。
• サポートは別料金。
• 数式モデルをAPIとしてアプリに組み込み可能
共通した特徴
• Descriptive AnalyticsからPredictive Analyticsまで
GUIで簡単操作
• 「データをリアルタイムで観測」ぐらいなら、BIツールの方が使いや
すい。(Exploratoryならできないこともない)
• Qiitaに記事がたくさん
• 統計学や機械学習のアルゴリズムが豊富に使える。
• Cloudで分析した結果を共有
• R、Pythonをサポート(ExploratoryはRのみ)
Demonstration
Exploratoryがお勧めな人
• 手持ちのデータが非正規データが多く、データ前処理の必要がか
なりある。
• PCのスペックはそこそこ
• インターネット接続が不安定だったり、オフラインで操作したい時も
ある。
• 分析をするのは一人
• データをクラウドにUPしたくない
• 初めて統計分析や機械学習をやるので、手厚いサポートが欲しい。
Azure Machine Learningがお勧めな人
• BIツールは他で使っている。
• マシンスペックに自信がない。
• 統計学や機械学習には多少慣れている。
• 英語OK
• 最終的にはモデルのAPIをアプリに組み込みたい。
• Pythonが使いたい。

More Related Content

Similar to data science study group vol.5(Japanese)

People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
KeiHasegawa2
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
shakezo
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
The Japan DataScientist Society
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
HiroyukiOtsubo
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
Rakuten Group, Inc.
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
Norihiko Nakabayashi
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
Hisashi Nakayama
 
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
it-innovation
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋Issei Kurahashi
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
mayu tech
 
LinkedInの企業活用集
 LinkedInの企業活用集 LinkedInの企業活用集
LinkedInの企業活用集
株式会社アント
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
@yuzutas0 Yokoyama
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
Leading Edge Co.,Ltd.
 
Linked inの企業活用集
Linked inの企業活用集Linked inの企業活用集
Linked inの企業活用集
株式会社アント
 
Linked inの企業活用集
Linked inの企業活用集Linked inの企業活用集
Linked inの企業活用集
株式会社アント
 
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組みITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
NHN テコラス株式会社
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
antibayesian 俺がS式だ
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
BrainPad Inc.
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
takashi sasaki
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
BrainPad Inc.
 

Similar to data science study group vol.5(Japanese) (20)

People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
People analyticsをアカデミックの視点で見る~組織行動論とpeople analyticsの違い~
 
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
プロトタイプで終わらせない死の谷を超える機械学習プロジェクトの進め方 #MLCT4
 
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートよりデータサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
データサイエンティストのリアル-2015年~2019年 一般(個人)会員アンケートより
 
Thinking datascientist itself
Thinking datascientist itselfThinking datascientist itself
Thinking datascientist itself
 
企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル企業におけるデータ分析プロジェクトと求められるスキル
企業におけるデータ分析プロジェクトと求められるスキル
 
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
事業会社が開催する人材育成プログラム ”Data Science BOOTCAMP”とは?
 
オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018オープンソースカンファレンスBi勉強会20141018
オープンソースカンファレンスBi勉強会20141018
 
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
20161101_ITスキル研究フォーラム主催セミナー講演資料_「SoR」と「SoE」を繋げる人材育成プラン_ITI 関 和美
 
おしゃスタVI 倉橋
おしゃスタVI 倉橋おしゃスタVI 倉橋
おしゃスタVI 倉橋
 
データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方データ分析を武器にしたエンジニアの道の拓き方
データ分析を武器にしたエンジニアの道の拓き方
 
LinkedInの企業活用集
 LinkedInの企業活用集 LinkedInの企業活用集
LinkedInの企業活用集
 
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgateデータ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
データ集計業務を半年で300案件捌いて見えてきた勘所 #データ解析 #willgate
 
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク  榊 剛史
「今後現場で求められるAIエンジニア像とは?」株式会社ホットリンク 榊 剛史
 
Linked inの企業活用集
Linked inの企業活用集Linked inの企業活用集
Linked inの企業活用集
 
Linked inの企業活用集
Linked inの企業活用集Linked inの企業活用集
Linked inの企業活用集
 
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組みITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
ITインフラ・マネージド事業領域におけるデータサイエンスの取り組み
 
企業における統計学入門
企業における統計学入門企業における統計学入門
企業における統計学入門
 
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
データサイエンティストとは? そのスキル/ナレッジレベル定義の必要性
 
本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法本を読んでもわからないリアルなアンケート実践法
本を読んでもわからないリアルなアンケート実践法
 
Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料Big Data Analytics Tokyo講演資料
Big Data Analytics Tokyo講演資料
 

data science study group vol.5(Japanese)

Editor's Notes

  1. 30分ちょいぐらいお話し、20分ぐらいデモ?
  2. 営業にも簡単な回帰分析ぐらいはやらせたい
  3. というか、行きます。 人事の承認はほぼ得られてる
  4. MSを殺したい人って結構いると思うので、MSのシンパではありません。 むしろマカー。MacBook ProとiPhoneにiPad、Apple Watchを付けて娘はApple TVでNetflix。 Exploratoryのデータサイエンスブートキャンプに参加。 RはUdemyで勉強。
  5. 異世界転生 なろう主人公
  6. 宗教上の都合
  7. みずほ情報総研の試算によると、2020年にはAI開発などに携わる「先端IT人材」が約4万8000人不足するという(出典:経済産業省)
  8. 最も重要なのはどれか? →ビジネス・業務知識・経験
  9. 株式会社キカガクの吉崎社長もUdemyの動画で言ってました。 ビジネスを未経験から完全に理解するには数年の時間がかかるが、 ビジネスを理解していれば、ITや統計学は1年程度で理解できる、と。
  10. 一応この2つを知らない人のために、軽く説明しますと どちらも統計や機械学習を得意とするプログラミング言語です。
  11. 1年間かけて勉強するのか?
  12. 平成7年にwindows95がGUIの思想で爆発的にHITしてから24年。
  13. 株式会社キカガクの吉崎社長もUdemyの動画で言ってました。 ビジネスを未経験から完全に理解するには数年の時間がかかるが、 ビジネスを理解していれば、ITや統計学は1年程度で理解できる、と。
  14. 統計学を知らずビジネスとUIで使えるデータ分析を行う人間は、頭空っぽの金棒を持った鬼を野に放つが如く危険。 統計学の学習はプログラミング言語の学習よりは容易(個人の感想です)。必要な領域だけでも統計学を学ぶべし。
  15. Gartnerの記事に「Data Science and Machine Learning Platforms」という記事がありますので、 一般的な名称は定義されていないかもしれませんが、「Machine Learning Platform」と呼ぼうと思います。
  16. Microsoft Power BI MVPの知り合いが言ってました。 MLプラットフォームか、BIツールか。 その観点の一つは、「正規化されたデータが十分にあるか?」という 点ではないかと思います。
  17. y=ax+b 上野の「全人類がわかる統計学」講座
  18. NIPPON パッケージ
  19. Microsoft Power BI MVPの知り合いが言ってました。
  20. レベルが違うよ。フリーザと魔人ブウぐらい違う 目的と、手段(Analytics)の違い
  21. AIがなんとかしてくれるおじさん
  22. BIツールとデータ分析ツールは出発地点が異なるが BIツールもMachine Learningなどができるようになっているツールが増えているし、 データ分析ツールもビジュアライズのUIを売りにしているものが多い。
  23. 英語をちょくちょく使っているのは、中2病という訳ではありません。
  24. Udemyで、英語でRを勉強してます。 Udemyはいいですよ。
  25. 書籍や学習環境もしっかり ユーザーコミュニティも豊富 アプリだって作れる
  26. 無料でできると、検証がしやすいですね。