Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Satoshi Noto
5,046 views
データ分析チームの振り返り
データ分析チームの振り返り
Data & Analytics
◦
Read more
8
Save
Share
Embed
Embed presentation
Download
Downloaded 23 times
1
/ 38
2
/ 38
3
/ 38
4
/ 38
5
/ 38
6
/ 38
7
/ 38
8
/ 38
9
/ 38
10
/ 38
11
/ 38
12
/ 38
13
/ 38
14
/ 38
15
/ 38
16
/ 38
17
/ 38
18
/ 38
19
/ 38
20
/ 38
21
/ 38
22
/ 38
23
/ 38
24
/ 38
25
/ 38
26
/ 38
27
/ 38
28
/ 38
29
/ 38
30
/ 38
31
/ 38
32
/ 38
33
/ 38
34
/ 38
35
/ 38
36
/ 38
37
/ 38
38
/ 38
More Related Content
PPTX
AWSで作る分析基盤
by
Yu Otsubo
PDF
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
PDF
ビックデータ最適解とAWSにおける新しい武器
by
Akihiro Kuwano
PDF
読書会のすすめ
by
Satoshi Noto
PDF
Amazon Machine Learning概要
by
Satoshi Noto
PPTX
Watson summit 2016_j2_5
by
Tanaka Yuichi
PPTX
Hcm cloudをpaasでカスタマイズ
by
幹雄 小川
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
AWSで作る分析基盤
by
Yu Otsubo
大規模データに対するデータサイエンスの進め方 #CWT2016
by
Cloudera Japan
ビックデータ最適解とAWSにおける新しい武器
by
Akihiro Kuwano
読書会のすすめ
by
Satoshi Noto
Amazon Machine Learning概要
by
Satoshi Noto
Watson summit 2016_j2_5
by
Tanaka Yuichi
Hcm cloudをpaasでカスタマイズ
by
幹雄 小川
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
What's hot
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
PDF
クラウド上のデータ活用デザインパターン
by
Amazon Web Services Japan
PDF
Amazon S3を中心とするデータ分析のベストプラクティス
by
Amazon Web Services Japan
PDF
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
by
Yahoo!デベロッパーネットワーク
PDF
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
by
Amazon Web Services Japan
PDF
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
by
Takahiro Moteki
PDF
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
PPTX
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
PDF
大規模クラスタでのHadoop課題
by
Yahoo!デベロッパーネットワーク
PDF
世界一簡単なHadoopの話
by
Koichi Shimazaki
PPTX
Oracle advanced analyticsによる機械学習full version
by
幹雄 小川
PDF
re:Growth2019 Analytics Updates
by
Satoru Ishikawa
PDF
Serverless analytics on aws
by
Amazon Web Services Japan
PDF
「Data Infrastructure at Scale 」#yjdsw4
by
Yahoo!デベロッパーネットワーク
PPTX
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
by
Tanaka Yuichi
PPTX
S3をDB利用 ショッピングセンター向けポイントシステム概要
by
一成 田部井
PPTX
Hadoopことはじめ
by
Katsunori Kanda
PDF
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
by
Eiji Shinohara
PPTX
Jjug ccc
by
Tanaka Yuichi
PDF
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetup
by
Yahoo!デベロッパーネットワーク
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
クラウド上のデータ活用デザインパターン
by
Amazon Web Services Japan
Amazon S3を中心とするデータ分析のベストプラクティス
by
Amazon Web Services Japan
Yahoo! JAPANのデータ基盤とHadoop #dbts2016
by
Yahoo!デベロッパーネットワーク
Amazon Kinesis Analytics によるストリーミングデータのリアルタイム分析
by
Amazon Web Services Japan
[JAWSBigData#11]Cloudera on AWSと Amazon EMRを両方本番運用し 3つの観点から比較してみる
by
Takahiro Moteki
先行事例から学ぶ IoT / ビッグデータの始め方
by
Cloudera Japan
[CWT2017]Infrastructure as Codeを活用したF.O.Xのクラウドビッグデータ環境の変化
by
Takahiro Moteki
大規模クラスタでのHadoop課題
by
Yahoo!デベロッパーネットワーク
世界一簡単なHadoopの話
by
Koichi Shimazaki
Oracle advanced analyticsによる機械学習full version
by
幹雄 小川
re:Growth2019 Analytics Updates
by
Satoru Ishikawa
Serverless analytics on aws
by
Amazon Web Services Japan
「Data Infrastructure at Scale 」#yjdsw4
by
Yahoo!デベロッパーネットワーク
ApacheSparkを中心としたOSSビッグデータ活用と導入時の検討ポイント
by
Tanaka Yuichi
S3をDB利用 ショッピングセンター向けポイントシステム概要
by
一成 田部井
Hadoopことはじめ
by
Katsunori Kanda
個人的にAmazon EMR5.0.0でSpark 2.0を使ってZeppelinでSQL集計してみる
by
Eiji Shinohara
Jjug ccc
by
Tanaka Yuichi
Yahoo! JAPAN の Ambari 活用事例 #ambarimeetup
by
Yahoo!デベロッパーネットワーク
Viewers also liked
PDF
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
by
de:code 2017
PDF
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
by
de:code 2017
PDF
KPTのコツを掴め!! 公開用
by
ESM SEC
PPT
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
by
Shoe-g Ueyama
PDF
[MR09] デスクトップ アプリをストアから配布するための A to Z
by
de:code 2017
PDF
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
by
de:code 2017
PDF
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
by
Takao Oyobe
PDF
ふりかえりで学んだこと ベスト10
by
ESM SEC
PPTX
160924 リクルータでkptした話
by
Tadashi Matsui
KEY
新卒エンジニアが1年目を振り返る
by
Kiyotaka Kunihira
PDF
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
by
de:code 2017
PDF
Locoship 株式会社Loco Partnersで働く人のバリュー
by
Takaya Shinozuka
PDF
1年の振り返りと、これからと。
by
Takaya Shinozuka
PDF
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
by
de:code 2017
PDF
XPな俺達に贈るPyCon JP 2016レポート #xpjug
by
Shinichi Nakagawa
PDF
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
by
de:code 2017
KEY
アジャイル開発振り返り
by
Akira Suenami
PDF
はじめてのふりかえり
by
Takao Oyobe
[AI10] ゲームキャラクターのための人工知能と社会への応用 ~ FINAL FANTASY XV を事例として ~
by
de:code 2017
[AC07] 米国マイクロソフト本社で体験したノウハウを伝授!マイクロサービス実行基盤Azure Service Fabricの勘所
by
de:code 2017
KPTのコツを掴め!! 公開用
by
ESM SEC
素敵なプレゼン資料を作るためのKnow-Howてんこ盛りセッション:プレゼン道場 Ver 2.2
by
Shoe-g Ueyama
[MR09] デスクトップ アプリをストアから配布するための A to Z
by
de:code 2017
[MR15] ハードコア デバッギング ~ Windows のアプリケーション運用トラブルシューティング実践
by
de:code 2017
僕らのふりかえり戦略 -チームのコンパスをつくる- #agilesamurai
by
Takao Oyobe
ふりかえりで学んだこと ベスト10
by
ESM SEC
160924 リクルータでkptした話
by
Tadashi Matsui
新卒エンジニアが1年目を振り返る
by
Kiyotaka Kunihira
[SP04] これからのエンジニアに必要な「マネジメント」の考え方
by
de:code 2017
Locoship 株式会社Loco Partnersで働く人のバリュー
by
Takaya Shinozuka
1年の振り返りと、これからと。
by
Takaya Shinozuka
[AI08] 深層学習フレームワーク Chainer × Microsoft で広がる応用
by
de:code 2017
XPな俺達に贈るPyCon JP 2016レポート #xpjug
by
Shinichi Nakagawa
[MW01] ご注文は Linux + Docker ですか? Windows だけじゃない App Service を使い切る
by
de:code 2017
アジャイル開発振り返り
by
Akira Suenami
はじめてのふりかえり
by
Takao Oyobe
Similar to データ分析チームの振り返り
PDF
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
by
Amazon Web Services Japan
PDF
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
by
Amazon Web Services Japan
PDF
ケーススタディ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第40回】
by
Tomoharu ASAMI
PDF
機械学習を用いたAWS CloudTrailログの積極的活用
by
kz-takahashi
PDF
【de:code 2020】 さくっとプチ成功する機械学習プロジェクトのコツ
by
日本マイクロソフト株式会社
PDF
Amazon Machine Learning
by
Yuta Imai
PPTX
Amazon SageMakerを使った機械学習モデル管理運用システム構築事例
by
Seongduk Cheon
PDF
Amazon Machine Learing と機械学習
by
Kei Hirata
PDF
Cm re growth-devio-mtup11-sapporo-004
by
Satoru Ishikawa
PPTX
Japan Wrap Up re:Invent2018
by
Kameda Harunobu
PPTX
Japan wrapup reinvent2018
by
Amazon Web Services Japan
PPTX
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
by
Yasuhiro Matsuo
PDF
JAWS-UG CLI専門支部 #67 Amazon Machine Learning 入門
by
Nobuhiro Nakayama
PPTX
re:Invent 2018 ML サービスアップデート
by
Amazon Web Services Japan
PDF
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
by
Junichi Noda
PDF
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
by
Yosuke Katsuki
PDF
Amazon Machine Learning Tutorial
by
Yoshimi Tominaga
PDF
Cmdevio2015 devday-g-3
by
Satoru Ishikawa
PDF
JAWSUG 20190828
by
陽平 山口
PDF
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
by
Tomoharu ASAMI
Amazon Game Tech Night #25 ゲーム業界向け機械学習最新状況アップデート
by
Amazon Web Services Japan
[CTO Night & Day 2019] よくある課題を一気に解説!御社の技術レベルがアップする 2019 秋期講習 #ctonight
by
Amazon Web Services Japan
ケーススタディ 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第40回】
by
Tomoharu ASAMI
機械学習を用いたAWS CloudTrailログの積極的活用
by
kz-takahashi
【de:code 2020】 さくっとプチ成功する機械学習プロジェクトのコツ
by
日本マイクロソフト株式会社
Amazon Machine Learning
by
Yuta Imai
Amazon SageMakerを使った機械学習モデル管理運用システム構築事例
by
Seongduk Cheon
Amazon Machine Learing と機械学習
by
Kei Hirata
Cm re growth-devio-mtup11-sapporo-004
by
Satoru Ishikawa
Japan Wrap Up re:Invent2018
by
Kameda Harunobu
Japan wrapup reinvent2018
by
Amazon Web Services Japan
AI & Deep Learning on AWS at CTO Night&Day 2016 Winter
by
Yasuhiro Matsuo
JAWS-UG CLI専門支部 #67 Amazon Machine Learning 入門
by
Nobuhiro Nakayama
re:Invent 2018 ML サービスアップデート
by
Amazon Web Services Japan
最新!2015年 クラウドAI プラットフォーム比較 AzureML & AmazonML
by
Junichi Noda
データ分析基盤構築のポイントと関連クラスメソッドサービスの紹介
by
Yosuke Katsuki
Amazon Machine Learning Tutorial
by
Yoshimi Tominaga
Cmdevio2015 devday-g-3
by
Satoru Ishikawa
JAWSUG 20190828
by
陽平 山口
実装(1) 【クラウドアプリケーションのためのオブジェクト指向分析設計講座 第30回】
by
Tomoharu ASAMI
More from Satoshi Noto
PDF
Fullbokをがっつり使ってみた
by
Satoshi Noto
PDF
Run Spark on EMRってどんな仕組みになってるの?
by
Satoshi Noto
PDF
MapReduce入門
by
Satoshi Noto
PDF
大晦日のメッセージ配信の裏側
by
Satoshi Noto
PPTX
このサービスは俺に聞け勉強会(機械学習)
by
Satoshi Noto
PDF
Tez on EMRを試してみた
by
Satoshi Noto
PDF
Hiveハンズオン
by
Satoshi Noto
PDF
MapReduceプログラミング入門
by
Satoshi Noto
PDF
ただいまHadoop勉強中
by
Satoshi Noto
PDF
Hadoop概要説明
by
Satoshi Noto
Fullbokをがっつり使ってみた
by
Satoshi Noto
Run Spark on EMRってどんな仕組みになってるの?
by
Satoshi Noto
MapReduce入門
by
Satoshi Noto
大晦日のメッセージ配信の裏側
by
Satoshi Noto
このサービスは俺に聞け勉強会(機械学習)
by
Satoshi Noto
Tez on EMRを試してみた
by
Satoshi Noto
Hiveハンズオン
by
Satoshi Noto
MapReduceプログラミング入門
by
Satoshi Noto
ただいまHadoop勉強中
by
Satoshi Noto
Hadoop概要説明
by
Satoshi Noto
データ分析チームの振り返り
1.
Developers.IO 2016 C-‐‑‒1 クラスメソッド株式会社 能登 諭
Ⓒ Classmethod, Inc. 2016年年02⽉月20⽇日 データ分析チームの振り返り 1
2.
Ⓒ Classmethod, Inc. ⾃自⼰己紹介 •
⽒氏名:能登 諭(のと さとし) • 所属:AWSコンサルティング部 • 担当:データ分析チームのリーダー • 得意分野:Hadoop • 好きなAWSサービス:EMR • Twitter:@n3104 2
3.
質問 3
4.
Q1. 普通の開発案件を 担当されている⽅方 4
5.
Q2. 統計や機械学習を 扱っている⽅方 5
6.
本⽇日のお題 6
7.
去年年の⾃自分たちに 伝えたいこと 7
8.
Ⓒ Classmethod, Inc. データ分析チームの軌跡 •
2015年年4⽉月Amazon Machine Learning(Amazon ML)のリリースに 伴い機械学習チームとして発⾜足 • 良良品計画様とAmazon MLのPoCを実施 • http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒poc-‐‑‒with-‐‑‒ ryohin-‐‑‒keikaku/ • あきんどスシロー様とAmazon MLを⽤用いた待ち時間予測の精度度向上を実施 • http://dev.classmethod.jp/machine-‐‑‒learning/amazon-‐‑‒machine-‐‑‒learning-‐‑‒akindo-‐‑‒ sushiro/ • 良良品計画様と製品の購⼊入ユーザ予測を実施 • http://dev.classmethod.jp/cloud/aws/amazon-‐‑‒machine-‐‑‒learning-‐‑‒ryohin-‐‑‒user/ • 2015年年11⽉月データ分析チームに改名 • 現在に⾄至る 8
9.
Ⓒ Classmethod, Inc. 実際の所は •
メンバーに統計や機械学習の経験者がいなかった • Amazon MLがリリースされたので、AWSのサービ スを使いこなす⼀一環で取り組み始めた • 当然、何から⼿手を付ければよいかも分からず、試⾏行行錯 誤が続いた • 1年年ほど取り組んで、多少分かるようになってきた気 はするが、まだまだ勉強中 9
10.
去年年の⾃自分たちに 伝えたいこと 10
11.
本編スタート 11
12.
Ⓒ Classmethod, Inc. データ分析の⽬目的 •
データを集めて、可視化したり、統計や機械学習を⽤用 いて、アウトプットを出す • アウトプットとは、データを何らかの施策につなげ て、ビジネス上の効果を出す • 施策につなげることを意識識する • 効果の絶対額を確認する。例例えば売上向上であれば⺟母数とな る⾦金金額が⼤大きくないと投資に⾒見見合った成果が得られない場合 がある 12
13.
Ⓒ Classmethod, Inc. 意外にデータがない •
統計や機械学習で欲しいデータは業務システムのDBに⼊入っ ていない • アクセスログ(⾏行行動ログ) • システム外部の情報(天気、イベントの有無、他社の情報など) • 過去データがない • 新サービス、新商品、新店舗はそもそもデータがない • 季節性がある場合は少なくとも1年年以上過去のデータが必要 • 件数が少ない • 飲⾷食店の来店者数は1店舗でみると1⽇日多くて数百件 • 平⽇日と⼟土⽇日で傾向が異異なるので⼟土⽇日だけにするとデータが2/7に減る 13
14.
Ⓒ Classmethod, Inc. データがあっても前処理理が必要 •
⽋欠損値、異異常値は普通にある • 性別や誕⽣生⽇日を⼊入⼒力力しない、もしくは嘘の値を⼊入れるケースは多々ある • そもそもフォーマット通りのデータが⼊入っているとは限らない • 業者というカラムは存在しない • 購⼊入⾦金金額が異異常に⼤大きいユーザーがいたりする • 分析する⽬目的に合わせて集計が必要になる • ユーザー単位の特定の商品カテゴリーの購⼊入回数のデータのようなものはテー ブルには⼊入っていない • SQLの可読性がひどいことに • 100⾏行行超えとか当たり前。。。 • RDSだとレスポンスが帰ってこない • Redshiftを利利⽤用 14
15.
Ⓒ Classmethod, Inc. ⽬目的変数と説明変数 •
⽬目的変数:分析したり予測したい対象 • 売上、購⼊入の有無、待ち時間など • 説明変数:⽬目的変数を算出するために利利⽤用する情報 • 売上:来客数、曜⽇日、天気、セールの有無、株価 • 購⼊入の有無:商品の検索索履履歴、類似商品の購⼊入の有無 • 待ち時間:待ち組数、曜⽇日、直近15分の発券数 • ⽬目的変数に合わせて適切切な説明変数を⾒見見つける必要がある 15
16.
Ⓒ Classmethod, Inc. どうやって説明変数を⾒見見つけるのか •
対象ドメインについて理理解する • お客様はドメイン知識識はあっても、統計や機械学習について 知識識がないと変数の候補を出せない • ⾃自分たちもドメインを理理解してお客様と⼀一緒に探す • 可視化してグラフを眺める • 仮説を⽴立立てて、お客様とレビューする • いろいろ組み合わせを試す • 同じ変数を⼆二乗、平⽅方根、対数に変換してみる 16
17.
Ⓒ Classmethod, Inc. モデリングとモデル •
モデリングとは普通の開発案件で対象領領域の事象をプ ログラムに落落とし込むのと同じように、統計や機械学 習の問題に落落とし込むこと • 落落とし込む対象となる統計や機械学習の各種⼿手法のこ とをモデルと⾔言う 17
18.
Ⓒ Classmethod, Inc. モデルの作成と利利⽤用 •
実際に分析したり予測するために⼊入⼒力力データを利利⽤用し てモデルを作成(構築)する • 作成したモデルから予測関数を作ったり出来る。引数 に説明変数を与えると⽬目的変数が⼿手に⼊入る 18
19.
Ⓒ Classmethod, Inc. 案件の流流れ •
要件定義 • モデルの評価基準と⽬目標値を定める • 検証フェーズ • ドメイン理理解 • 可視化、ETL • モデルの作成と評価 • ひたすら繰り返す • 適⽤用フェーズ • システム開発 • ⾃自動化したりシステムに組み込む • リリース • 保守 • 期待した精度度を維持しているか監視する。モデルが前提としている状況が変わったら精度度も 変わってしまう 19
20.
Ⓒ Classmethod, Inc. ⼯工数⾒見見積もり •
検証フェーズ • 最初はドメイン理理解(可視化やETL処理理)が⼤大きいが、モデ ルの作成と評価を繰り返すうちに⽐比率率率が下がっていく • ⼀一度度可視化の仕組みやETL処理理(SQL)を⽤用意すれば、使 いまわせる • モデルの作成と評価はどの程度度になるか予測不不能 • 期間とか予算枠で区切切るしかない • 適⽤用フェーズ • 普通のシステム開発として⾒見見積もれる 20
21.
Ⓒ Classmethod, Inc. お客様に伝えなければいけないこと •
データがあっても期待する結果が得られるとは限らない • データがない(あっても⾒見見つけられない)こともある • そもそも特徴がない可能性もある。例例えば偏りのないサイコロで は次の⼿手の確率率率はどこまで⾏行行っても1/6 • ⼀一度度良良い結果が出ても、継続するとは限らない • 既存のデータを利利⽤用するため、データの前提が変われば使いもの にならない可能性がある • 100%予測できるものはできない • 間違えた場合にどうするか話し合う。システムの例例外処理理と異異な り、その瞬間異異常があったと認識識できない 21
22.
Ⓒ Classmethod, Inc. まとめ •
普通のシステム開発と似てる部分も多い • ビジネス上の成果を意識識する • 意外にデータはない • データがあっても前処理理が必要 • 対象ドメインの理理解は必須 • 成果が出ないこともある • リリース後は精度度を監視する • 間違えた場合の対処について検討する 22
23.
付録 23
24.
Ⓒ Classmethod, Inc. 統計と機械学習の違い •
統計は説明を⽬目的としている • 機械学習は予測を⽬目的としている • やっている作業内容はとても似ている • 統計と機械学習の両⽅方を必要に応じて使えばいい • まとめとしては以下がおすすめ • http://tjo.hatenablog.com/entry/2015/09/17/190000 24
25.
Ⓒ Classmethod, Inc. Amazon
MLの概要 • http://dev.classmethod.jp/cloud/aws/ fit2015-‐‑‒amazon-‐‑‒machine-‐‑‒learning-‐‑‒overview/ • http://dev.classmethod.jp/cloud/aws/cm-‐‑‒ advent-‐‑‒calendar-‐‑‒2015-‐‑‒getting-‐‑‒started-‐‑‒again-‐‑‒ amazon-‐‑‒ml/ • http://dev.classmethod.jp/writing/amazon-‐‑‒ machine-‐‑‒learning-‐‑‒itpro2/ 25
26.
Ⓒ Classmethod, Inc. カテゴリカルデータと数値データ •
カテゴリカルデータ(質的変数) • 性別(男性/⼥女女性) • ⾎血液型(A型/B型/AB型/O型) • 曜⽇日 • 数値データ(量量的変数) • 年年齢 • 売上 • 購⼊入⾦金金額 • モデルによって利利⽤用できるデータ型が異異なるので変換が必 要になる 26
27.
Ⓒ Classmethod, Inc. カテゴリカルデータから数値データへの変換 •
カテゴリー毎に複数の変数に分割し、1つの変数だけ値 を1として残りは0にする • 性別(男性/⼥女女性)で男性の場合 • 男性フラグ -‐‑‒> 1 • ⼥女女性フラグ -‐‑‒> 0 • ⾎血液型(A型/B型/AB型/O型)でAB型の場合 • A型フラグ -‐‑‒> 0 • B型フラグ -‐‑‒> 0 • AB型フラグ -‐‑‒> 1 • O型フラグ -‐‑‒> 0 27
28.
Ⓒ Classmethod, Inc. 数値データからカテゴリカルデータへの変換 •
数値を複数の区間(ビン)に分割する。変数の数は1 つのまま変わらないが中⾝身がカテゴリカルデータにな る • 年年齢(数値) • 年年齢(10代/20代/30代/40代/50代) • 購⼊入⾦金金額(数値) • 年年齢(5,000円未満/5,000円以上) 28
29.
Ⓒ Classmethod, Inc. 数値データを複数の数値データに変換 •
数値データ→カテゴリカルデータ→数値データという 変換。数値の⼤大⼩小関係ではなくグループが重要な場合 • 年年齢(数値データ)で33歳 • 年年齢(10代/20代/30代/40代/50代) • 10代フラグ -‐‑‒> 0 • 20代フラグ -‐‑‒> 0 • 30代フラグ -‐‑‒> 1 • 40代フラグ -‐‑‒> 0 • 50代フラグ -‐‑‒> 0 29
30.
Ⓒ Classmethod, Inc. どこから勉強すればいいか •
まずはRやPythonを使った⼊入⾨門書で実際にコードを⼊入⼒力力して操作イメージ を掴む • 全部読まなくてもいいし、わからない所は読み⾶飛ばず • 次にデータ分析、統計、機械学習の⼊入⾨門書をそれぞれ読む • 微積分や線形代数が分かるなら、数式が登場する⼊入⾨門書からでもいいのでは • 分からない場合は、まずは数式が出ない⼊入⾨門書を読みつつ、平⾏行行して数学の勉強も⾏行行う • その上で、必要な⼿手法を深掘りする。全てを万遍なく勉強するのは現実的で はない • システム開発と同じ • 気⻑⾧長に取り組む • システム開発の知識識の延⻑⾧長線上ではないし、そもそも難しい • あと、昔読んだ本を読みなおしてみると成⻑⾧長を実感できるw 30
31.
Ⓒ Classmethod, Inc. 参考書籍:R •
Rではじめるビジネス統計分析 • http://www.shoeisha.co.jp/book/detail/ 9784798134901 • 内容も分かりやすいし、RのコードをRStudioで⼊入⼒力力している うちにRのコードも多少読めるようになった • 可視化のやり⽅方や統計の各種⼿手法が紹介されており、実際に どんなことが出来るのか把握できる 31
32.
Ⓒ Classmethod, Inc. 参考書籍:Python •
ご紹介したかったのですが、まだ⼊入⾨門書を読んでいな いので紹介できる書籍がありませんm(_̲ _̲)m 32
33.
Ⓒ Classmethod, Inc. 参考書籍:データ分析 •
データ解析の実務プロセス⼊入⾨門 • https://www.morikita.co.jp/books/book/2851 • 全体像がつかめるし、初⼼心者向けの注意点もいろいろ書かれ ていて、まず最初に読むといいのでは • ⾊色々な⼿手法が紹介されており、詳しく学ぶための書籍も紹介 されているので、この本を起点に⾊色々読んでいくのもいいの では 33
34.
Ⓒ Classmethod, Inc. 参考書籍:統計学 •
完全独習 統計学⼊入⾨門 • http://www.diamond.co.jp/book/9784478820094.html • 中学レベルの数学で分布と検定の概要をつかめる • 1冊使ってひたすら標準偏差について説明している • よくわかる⼼心理理統計 • http://www.minervashobo.co.jp/book/b48724.html • とても読みやすい。数式もほぼ出てこない • 多変量量解析がわかる • http://gihyo.jp/book/2011/978-‐‑‒4-‐‑‒7741-‐‑‒4639-‐‑‒3 • 数式を読み⾶飛ばしても、説明の仕⽅方が分かりやすく、イメージがわく 34
35.
Ⓒ Classmethod, Inc. 参考書籍:機械学習 •
Sparkによる実践データ解析 • https://www.oreilly.co.jp/books/9784873117508/ • 様々な適⽤用領領域についての事例例集となっており、前処理理から精度度向 上まで書かれていて⾮非常に実践的 • SparkのMLlibを利利⽤用する際は必読だと思われる • Mahoutイン・アクション • http://www.oreilly.co.jp/books/9784873115849/ • 実践から学ぶスタイルで、Sparkによる実践データ解析よりも紹介 する⼿手法が少ない分、それぞれの⼿手法の理理論論⾯面は詳しく書いてある • ただ、いまMahoutを使うかというと。。 35
36.
Ⓒ Classmethod, Inc. 参考書籍:数学 •
統計学のための数学⼊入⾨門30講 • http://www.asakura.co.jp/books/isbn/ 978-‐‑‒4-‐‑‒254-‐‑‒11633-‐‑‒5/ • 統計学に必要な微積分と線形代数がコンパクトにまとまってい る印象 • 簡単ではないが、後の章で出てくる内容は基本的に前の章に書 かれていて、⼀一冊で全体がつながるように書かれている • なぜ統計や機械学習で微積分や線形代数が必要なのか分かるよ うになる。ただし最後まで読まないと分かるようにならない 36
38.
Developers.IO 2016 C-‐‑‒1 Ⓒ Classmethod,
Inc. #cmdevio2016 ご静聴ありがとうございました。 スライドは後⽇日ブログで公開します。 38
Download