Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

『アジャイルデータサイエンス』2章 データ

2,556 views

Published on

Published in: Technology
  • Be the first to comment

『アジャイルデータサイエンス』2章 データ

  1. 1. アジャイルデータサイエン ス 2章 データ 2014/05/27 第2回「データ解析のための統計モデリング⼊⾨」読書会 @who_you_me
  2. 2. お前誰よ @who_you_me 株式会社ハウテレビジョン所属 (2014/04〜) Webエンジニアになったと思ったら名刺に「エンジニ ア」としか書いてない ⾒習いスクラムマスター CakePHPでサービス作ってる会社でひとりPythonを書い てる chefのレシピ書くのがダルいのでdockerに置き換えたい ついでにdocker上⼿く使ってイケてる開発環境つくりた い
  3. 3. 1章のおさらい データサイエンスの世界でもアジャイルに開発したい! そのためには、各種ツール群をうまく活⽤しよう ⾞輪の再発明はしない 巨⼈の肩に乗る
  4. 4. 2章の内容 本書で扱うデータ メールデータ データの保存 SQL or NoSQL 分析の視点
  5. 5. はじまりはじまり〜
  6. 6. 本書で扱うデータ メールデータ ⾝近 ほどほどの容量 エンロンの公開アーカイブが有名だよね http://www.enronemail.com/
  7. 7. ペタバイトのスケールで使われている のと同じツール群を、⼿元のマシンで 使ってみる スモールスタート スケールアップ
  8. 8. データの特徴 半構造データ 厳密には定義されていない構造をもち, その中にテキストなどの⾮構造化データを含んでいる. 例えば,XMLデータなどは,全体は⽊構造のタグ構造をもつが, そのタグの中⾝は⾮構造化データであるテキストである. http://ibisforest.org/index.php?半構造データ
  9. 9. メール XML HTML そこまで厳密じゃないけど、タグとか改⾏を⽬印に構造 化されている
  10. 10. 半構造データの保存 SQLは以下のような場合に向いている データが始めから構造化されている どのような処理をするか最初から決まっていて、変更が ない
  11. 11. 現実のデータは構造化されておらず、汚い どんな処理が必要か決まっていない
  12. 12. そんな場合はNOSQL
  13. 13. とはいえ、半構造なんだから、それな りに構造化しておきたいよね
  14. 14. シリアライズ ⽣のレコードにスキーマで構造を当てはめ、複数の⾔語、 ツールからアクセスできるようにする処理 Thrift Protocolbuffers Avro
  15. 15. アジャイルなので、すぐにリリースして継続的に改善のサ イクルを回す なので、スキーマも単純なものからスタートし、随時追加 していく そのため、⽣のデータは専⽤のフィールドに残しておいた ほうが良い
  16. 16. データパイプライン 半構造データはこんな流れで処理する
  17. 17. SQLは宣⾔的⾔語 「こんなデータをください!」と要求する NoSQLなので、⼿続き的に記述する 「こんな⾵に処理してください!」と要求する
  18. 18. データに対する視点 どんな視点でデータを調べ、マイニングするべきか
  19. 19. ネットワーク
  20. 20. 詳しく知りたい⼈は昔勉強会やった時 の資料を⾒てね^^ http://d.hatena.ne.jp/fuyumi3/20130723/1374582748
  21. 21. 時系列
  22. 22. ⾃然⾔語処理
  23. 23. 確率
  24. 24. 以上
  25. 25. 次回予告
  26. 26. 3章 アジャイルなツール 群
  27. 27. Python Avro Pig MongoDB Elastichsearch (sを⼤⽂字にすると怒られる) Flask Bootstrap D3.js
  28. 28. これらをセットアップして 使ってみよう
  29. 29. 1章で終わるわけないだ ろ!!!
  30. 30. おしまい

×