Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

20160416 Azure Data Lakeのはまりどころ

2,937 views

Published on

Global Azure Boot Camp 2016 in JapanでのLT資料です

Published in: Technology
  • Be the first to comment

20160416 Azure Data Lakeのはまりどころ

  1. 1. Azure Data Lakeの はまりどころ 2016/04/16 Global Azure Boot Camp 大田 一希
  2. 2. 自己紹介 • 名前:大田 一希(かずき) • Twitter:@okazuki • 犬派猫派:犬派 • 肩書?: Microsoft MVP for Windows Development • Blog:かずきのBlog@hatena http://blog.okazuki.jp • OSS:ReactiveProperty https://github.com/runceel/ReactiveProperty
  3. 3. お約束事項 • 記載の内容は個人の見解であり、所属する企業を代表するもの ではありません。
  4. 4. Data Lake Store • Azureのなんでも入るデータストア • エクスプローラライクな構造でデータ を持てる • 画像もテキストもバイナリもなんでも 入る • 素敵!魔法の入れ物!
  5. 5. Data Lake Analytics • Data Lake Storeに対してU-SQLとい うSQLとC#が混ざったような言語で 分析ができる • 大量ファイルを一括で処理できる • ビックデータ分析に向いてそう • 素敵!こんなの待ってた!
  6. 6. じゃぁ使ってみようか
  7. 7. case1 • ちょっとCSV置いてU-SQLで分析してみようかな
  8. 8. case1 ('ω'乂)<ダメー
  9. 9. case1 • ヘッダー付きCSVはU-SQLで読み込めない… • 最近Stream AnalyticsからData Lake Storeへ出力可能になった がヘッダーつきCSVを出力してくれるという…
  10. 10. case2 • SHIFT_JIS見れるじゃん?分析してみようか。
  11. 11. case2 ('ω'乂)<ダメー
  12. 12. case2 • SHIFT_JISはU-SQLで読み込めない… • UTF-8にしましょう
  13. 13. case3 • 気を取り直してビックデータ分析だ!ちょっと列数の多いデー タを読み込もう。
  14. 14. case2 ('ω';)<…
  15. 15. case3 • 列の数だけEXTRACT句で列挙しないといけない…(300列ある とそれだけで300行) • @src = EXTRACT column1 string, column2 string, … column299 string, column300 string FROM “hoge/fuga/piyo.csv” USING Extractors.Csv();
  16. 16. つらい
  17. 17. case4 • UTF-8だし手頃な大きさの CSVだしU-SQL書くぞ!
  18. 18. case4 ('ω'乂)<ダメー
  19. 19. case4 • パスに日本語名があるとU-SQLで エラーになる
  20. 20. まとめ
  21. 21. まとめ • 色々とはまりどころのある奴ですが、はまると出来る子です ※ただし1クエリに数分かかる • 上手に使って幸せなData Lakeライフを!

×