A 2-3ゾウ使いへの第一歩 hadoop on azure 編

1,175 views

Published on

A-2-3

ゾウ使いへの第一歩 Hadoop on Azure 編

伊藤 史

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,175
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
0
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide

A 2-3ゾウ使いへの第一歩 hadoop on azure 編

  1. 1. ゾウ使いへの第一歩Hadoop on Azure 編 伊藤史 @fumito_ito
  2. 2. 自己紹介• 伊藤 史• Twitter: @fumito_ito• Hadoopの利用状況 – 半年くらい • 1~2週間ほどローカルでいじる • クラスターを使いたくてHadoop on Azureの利用 開始 • CTPってことはお金かからないんですよね? – 素のHadoopがメイン
  3. 3. Today’s Goal• こんな人がHadoop on Azureを使って象使 いへの第一歩を踏み出す – Hadoopって楽しそう。だけど、Windowsだ しローカルに環境作るのは面倒くさい… – Hadoopの分散ノードでいろいろ試してみた い。だけどLinuxサーバーはとっつきにくい… – 他のAzureサービスと連携したい
  4. 4. Resources• http://microsoft.com/bigdata – Resources/videos• https://www.windowsazure.com/ja- jp/home/scenarios/big-data/• http://weathercookh.hatenablog.com/
  5. 5. Agenda• Hadoopについて• Hadoop on Azureについて• 今後のAzureとHadoop
  6. 6. Hadoopについて(おさらい)
  7. 7. Question.• Hadoopについて知っていますか? 1. 知っている。 2. 概要は知っているけど、使ったことはな い。 3. よく知らない。
  8. 8. Hadoop ?• OSS – Apache Hadoop Commons, HDFS, MapReduce• Googleが発表した理論のJava実装 – MapReduce, Jeffrey Dean and Sanjay Ghemawat• 分散する – I/O• 集積する – Large workloads – Commodity Service
  9. 9. Hadoopざっくり 2 2 1 1 Shuffle Map 1 & Reduce 1 1 2 1 1 2 1 1 2 1 1 3
  10. 10. Hadoop related projects
  11. 11. Hadoopをローカルで動かす• Linux Machine / Server – 普通に動く – 例:Cloudera Ubuntu VM• Windows Machine / Server – Cygwin, OpenSSH 必須 – この辺を参考にしてます • http://www.ne.jp/asahi/hishidama/home/tech/apac he/hadoop/index.html
  12. 12. HadoopをCloud Serviceで動か す New !!
  13. 13. Hadoop on Azureについて
  14. 14. Question.• Hadoop on Azureを知っていますか? 1. 実際に使っている 2. 存在は知っている 3. 知らない
  15. 15. Hadoop on Azure https://www.hadooponazure.com/
  16. 16. Hadoop on Azureのなかみ
  17. 17. 接続できるMS製品/サービス
  18. 18. Hadoop on Azureざっくり• Apache Hadoop-based Service on Azure• CTP• 4~32Nodes – 48時間で全ノードおよびHDFSがリセット• Execute MapReduce by 2-way – JAR & Console• Connect with other services – S3, Data Market ,Blob Storage ,Excel
  19. 19. Cluster sizeの選択
  20. 20. 本日のピックアップ• Execute Map Reduce by 2-way• Connect with other services
  21. 21. DEMO• Execute MapReduce• Execute MapReduce on Interactive Console
  22. 22. Execute Map Reduce• 固定的なものはジョブとして登録• それ以外のものはInteractive Consoleから 実行 – JavaScriptを記述して実行します • 他にもHive, Pig, HDFSの操作など • Hiveには専用のコンソールも – Promise Objectを返すのでJobの完了をトリ ガーに色々できる
  23. 23. ところで、学習コストは?• Azure対応のために学習コストが高くなら ない? – 基本的にデータのある場所を変更するだけ • 例) file:// -> asv:// – DistributedCacheで使うファイルはHDFS上に ないとダメ、など多少の制限はあり • 現状、正式なアナウンスはない • 今後、仕様が変更される可能性あり
  24. 24. JavaScriptでMapReducevar map = function (key, value, context) { var words = value.split(/[^a-zA-Z]/); words.forEach( function (word) { if (word !== "") { context.write(word.toLowerCase(), 1); } });};var reduce = function (key, values, context) { var sum = 0; while (values.hasNext()) { sum += parseInt(values.next()); } context.write(key, sum);};
  25. 25. JavaScriptでMapReduce• いいところ – お約束的に書かなきゃいけない何やかんやを 省略できる – 簡単なジョブならこちらのほうが楽 – mainも予約語っぽいので複雑な設定にも対応 できるようになる(?)• 悪いところ – ドキュメントが全然ない – 裏で何が動いているのか分からない
  26. 26. Connect with other services
  27. 27. Hadoop on Azure with othersHiveODBC Sqoop SQL JDBC Connector for Apache Hive Add-In Hadoop
  28. 28. Connect with Storages• S3,Blob上にあるファイルを直に指定して MapReduceの入出力先にできる• asv://, s3://• HDFSに大きすぎるファイルをアップロー ドしようとすると失敗する• データソースはストレージ上に置いとく のがオススメ
  29. 29. DEMO• Hive to Excel デモ
  30. 30. Connect with MS Products• HiveのテーブルをExcel上に接続したり – MS Excel Hive Add-In• SQLServerにドカンと落としたり – SQLServer Connector for Apache Hadoop• SQL Azureに流し込んだりできる – Sqoop• データ量、用途、お金の具合に応じて使 い分ければいいのでは
  31. 31. おまけDEMO• Graph on Console デモ
  32. 32. 今後のAzureとHadoop
  33. 33. 2012 June ?http://www.zdnet.com/blog/microsoft/wheres-hadoop-for-microsofts-windows-server/12809
  34. 34. まとめ• Winユーザーでも分散環境でのM/Rを手軽 に実行できる• 現在は制限が大きいが、データの永続化 などに注意を払えばテスト用などに活用 できる• 今後リリースされるHadoop for Windows Serverに慣れる意味で試してみるのもアリ
  35. 35. ご清聴ありがとうございまし た

×