ゾウ使いへの第一歩Hadoop on Azure 編      伊藤史    @fumito_ito
自己紹介• 伊藤 史• Twitter: @fumito_ito• Hadoopの利用状況  – 半年くらい     • 1~2週間ほどローカルでいじる     • クラスターを使いたくてHadoop on Azureの利用       開始 ...
Today’s Goal• こんな人がHadoop on Azureを使って象使  いへの第一歩を踏み出す – Hadoopって楽しそう。だけど、Windowsだ   しローカルに環境作るのは面倒くさい… – Hadoopの分散ノードでいろいろ...
Resources• http://microsoft.com/bigdata  – Resources/videos• https://www.windowsazure.com/ja-  jp/home/scenarios/big-data/...
Agenda• Hadoopについて• Hadoop on Azureについて• 今後のAzureとHadoop
Hadoopについて(おさらい)
Question.• Hadoopについて知っていますか? 1. 知っている。 2. 概要は知っているけど、使ったことはな    い。 3. よく知らない。
Hadoop ?• OSS  – Apache Hadoop Commons, HDFS, MapReduce• Googleが発表した理論のJava実装  – MapReduce, Jeffrey Dean and Sanjay Ghemaw...
Hadoopざっくり       2             2       1             1           Shuffle Map   1     &           Reduce    1       1      ...
Hadoop related projects
Hadoopをローカルで動かす• Linux Machine / Server  – 普通に動く  – 例:Cloudera Ubuntu VM• Windows Machine / Server  – Cygwin, OpenSSH 必須  ...
HadoopをCloud Serviceで動か          す               New !!
Hadoop on Azureについて
Question.• Hadoop on Azureを知っていますか? 1. 実際に使っている 2. 存在は知っている 3. 知らない
Hadoop on Azure https://www.hadooponazure.com/
Hadoop on Azureのなかみ
接続できるMS製品/サービス
Hadoop on Azureざっくり• Apache Hadoop-based Service on Azure• CTP• 4~32Nodes  – 48時間で全ノードおよびHDFSがリセット• Execute MapReduce by 2...
Cluster sizeの選択
本日のピックアップ• Execute Map Reduce by 2-way• Connect with other services
DEMO• Execute MapReduce• Execute MapReduce on Interactive  Console
Execute Map Reduce• 固定的なものはジョブとして登録• それ以外のものはInteractive Consoleから  実行 – JavaScriptを記述して実行します   • 他にもHive, Pig, HDFSの操作など ...
ところで、学習コストは?• Azure対応のために学習コストが高くなら  ない? – 基本的にデータのある場所を変更するだけ  • 例) file:// -> asv:// – DistributedCacheで使うファイルはHDFS上に   ...
JavaScriptでMapReducevar map = function (key, value, context) {   var words = value.split(/[^a-zA-Z]/);   words.forEach( fu...
JavaScriptでMapReduce• いいところ – お約束的に書かなきゃいけない何やかんやを   省略できる – 簡単なジョブならこちらのほうが楽 – mainも予約語っぽいので複雑な設定にも対応   できるようになる(?)• 悪いとこ...
Connect with other services
Hadoop on Azure with othersHiveODBC        Sqoop         SQL JDBC               Connector for Apache Hive Add-In          ...
Connect with Storages• S3,Blob上にあるファイルを直に指定して  MapReduceの入出力先にできる• asv://, s3://• HDFSに大きすぎるファイルをアップロー  ドしようとすると失敗する• データソ...
DEMO• Hive to Excel デモ
Connect with MS Products• HiveのテーブルをExcel上に接続したり – MS Excel Hive Add-In• SQLServerにドカンと落としたり – SQLServer Connector for Apa...
おまけDEMO• Graph on Console デモ
今後のAzureとHadoop
2012 June ?http://www.zdnet.com/blog/microsoft/wheres-hadoop-for-microsofts-windows-server/12809
まとめ• Winユーザーでも分散環境でのM/Rを手軽  に実行できる• 現在は制限が大きいが、データの永続化  などに注意を払えばテスト用などに活用  できる• 今後リリースされるHadoop for Windows  Serverに慣れる意味...
ご清聴ありがとうございまし      た
Upcoming SlideShare
Loading in …5
×

ゾウ使いへの第一歩

1,128 views

Published on

2012/6/30
Go Azureにてお話しさせていただきました。

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
1,128
On SlideShare
0
From Embeds
0
Number of Embeds
72
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

ゾウ使いへの第一歩

  1. 1. ゾウ使いへの第一歩Hadoop on Azure 編 伊藤史 @fumito_ito
  2. 2. 自己紹介• 伊藤 史• Twitter: @fumito_ito• Hadoopの利用状況 – 半年くらい • 1~2週間ほどローカルでいじる • クラスターを使いたくてHadoop on Azureの利用 開始 • CTPってことはお金かからないんですよね? – 素のHadoopがメイン
  3. 3. Today’s Goal• こんな人がHadoop on Azureを使って象使 いへの第一歩を踏み出す – Hadoopって楽しそう。だけど、Windowsだ しローカルに環境作るのは面倒くさい… – Hadoopの分散ノードでいろいろ試してみた い。だけどLinuxサーバーはとっつきにくい… – 他のAzureサービスと連携したい
  4. 4. Resources• http://microsoft.com/bigdata – Resources/videos• https://www.windowsazure.com/ja- jp/home/scenarios/big-data/• http://weathercookh.hatenablog.com/
  5. 5. Agenda• Hadoopについて• Hadoop on Azureについて• 今後のAzureとHadoop
  6. 6. Hadoopについて(おさらい)
  7. 7. Question.• Hadoopについて知っていますか? 1. 知っている。 2. 概要は知っているけど、使ったことはな い。 3. よく知らない。
  8. 8. Hadoop ?• OSS – Apache Hadoop Commons, HDFS, MapReduce• Googleが発表した理論のJava実装 – MapReduce, Jeffrey Dean and Sanjay Ghemawat• 分散する – I/O• 集積する – Large workloads – Commodity Service
  9. 9. Hadoopざっくり 2 2 1 1 Shuffle Map 1 & Reduce 1 1 2 1 1 2 1 1 2 1 1 3
  10. 10. Hadoop related projects
  11. 11. Hadoopをローカルで動かす• Linux Machine / Server – 普通に動く – 例:Cloudera Ubuntu VM• Windows Machine / Server – Cygwin, OpenSSH 必須 – この辺を参考にしてます • http://www.ne.jp/asahi/hishidama/home/tech/apac he/hadoop/index.html
  12. 12. HadoopをCloud Serviceで動か す New !!
  13. 13. Hadoop on Azureについて
  14. 14. Question.• Hadoop on Azureを知っていますか? 1. 実際に使っている 2. 存在は知っている 3. 知らない
  15. 15. Hadoop on Azure https://www.hadooponazure.com/
  16. 16. Hadoop on Azureのなかみ
  17. 17. 接続できるMS製品/サービス
  18. 18. Hadoop on Azureざっくり• Apache Hadoop-based Service on Azure• CTP• 4~32Nodes – 48時間で全ノードおよびHDFSがリセット• Execute MapReduce by 2-way – JAR & Console• Connect with other services – S3, Data Market ,Blob Storage ,Excel
  19. 19. Cluster sizeの選択
  20. 20. 本日のピックアップ• Execute Map Reduce by 2-way• Connect with other services
  21. 21. DEMO• Execute MapReduce• Execute MapReduce on Interactive Console
  22. 22. Execute Map Reduce• 固定的なものはジョブとして登録• それ以外のものはInteractive Consoleから 実行 – JavaScriptを記述して実行します • 他にもHive, Pig, HDFSの操作など • Hiveには専用のコンソールも – Promise Objectを返すのでJobの完了をトリ ガーに色々できる
  23. 23. ところで、学習コストは?• Azure対応のために学習コストが高くなら ない? – 基本的にデータのある場所を変更するだけ • 例) file:// -> asv:// – DistributedCacheで使うファイルはHDFS上に ないとダメ、など多少の制限はあり • 現状、正式なアナウンスはない • 今後、仕様が変更される可能性あり
  24. 24. JavaScriptでMapReducevar map = function (key, value, context) { var words = value.split(/[^a-zA-Z]/); words.forEach( function (word) { if (word !== "") { context.write(word.toLowerCase(), 1); } });};var reduce = function (key, values, context) { var sum = 0; while (values.hasNext()) { sum += parseInt(values.next()); } context.write(key, sum);};
  25. 25. JavaScriptでMapReduce• いいところ – お約束的に書かなきゃいけない何やかんやを 省略できる – 簡単なジョブならこちらのほうが楽 – mainも予約語っぽいので複雑な設定にも対応 できるようになる(?)• 悪いところ – ドキュメントが全然ない – 裏で何が動いているのか分からない
  26. 26. Connect with other services
  27. 27. Hadoop on Azure with othersHiveODBC Sqoop SQL JDBC Connector for Apache Hive Add-In Hadoop
  28. 28. Connect with Storages• S3,Blob上にあるファイルを直に指定して MapReduceの入出力先にできる• asv://, s3://• HDFSに大きすぎるファイルをアップロー ドしようとすると失敗する• データソースはストレージ上に置いとく のがオススメ
  29. 29. DEMO• Hive to Excel デモ
  30. 30. Connect with MS Products• HiveのテーブルをExcel上に接続したり – MS Excel Hive Add-In• SQLServerにドカンと落としたり – SQLServer Connector for Apache Hadoop• SQL Azureに流し込んだりできる – Sqoop• データ量、用途、お金の具合に応じて使 い分ければいいのでは
  31. 31. おまけDEMO• Graph on Console デモ
  32. 32. 今後のAzureとHadoop
  33. 33. 2012 June ?http://www.zdnet.com/blog/microsoft/wheres-hadoop-for-microsofts-windows-server/12809
  34. 34. まとめ• Winユーザーでも分散環境でのM/Rを手軽 に実行できる• 現在は制限が大きいが、データの永続化 などに注意を払えばテスト用などに活用 できる• 今後リリースされるHadoop for Windows Serverに慣れる意味で試してみるのもアリ
  35. 35. ご清聴ありがとうございまし た

×