Your SlideShare is downloading. ×
0
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
打開窗,讓大象跨進來 - Microsoft HDInsight
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

打開窗,讓大象跨進來 - Microsoft HDInsight

2,517

Published on

Microsoft TechDays 2013 研討會講題

Microsoft TechDays 2013 研討會講題

Published in: Technology
0 Comments
5 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,517
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
90
Comments
0
Likes
5
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. .. Profile 國立台灣大㈻電機工程㈻研究所畢業 現任 ㈾訊工業策進會 數位教育研究所 ㈾訊技術訓練㆗心 教㈻組長 在 Java 領域㈲㈩多年的講師教㈻經驗 熟悉 XML/Web Services、Design Patterns、 EJB/JPA 等 Java EE 規格,Struts/Spring/ Hibernate 等 Open Source Framework,與 JBoss AS、GlassFish 等 Application Server。㉂ 認為會的技術不多,但是㈻不會的也不多,最擅 長把老闆交㈹的工作,以及找不到老師教的技 術,想辦法變成㉂己的專長。 目前負責雲端運算相關技術的推廣,主要包括 Apache Hadoop、Google App Engine、 Cloudbees 等雲端平台,jQuery Mobile、 Node.js、Responsive Web Design 等 Mobile Web 相關技術,與 iOS、Android 等 Smart Handheld 端的整合運用。
  • 2. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 3. .. 什麼是 Apache Hadoop http://hadoop.apache.org/ 由創建 Lucene 與 Nutch 的 Doug Cutting 所建立 包括 Hadoop Distributed File System 與 MapReduce Programming Paradigm 這兩大部份 以 Java 開發,但是不支援 Java SE 6 之前的 JDK 版本 Hadoop 是 Doug Cutting 兒子黃色大象填充玩偶 的㈴字 簡短、好拼好念、沒意義、沒㆟用,是 Doug Cutting 的命㈴原則 子計劃的㈴稱也因為大象的關係,再加入動物的 ㈵色,如 Pig、Hive、與 ZooKeeper
  • 4. .. ㊜合 Hadoop 的使用情境 具備幾千個 Node 的 Scalability 把軟硬體發生 Failure 當成家常便飯 要處理的檔案不多,但是每個都很大 可能只會㊢入㆒次,但是會讀取很多次
  • 5. .. 什麼是 HDFS Self-Healing、Distributed File System 以 Block 方式儲存㈾料,打破 Disk 實體限制 透過 Replication 的方式實現 Reliability 提供熟悉的操作介面,以及可以客製化的 API 為了方便提供客製化的介面,還提供 RESTful Web Services Interface for HDFS (WebHDFS)
  • 6. .. 什麼是 MapReduce 提供㆒個 Computing Model,把㆒個處理大量㈾料 的 Job,拆解成許多可以在㆒堆 Server 平行處理 的 Task 把 Code 往 Data 所在的 Server 搬移,減少 Network Traffic 各個 Task 執行的結果,會整合在㆒起,得到最終 的結果
  • 7. .. MapReduce 常見範例(選舉開票) Input Splitting ㆗選會 -> 各開票所 -> ㆒堆票櫃 -> ㆒堆選票 想辦法把輸入㈾料變成㆒堆 (k1, v1) Mapper (第 n 張, 選 XXX) -> (XXX, 1) 每個 (k1, v1) 分別傳給 Mapper 處理,輸出 (k2, v2) Shuffling n 張 (XXX, 1) -> (XXX, n 個 1) 相同 k2 的 List(k2, v2) 可以先收集在㆒起,轉換成 (k2, List(v2)) Reducer ㆒堆 (XXX, n 個 1) -> (XXX, m) 把各個 Reducer 的輸出彙總,就是最後的輸出結 果 List(k3, v3)
  • 8. .. MapReduce 常見範例(Word Count) http://www.rabidgremlin.com/data20/
  • 9. .. Hadoop 的 Ecosystem http://hadoop.apache.org/
  • 10. .. Hive http://hive.apache.org/ 由 Facebook 開發 SQL Interface for Hadoop Hive 會把 HiveQL 查詢轉譯為 MapReduce Job, 處理放在 HDFS 裡面的㈾料 因為 MapReduce 的 Overhead 很大,所以不㊜合 用在 Real-Time Analysis Excel 可以透過 ODBC 跟 Hive 整合,擴大了可以 使用 Hadoop 的族群 方便整合現㈲的 Business Intelligence 與 Data Warehousing 系統
  • 11. .. Pig http://pig.apache.org/ 由 Yahoo! 開發 Scripting Language for Hadoop 提供 Pig Latin 語言,在 Grunt Shell 進行互動 透過㆒系列的 Relation 宣告,對㈾料進行轉換, 每個轉換都是㆒個 MapReduce Job 通常用在 ETL 階段,將外部㈾料轉入 Hadoop
  • 12. .. Sqoop http://sqoop.apache.org/ 取 SQL to Hadoop 之意 由 Cloudera 開發,現在是 Apache 專案 Get Data to/from SQL Database 是 RDBMS 與 Hadoop 間的匯入匯出工具 提供㆒般的 Connector,透過 JDBC 建立 Connection MySQL 與 PostgreSQL 可以使用支援㈵殊語法的 Fast Connector 底層㆒樣是透過 MapReduce 機制運作
  • 13. .. Hadoop vs. RDBMS Hadoop 與 RDBMS ㆒起運用的可能情境: 把 Hadoop 當做 Archive Storage 拿 Hadoop 來做 Data Preprocessing 將 Hadoop 產生的㈾料當做 Data Source … 不管哪㆒種情境,都需要能夠讓㈾料在 Hadoop 與 RDBMS 之間暢行無阻。
  • 14. .. 目前比較重要的 Hadoop Distribution Apache Hadoop Cloudera Distribution for Apache Hadoop Hortonworks Data Platform MapR Distribution for Apache Hadoop Intel Distribution for Apache Hadoop Microsoft Windows Azure HDInsight Service …
  • 15. .. 可以在 Windows 平台執行的 Hadoop ㆒般來說: 原則㆖ Linux 平台是㆒個 Hadoop ㈲支援的 Development 與 Production Platform Win32 可以是個 Development Platform,但是 Distributed Operation 沒㈲在 Win32 ㆖面詳細測 試過,所以不建議把 Win32 當成 Production Platform 不過這件事因為 Microsoft 開始在 Windows Azure ㆖ 支援 Hadoop 之後㈲了改變。
  • 16. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 17. .. Microsoft 的 Big Data Solution http://www.windowsazure.com/en-us/solutions/big-data/
  • 18. .. 什麼是 HDInsight 2012 年 10 ㈪發佈 目前是 Developer Preview 版本 以 Hortonworks Data Platform (HDP) 平台為基礎 結合 Windows 簡易操作與 HDP 的穩定與威力 以 Developer 為目標族群,目前只支援 Single Node Deployment
  • 19. .. HDInsight ㈲兩種 Windows Azure HDInsight Service https://www.hadooponazure.com/ HDInsight for Windows Server http://www.microsoft.com/web/gallery/ install.aspx?appid=HDINSIGHT-PREVIEW
  • 20. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 21. .. HDInsight Server 安裝前必要元件 ㆒定要 64-Bit Windows Windows 7/8/8.1 Windows Server 2008 R2/2012 Web Platform Installer 4.6 Visual Studio 2012 Windows Azure SDK 2.1 IIS 8.0 ASP.NET and Web Frameworks 2012.2 PowerShell …
  • 22. .. 安裝 VS 2012 with Azure SDK 2.1
  • 23. .. HDInsight Server 會安裝的內容 IIS 元件 Visual C++ 2010 SP1 可轉散發套件 (x64) .NET Framework 3.5 Python 2.7.3 (x32) Hortonworks Data Platform for Windows 1.0.1 Java SE 6 Development Kit Update 31 Microsoft HDInsight for Windows Server …
  • 24. .. 安裝 HDInsight Server
  • 25. .. HDInsight Command-Line Interface
  • 26. .. HDInsight Web Application http://localhost:8085/
  • 27. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 28. .. HDInsight 1.5 內容 Hadoop 1.1.0 Hive 0.9.0 Pig 0.9.3 Sqoop 1.4.2 Oozie 3.2.0 …
  • 29. .. 手動啟動 Hadoop 各個 Daemon 執行 start-onebox.cmd,相當於執行 start-all.sh Starting Hadoop Core services Starting Hadoop services Starting namenode Starting datanode Starting secondarynamenode Starting jobtracker Starting tasktracker Starting historyserver Starting Hive services 0 Starting Hive services 1 Starting hwi 2 Starting derbyserver 3 Starting metastore 4 Starting hiveserver 5 Starting hiveserver2 6 Starting Oozie service 7 Starting IsotopeJS services 8 Starting isotopejs 事實㆖,這些全部都變成 Autorun Windows 服務!
  • 30. .. HDInsight 會㉂動啟動所㈲服務
  • 31. .. 進入 HDInsight 世界的捷徑 執行桌面㆖的 Hadoop Command Line 捷徑 從 Windows 走進 Hadoop 的捷徑: C:Windowssystem32cmd.exe /k pushd "c:hadoophadoop-1.1.0-SNAPSHOT" && IF EXIST "c:hadoopGettingStartedinit.cmd" ( "c:hadoopGettingStartedinit.cmd" ) ELSE ( "c:hadoophadoop-1.1.0-SNAPSHOTbinhadoop.cmd" )
  • 32. .. Hadoop ㈲㆔種常見的組態設定方式 Standalone Mode Pseudo-Distributed Mode Fully-Distributed Mode
  • 33. .. HDInsight Server 使用的組態設定 HDInsight Server 是 Pesudo-Distributed Mode: core-site.xml fs.default.name = hdfs://localhost:8020 hdfs-site.xml dfs.replication = 1 mapred-site.xml mapred.job.tracker = localhost:50300 hive-site.xml hive.server2.http.port = 10001 PS:㆒般來說,Job Tracker Port = HDFS Port + 1
  • 34. .. Hadoop Eclipse Plugin ㆒樣可以使用
  • 35. .. Demo:Command-Line Interface
  • 36. .. Netflix Dataset 1998-2005 1,2003,Dinosaur Planet 2,2004,Isle of Man TT 2004 Review 3,1997,Character 4,1994,Paula Abdul's Get Up & Dance 5,2004,The Rise and Fall of ECW 6,1997,Sick 7,1992,8 Man 8,2004,What the #$*! Do We Know!? 9,1991,Class of Nuke 'Em High 2 0 10,2001,Fighter 1 11,1999,Full Frame: Documentary Shorts 2 12,1947,My Favorite Brunette 3 13,2003,Lord of the Rings: The Return of the King: Extended Edition: Bonus Material 4 14,1982,Nature: Antarctica 5 15,1988,Neil Diamond: Greatest Hits Live 6 16,1996,Screamers 7 17,2005,7 Seconds 8 18,1994,Immortal Beloved 9 19,2000,By Dawn's Early Light 0 20,1972,Seeta Aur Geeta 1 ...
  • 37. .. MapReduce Demo - Mapper 電影片㈴裡面最喜歡用的英文單字 public class HWMapper extends Mapper<Object, Text, Text, IntWritable> { private Text word = new Text(); private final static IntWritable one = new IntWritable(1); public void map(Object key, Text value, Context context) throws IOException, InterruptedException { String title = value.toString().toLowerCase().trim().split(",")[2]; 0 String[] words = title.split("W"); 1 for (String str: words) 2 { 3 if (!str.equals("")) 4 { 5 word.set(str); 6 context.write(word, one); 7 } 8 } 9 } 0 }
  • 38. .. MapReduce Demo - Reducer 電影片㈴裡面最喜歡用的英文單字 public class HWReducer extends Reducer<Text, IntWritable, Text, IntWritable> { private IntWritable result = new IntWritable(); public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException { int sum = 0; for (IntWritable val : values) 0 { 1 sum += val.get(); 2 } 3 result.set(sum); 4 context.write(key, result); 5 } 6 }
  • 39. .. MapReduce Demo - Job Driver 電影片㈴裡面最喜歡用的英文單字 public class HWDriver { public static void main(String[] args) throws IOException, InterruptedException, ClassNotFoundException { Configuration conf = new Configuration(); Job job = new Job(conf, "Hottest Word"); job.setJarByClass(tw.techdays.hottestword.HWDriver.class); 0 job.setMapperClass(tw.techdays.hottestword.HWMapper.class); 1 job.setReducerClass(tw.techdays.hottestword.HWReducer.class); 2 3 FileInputFormat.addInputPath(job, new Path(otherArgs[0])); 4 FileOutputFormat.setOutputPath(job, new Path(otherArgs[1])); 5 6 job.setOutputKeyClass(Text.class); 7 job.setOutputValueClass(IntWritable.class); 8 9 System.exit(job.waitForCompletion(true) ? 0 : 1); 0 } 1 }
  • 40. .. MapReduce Demo 電影片㈴裡面最喜歡用的英文單字 執行 Hadoop Command Line 捷徑 mkdir C:Hadoopdata mkdir C:Hadoopdatamovies ㆘載 movie_titles.txt 檔案到 C:Hadoopdatamovies 目錄 hadoop jar C:/Hadoop/workspace/HottestWord.jar file:///C:/Hadoop/data/movies file:///C:/Hadoop/data/hottest-word 0 1 hadoop fs -mkdir movies 2 hadoop fs -put C:Hadoopdatamoviesmovie_titles.txt movies 3 hadoop jar HottestWord.jar movies hottest-word-hdfs 4 5 hadoop fs -cat hottest-word-hdfs/part-r-00000 6 hadoop fs –rmr -skipTrash hottest-word-hdfs
  • 41. .. Hive 前置作業 http://www.orzota.com/hive-for-beginners/ 安裝後請先執行底㆘的指令: 執行 Hadoop Command Line 捷徑 hadoop fs -mkdir /tmp hadoop fs -mkdir /user/hive/warehouse hadoop fs -chmod g+w /tmp hadoop fs -chmod g+w /user/hive/warehouse 否則不管是 Command Line 或是 Web 介面,都不能正 常運作。
  • 42. .. Hive Demo hive -e "statement" 或是 hive -f sample.hql 執行 Hadoop Command Line 捷徑 hive hive> create external table movie_data(id int, year int, title string) row format delimited fields terminated by ',' lines terminated by 'n'; hive> show tables; hive> load data local inpath 'movies' overwrite into table movie_data; hive> select * from movie_data; 0 hive> select year, count(*) from movie_data group by year; 1 hive> select title, size(split(title, ' ')) from movie_data where year = 2005; 2 hive> select size(split(title, ' ')), count(*) from movie_data 3 group by size(split(title, ' ')); 4 hive> insert overwrite directory 'title-length' 5 select size(split(title, ' ')), count(*) from movie_data 6 group by size(split(title, ' ')); 7 hive> quit; 8 9 hadoop fs -ls title-length 0 hadoop fs -cat title-length/000000_0 1 hadoop fs -rmr -skipTrash title-length
  • 43. .. Hive ㊟意事㊠ http://stackoverflow.com/questions/16459790/ hive-insert-overwrite-directory-command-output-is-not-separated-by-a-delimiter Hive 輸出到 Directory 的時候,沒辦法㉂訂 Delimiter 預設是 001,Unix 方式換行 建議輸出到 Table,不要輸出到 Directory 如果㆒定要輸出到 Directory,可以搭配 concat_ws Function hive> insert overwrite directory 'title-length' select concat_ws(',', cast(size(split(title, ' ')) as string), cast(count(*) as string) ) from movie_data group by size(split(title, ' '));
  • 44. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 45. .. HDInsight local (hdfs) Cluster http://localhost:8085/
  • 46. .. Demo:Web Application
  • 47. .. Create MapReduce Job 使用介面 http://localhost:8085/14/WebHCat/CreateMapReduceJob
  • 48. .. Create MapReduce Job 命令列參數 args[0]:Class Name args[1]:-D args[2]:TITLE = Job Name args[3]:Job Arguments (不能按 ENTER 鍵) 網頁參數的算法跟命令列參數的算法差很大!
  • 49. .. Interactive JavaScript 錯誤畫面 http://localhost:8085/14/Cluster/InteractiveJS
  • 50. .. Interactive JavaScript ㊟意事㊠ http://social.msdn.microsoft.com/Forums/windowsazure/zh-tw/ 8eca1948-4036-4105-8c28-b0653c630013/ hdinsight-interactive-javascript-ls-throwing-error 如果 Interactive JavaScript 不能運作,可以試看看: 重新安裝 HDInsight 手動執行 start-onebox.cmd 重新啟動 Apache Hadoop isotopejs 服務 重開機 殺掉所㈲ iexplore.exe Process 先用 Chrome 連㆖ http://localhost:8085,確定 Interactive JavaScript 可以執行,再改用 IE 其實唯㆒㈲效的方法是:先用 Firefox!
  • 51. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 52. .. Microsoft 商業智慧工具 http://www.microsoft.com/taiwan/sqlserver/big-data-solution.aspx 如果 Hadoop 運算的結果可以匯入 Excel,每個㆟ 就可以無痛使用 PowerPivot 與 Power View 等 BI 工具分析㈾料 如果 Hadoop 運算的結果可以匯入 SQL Server, 那就可以跟 SQL Server Analysis Service、 Reporting Service 等 BI 工具無縫整合
  • 53. .. HDInsight vs. Excel http://www.microsoft.com/en-us/download/details.aspx?id=37134
  • 54. .. HDInsight vs. SQL Server http://www.microsoft.com/en-us/download/details.aspx?id=27584
  • 55. .. Demo:Windows Integration
  • 56. .. Sqoop vs. SQL Server 把㈾料從 SQL Server 匯入到 HDFS sqoop import --connect "jdbc:sqlserver://localhost:1433;databaseName=AdventureWorks2012" --username USERNAME -P --table DatabaseLog -m 1 --target-dir databaselog 0 把㈾料從 HDFS 匯出到 SQL Server 1 2 sqoop export 3 --connect "jdbc:sqlserver://localhost:1433;databaseName=TechDays2013" 4 --username USERNAME -P 5 --export-dir title-length 6 --table TitleLength 7 --input-lines-terminated-by n 8 --input-fields-terminated-by t
  • 57. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 58. .. Windows Azure HDInsight Service http://www.windowsazure.com/zh-tw/services/hdinsight/
  • 59. .. Deliver Solution with Services
  • 60. .. Cloud Storage:HDFS vs. ASV HDInsight Service 提供兩種存放㈾料的方式: Hadoop Distributed File System (HDFS) hdfs://<namenodehost>/<path> Azure Storage Vault (ASV) asv[s]://[<container>@]<account>.blob.core.windows.net/<path>
  • 61. .. Azure Storage Vault HDFS Application <-> HDFS <-> ASV <-> Blob Storage 本身被設計為 HDFS Extension 其實就是 HDFS on Windows Azure Blob Storage 存放在 Windows Azure Blob Storage 的㈾料,可 以透過 ASV 的方式存取
  • 62. .. Blob Storage ㊜合存放 Unstructured Data 的 Storage ㈵色是 High Availability/Scalability/Capacity, Low Cost ㆒個 Storage Account 可以存放最多 200 TB 的 ㈾料 可以透過 HTTP 或 HTTPS 存取㈾料
  • 63. .. Blob Storage 定址方式 http://www.windowsazure.com/en-us/develop/net/how-to-guides/blob-storage/?fb=zh-tw Blob Storage:http://sally.blob.core.windows.net/movies/MOV1.AVI AVS:avs://movies@sally.blob.core.windows.net/MOV1.AVI
  • 64. .. 使用 Blob Storage 的㊝點 HDInsight Cluster 執行完 MapReduce Job,通常 就會刪除 如果㈾料存放在 HDFS,Cluster 刪除後㈾料會跟 著不見 如果㈾料存放在 Blob Storage,Cluster 刪除後㈾ 料可以繼續存在 ㈾料存放在 Blob Storage 比存放在 Cluster 便宜 ㈾料存放在 Blob Storage 比存放在 Cluster 容易 Scale
  • 65. .. Azure Storage Vault vs. JavaScript #cat asv://techdays@monsterpub.blob.core.windows.net/movie_titles.txt
  • 66. .. Azure Storage Vault 檔案存取方式 語法: asv[s]://[<container>@]<account>.blob.core.windows.net/<path> 建構 Cluster 的時候,可以指定㈵定的 Blob Storage 與 Container 為 Default File System 相關設定記錄在 core-site.xml 檔案 範例: asvs://dailylogs@myaccount.blob.core.windows.net/input/log1.txt asvs://myaccount.blob.core.windows.net/result.txt asv:///output/result.txt hadoop fs -ls /output/result.txt
  • 67. .. Windows Azure Marketplace http://datamarket.azure.com/
  • 68. .. Demo:Cloud Service
  • 69. .. HDInsight Service 使用前置作業 http://www.windowsazure.com/zh-tw/pricing/details/hdinsight/ 註冊 Windows Azure 帳號 http://www.windowsazure.com 新增 Data Services 裡面的 HDInsight Service 建立 Storage Account,Location 選北歐或美西 設置 Cluster (4/8/16/32 Data Nodes) PS:如果打算使用 SQL Server Management Studio 的話,記得安裝 Silverlight。
  • 70. ...1 Apache Hadoop ...2 Microsoft HDInsight ...3 Software Installation ...4 Command-Line Interface ...5 Web Application ...6 Windows Integration ...7 Cloud Service ...8 Summary
  • 71. .. Hadoop in the Enterprise http://www.ebizq.net/blogs/enterprise/2009/09/10_ways_to_complement_the_ente.php
  • 72. .. 定價詳細㈾料 http://www.windowsazure.com/zh-tw/pricing/details/hdinsight/
  • 73. .. Resources
  • 74. .. Wenming's Blog http://blogs.msdn.com/b/hpctrekker/archive/2013/03/19/ let-there-be-windows-azure-hdinsight.aspx
  • 75. .. Hadoop Sessions
  • 76. .. ㈾策會教研所 ㈾訊技術訓練㆗心 http://www.iiiedu.org.tw/taipei
  • 77. 謝謝大家! Slide:http://www.slideshare.net/KuoChunSu/hdinsight

×