資料運用的趨勢與挑戰
資料運用的趨勢與挑戰
資料運用的趨勢與挑戰
資料運用的趨勢與挑戰
組織需要處理的各式資料
Apache Hadoop 介紹
Hadoop platform包含許多不同專案
資料服務
營運服務
= HDFS + MapReduce + YARN
+ ecosystem of tools and frameworks
Hadoop 有許多貢獻者
Microsoft 貢獻到Hadoop專案
常透過Hadoop 處理的資料型態
1. 情緒分析(Sentiment)
Understand how your customers feel about your brand
2. Clickstream
Capture and analyze website visitors’ data trails and optimize your website
3. 感應器(Sensor)/機器
Discover patterns in data streaming automatically from remote sensors and machines
4. 地理資訊
Analyze location-based data to manage operations where they occur
5. 伺服器 Logs
Research logs to diagnose process failures and prevent security breaches
6. 非結構化資料 (txt, video, pictures, etc..)
Understand patterns in files across millions of web pages, emails, and documents
Azure HDInsight 簡介
Hadoop Meets the Cloud由微軟所管理的Hadoop服務
使用100% 開源的Apache Hadoop
相容.Net 與 Java 工具
可自動升級 Hadoop 版本
數分鐘內可以設定完成並執行, 無須採購硬體
執行於 Windows 或 Linux
啟用與設定服務, 使用, 取消服務 – 可以保留資料
微軟提供技術支援
Microsoft + Hortonworks
Hadoop Distribution包含許多不同專案
Data Node Data Node Data Node Data Node
Task Tracker Task Tracker Task Tracker Task Tracker
Name Node
Job Tracker
HMaster
Coordination
Region Server Region Server Region Server Region Server
Stream
processin
g
Search and query
Data analytics (Excel)
Web/thick client
dashboards
Devices to take action
RabbitMQ /
ActiveMQ
Azure
HDInsight
In Memory
Spark
其他Hadoop 元件與工具
Ambari: Cluster provisioning, management, and monitoring.
Avro (Microsoft .NET Library for Avro): Data serialization for
the Microsoft .NET environment
MapReduce and YARN: Distributed processing and resource
management
Oozie: Workflow management
Phoenix: Relational database layer over HBase
Pig: Simpler scripting for MapReduce transformations
Sqoop: Data import and export
Tez: Allows data-intensive processes to run efficiently at
scale
ZooKeeper: Coordination of processes in distributed systems
以量計價
$£€¥
受維護的Hodoop服務
自動進行作業系統 更新及安全性更新
Hadoop 版本每年快速演進
輕易地維持在最新的Hadoop版本
結合Hadoop作先進資料分析
Cloud
HDInsight 優勢
自動化建置 Hadoop clusters
使用最新, 穩定的 Hadoop 元件
提供叢集的高可用度跟高可靠性
透過Azure Blob storage提供經濟, 有效率的儲存方式
整合其他Azure 服務, 包括 Web apps 跟 SQL
Database
低進入成本
Hadoop 叢集設置
Hadoop 叢集設置
be removed January 1, 2017
https://portal.azure.com
https://azure.microsoft.com/en-
us/documentation/templates/?term=hdinsight
叢集佈署
Azure HDInsight 介紹

Azure HDInsight 介紹