SlideShare a Scribd company logo
1 of 33
Download to read offline
Windows Azure
HDInsight サービス
佐々木邦暢 (@ksasakims)
日本マイクロソフト株式会社
2
 Apache Hadoop
 HDInsight 登場
 クラスターの作成
 クラスターの操作
 MapReduce プログラムの開発
 外部との接続
本日の内容
4
突然ですが
いま、1 TB の Web アクセスログファイルが目の前にあります。
URI 毎にアクセス数を集計しなければなりません。
どうしますか?
grep sort uniq| | > output
5
分散処理の必要性
いずれにせよ、数多くのコンピューターで生成されるデータを、
たった一台で分析するのは無理があります。
一人じゃムリ…
複数のコンピューターによる分散処理が必要です
手分けしよう!
6
そこで Apache Hadoop です
Apache の分散コンピューティングフレームワーク
Google の論文が
契機となって誕生!
多数のサーバーで
分散処理
Yahoo や Facebook
で使われている高スケーラビリティ
7
HDFS
Hadoop の提供するもの
その 1. 分散ファイルシステム “HDFS” (Hadoop Distributed File System)
 複数のコンピューターを束ねて、
一つの仮想的なファイルシステムを提供。
 Hadoop クラスタに属する全ての
ノードが同じ名前空間を共有。
 各ファイルは 64 MB ~ 256 MB 程度の
ブロックに分割されて、複数ノードに分散。
 ブロックサイズが大きいのは、シーケン
シャルアクセスに特化しているため
 各断片は最低 3 ノードに複製され、
ノード障害への耐性を持つ。
 一つのファイルの複数の部分を、複数の
コンピューターで同時に処理することで、
処理を高速化することができる。
断片 1 断片 2 断片 3 断片 4
断片 1 断片 2 断片 3 断片 4
ファイル 1 断片 1 断片 2 断片 3 断片 4
ファイル 4 断片 1 断片 2 断片 3 断片 4
8
Hadoop の提供するもの
その 2. 分散プログラミングモデル “MapReduce”
2013-08-26 23:59:03 W3SVC1 192.168.0.1 GET /…
2013-08-26 23:59:05 W3SVC1 192.168.0.1 GET /…
2013-08-26 23:59:25 W3SVC1 192.168.0.1 GET /…
2013-08-27 00:01:02 W3SVC1 192.168.0.1 GET /…
2013-08-27 00:02:04 W3SVC1 192.168.0.1 GET /…
 名前は一見難しげですが、実際には単純です。
(だからこそスケーラビリティがあります)
 例えば右のような Web のアクセスログがあるとして、
 伝統的なテキスト処理ツールによる集計はこのようなものですが、
$ cat access_log | grep /Login.aspx | sort | uniq –c > output.txt
対象ファイルの全行を頭から舐めて
何らかの処理をする(この場合は検索)
中間結果を集計の
ためにソートする
ソートされたデータを
数え上げて結果を得る
MapReduce はこういった処理をクラスター上で分散並列実行する仕組みです
Map Reduce
9
Hadoop クラスターの構成要素
Hadoop クラスター
MapReduce 層
HDFS 層
ファイルの
登録情報を
一元管理
ジョブ
トラッカー
タスク
トラッカー
タスク
トラッカー
タスク
トラッカー
タスク
トラッカー
Map タスク Map タスクジョブと
タスクの
状態を管理
Map タスク Map タスク Reduce
タスク
タスク
トラッカー
11
Windows (Azure|Server) HDInsight
Hortonworks と協業し、Windows 環境で Hadoop を提供します
 元々 Java で書かれたオープンソースプロジェクトである
Hadoop ですが、 Windows 環境でスムーズに動かすた
めにはいくつか工夫が必要でした。
 マイクロソフトは Hortonworks 社と協業し、 Hadoop
の Windows 環境への移植と最適化を行っています。
 Hortonworks は Yahoo! で Apache Hadoop の
開発に携わっていたチームが独立して設立された企業。
 “Hortonworks Data Platform” (HDP) という
Hadoop ディストリビューションを開発しており、
その Windows 版が HDInsight のコア部分です。
http://hortonworks.com/products/hdp-windows/
12
Windows Azure HDInsight Service
すぐに使えるクラウド上の Hadoop です。
 現在プレビュー中
 40 ノードまでのクラスタが作成可能
 料金は半額
 利用可能なリージョンは以下の 3 箇所
 北ヨーロッパ (North Europe)
 米国東部 (East US)
 米国西部 (West US)
 インスタンスサイズ
 ヘッドノード(ネームノード)は XL
 データノードは L サイズ
 OS
 Windows Server 2008 R2
13
HDInsight に含まれる Hadoop のバージョン
Hcatalog
0.4.1
主要な関連
プロジェクト
14
HDInsight Service システム構成
データ ノードネーム ノード BLOB ストレージ
Windows Azure の PaaS 機能と BLOB ストレージを活用します。
 ネームノード、データノードは
どちらも Worker ロールの
インスタンスです。
 多数のノードを素早く
デプロイできます。
 また、Windows Azure の
「BLOB ストレージ」を、
デフォルトのファイルシステム
として利用します。
 もちろん HDFS も
利用可能です。
15
なぜ BLOB ストレージ?
HDFS の代わりに BLOB ストレージを使うメリット
 BLOB ストレージは、大容量・低価格・高信頼性と
三拍子そろった Windows Azure の主要サービスです。
 Azure 上で稼働する多くのアプリケーションが、
BLOB ストレージにデータを保存しています。
 また、“Windows Azure Diagnostics” 機能で Azure
上のサーバーから IIS ログ等のログファイルを BLOB
ストレージへ自動転送することも一般的です。
 BLOB をデフォルトのファイルシステムとすることで、
これら BLOB 上のデータを HDFS へ一旦コピーするこ
となく、直接分析することができます。
データはそこにある! クラスターを消してもデータは残る
 Hadoop クラスターの稼働中は、ジョブを実行していな
い時間も CPU コア数に応じた課金が発生します。
 クラスターを削除してしまえば、課金は止まりますが、
HDFS は各ノードのローカルディスクであるため、
内容が失われてしまいます。
 BLOB ストレージは、クラスターとは切り離されていま
すから、クラスターを削除してもデータは残ります。
様々なツールが利用可能
 BLOB ストレージにアクセスする既存のツールで、
Hadoop クラスターとデータのやり取りができます。
 CloudBerry Explorer for Windows Azure や
CloudXplorer, AzCopy 等。
16
Azure Storage Vault (ASV)
どういう仕組みで BLOB を Hadoop のファイルシステムにしているのか
そもそも Hadoop のファイルシステムは可換
 様々なファイルシステムを扱えるように、 Hadoop はファイルシステムの抽象化層を持っています。
 マイクロソフトは NativeAzureFileSystem クラスを作成し、 Azure BLOB をサポートできるようにしました。
種類 URI
スキーム
Java の実装クラス
(org.apache.Hadoop)
説明
Local file fs.LocalFileSystem
ローカル
ファイルシステム
HDFS hdfs hdfs.DistributedFileSystem これがデフォルト
FTP ftp fs.ftp.FTPFileSystem FTP サイト用
S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用
Azure
BLOB
asv fs.azurenative.NativeAzureFileSystem Azure BLOB 用
主なファイルシステム
17
ASV の登録と利用
asv://コンテナ名@アカウント名.blob.core.windows.net/パス名
core-site.xml で、 BLOB ストレージがデフォルトファイルシステムに設定されています。
19
管理ポータルからクラスター作成
「簡易作成」であっという間に 32 ノードまでのクラスタが作れます
「簡易作成」画面にはリージョンの指定欄が
ありませんが、ここで選択したストレージ
アカウントと同じリージョンに、
HDInsight クラスターが作成されます。
20
PowerShell を使ってクラスター作成
New-AzureHDInsightCluster -Name 名前
-SubscriptionId SUBID
-Certificate CERT -Location “West US“
-DefaultStorageAccountName ACCOUNT
–DefaultStorageAccountKey KEY
-DefaultStorageContainerName CONTAINER
-UserName ksasaki -Password xxxxxxxxx
-ClusterSizeInNodes 8
HDInsight 管理用コマンドレットで運用を自動化できます。
21
出来上がった HDInsight クラスター
23
JavaScript コンソール
“#コマンド” で、FS Shellの
コマンドを呼び出せます。
“#lsr” は ”hadoop fs –lsr” に相当します。
“#fs.get” で Hadoop 上のファイルを
ローカルコンピューターへダウンロード。
24
Hive コンソール
クエリの結果と、実行された
MapReduce ジョブに関する情報が、
ここに表示されます。
ここに HQL を入力します。
26
Hadoop は Java だけ? .NET は?
Java 以外の言語でもプログラムを開発できます!
 Hadoop 自体が Java で書かれているため、
MapReduce プログラムを書く言語としては Java が
メジャーです。
 しかし、 Hadoop には “Hadoop Streaming” という
仕組みがあり、およそありとあらゆる言語で
MapReduce できるようになっています。
 Hadoop Streaming は、
「標準入出力に対してプログラミングするだけで、
MapReduce ジョブができあがる。」
という、ある意味 inetd のような存在です。
元より多言語対応 Microsoft .NET SDK For Hadoop
 Codeplex でホストされているオープンソースプロ
ジェクトです。下記のモジュールがあります。
 Hadoop Streaming を活用した “.NET MapReduce”
 LINQ で Hive にクエリを行える “LINQ To Hive”
 HDInsight 管理用の PowerShell コマンドレット
 WebHDFS クライアント
 https://hadoopsdk.codeplex.com/
27
.NET MapReduce
 Hadoop Streaming API の .NET ラッパーです。
 C# や Visual Basic で MapReduce ジョブを記述できます。
28
LINQ To Hive
 LINQ のクエリを HIVE クエリに自動変換し、
.NET プログラムから自然な形で Hadoop の
データにアクセスできます。
30
Hive ODBC ドライバー
ODBC 経由で HDinsight クラスターの Hive に接続できます。
Hive ODBC ドライバーのインストール
Hive データソースの作成
接続先テーブルの選択
31
ODBC 経由で Excel へデータ取込み
Excel 上で Hive クエリの編集/結果セットの表示ができます。
HQL 文の定義
HDInsight から Excel へ取り込まれたデータ
32
HDInsight 関連情報
 “Crunch Big Data in the Cloud with Windows Azure HDInsight Service”
http://blogs.msdn.com/b/windowsazure/archive/2013/03/18/announcing-the-public-preview-of-azure-
hdinsight.aspx
 “Hortonworks & Microsoft: Bringing Apache Hadoop to Windows”
http://hortonworks.com/partners/microsoft/
 “HDInsight の開発”
http://blogs.msdn.com/b/windowsazurej/archive/2013/04/03/developing-for-hdinsight.aspx
 “Winodws Azure HDInsight パブリック プレビュー開始!”
http://blogs.technet.com/b/ksasaki/archive/2013/03/19/winodws-azure-hdinsight.aspx
 “How to Connect Excel to Windows Azure HDInsight via HiveODBC”
https://www.windowsazure.com/en-us/manage/services/hdinsight/use-excel-via-hive-odbc-driver/
 Microsoft ODBC Driver For Hive
http://www.microsoft.com/en-us/download/details.aspx?id=37134
Windows Azure HDInsight サービスの紹介

More Related Content

What's hot

[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...Insight Technology, Inc.
 
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングAWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングMinero Aoki
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Hadoop / Spark Conference Japan
 
Webアプリケーションから見たCassandra
Webアプリケーションから見たCassandraWebアプリケーションから見たCassandra
Webアプリケーションから見たCassandra2t3
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門Satoshi Noto
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みKen Morishita
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明Satoshi Noto
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係datastaxjp
 
Amazon Redshift ことはじめ
Amazon Redshift ことはじめAmazon Redshift ことはじめ
Amazon Redshift ことはじめShiro Miyazaki
 
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clustersDb tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clustersHiroaki Kubota
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較 FlyData Inc.
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Web Services Japan
 
Couchbase introduction-20150611
Couchbase introduction-20150611Couchbase introduction-20150611
Couchbase introduction-20150611Couchbase Japan KK
 
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発kishimotosc
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...Insight Technology, Inc.
 
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...Insight Technology, Inc.
 
Datastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようDatastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようYuki Morishita
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウFuture Of Data Japan
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中Satoshi Noto
 

What's hot (20)

[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
[db tech showcase Tokyo 2016] D27: Next Generation Apache Cassandra by ヤフー株式会...
 
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニングAWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
AWS Casual 02: ふつうのRedshiftパフォーマンスチューニング
 
Hadoop 基礎
Hadoop 基礎Hadoop 基礎
Hadoop 基礎
 
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
Apache Hadoop の現在と将来(Hadoop / Spark Conference Japan 2016 キーノート講演資料)
 
Webアプリケーションから見たCassandra
Webアプリケーションから見たCassandraWebアプリケーションから見たCassandra
Webアプリケーションから見たCassandra
 
MapReduceプログラミング入門
MapReduceプログラミング入門MapReduceプログラミング入門
MapReduceプログラミング入門
 
Logをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組みLogをs3とredshiftに格納する仕組み
Logをs3とredshiftに格納する仕組み
 
Hadoop概要説明
Hadoop概要説明Hadoop概要説明
Hadoop概要説明
 
SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係SparkとCassandraの美味しい関係
SparkとCassandraの美味しい関係
 
Amazon Redshift ことはじめ
Amazon Redshift ことはじめAmazon Redshift ことはじめ
Amazon Redshift ことはじめ
 
Db tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clustersDb tech showcase2015 how to replicate between clusters
Db tech showcase2015 how to replicate between clusters
 
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
Amazon Redshift ベンチマーク  Hadoop + Hiveと比較 Amazon Redshift ベンチマーク  Hadoop + Hiveと比較
Amazon Redshift ベンチマーク Hadoop + Hiveと比較
 
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
Amazon Redshiftへの移行方法と設計のポイント(db tech showcase 2016)
 
Couchbase introduction-20150611
Couchbase introduction-20150611Couchbase introduction-20150611
Couchbase introduction-20150611
 
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
Cassandraのトランザクションサポート化 & web2pyによるcms用プラグイン開発
 
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
[db tech showcase Tokyo 2017] A15: レプリケーションを使用したデータ分析基盤構築のキモ(事例)by 株式会社インサイトテ...
 
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
[db tech showcase Tokyo 2015] A33:Amazon Aurora Deep Dive by アマゾン データ サービス ジャ...
 
Datastax Enterpriseをはじめよう
Datastax EnterpriseをはじめようDatastax Enterpriseをはじめよう
Datastax Enterpriseをはじめよう
 
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウSpark Streamingを活用したシステムの検証結果と設計時のノウハウ
Spark Streamingを活用したシステムの検証結果と設計時のノウハウ
 
ただいまHadoop勉強中
ただいまHadoop勉強中ただいまHadoop勉強中
ただいまHadoop勉強中
 

Similar to Windows Azure HDInsight サービスの紹介

[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...Insight Technology, Inc.
 
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティSaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティKuniyasu Suzaki
 
Azure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでAzure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでDaisuke Masubuchi
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera Japan
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTeruo Kawasaki
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩Fumito Ito
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編GoAzure
 
Windows Azure 概要
Windows Azure 概要Windows Azure 概要
Windows Azure 概要fumios
 
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみた
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみたA 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみた
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみたGoAzure
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情Hideo Takagi
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~Developers Summit
 
Awsのクラウドデザインパターンをwindows azureに持ってきてみた
Awsのクラウドデザインパターンをwindows azureに持ってきてみたAwsのクラウドデザインパターンをwindows azureに持ってきてみた
Awsのクラウドデザインパターンをwindows azureに持ってきてみたSunao Tomita
 
分散処理のすゝめ?
分散処理のすゝめ?分散処理のすゝめ?
分散処理のすゝめ?yoshito oe
 
20120913 nosql@hikarie(okuyama fuse)
20120913 nosql@hikarie(okuyama fuse)20120913 nosql@hikarie(okuyama fuse)
20120913 nosql@hikarie(okuyama fuse)Takahiro Iwase
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介bigt23
 

Similar to Windows Azure HDInsight サービスの紹介 (20)

[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
[db tech showcase Tokyo 2015] B34:データの仮想化を具体化するIBMのロジカルデータウェアハウス by 日本アイ・ビー・エ...
 
Azure Datalake 大全
Azure Datalake 大全Azure Datalake 大全
Azure Datalake 大全
 
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティSaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
SaaS/クラウドコンピューティングでのオープンソース活用とセキュリティ
 
Azure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまでAzure上の データベース 機能の選び方。KVSからDWHまで
Azure上の データベース 機能の選び方。KVSからDWHまで
 
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
 
TokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoopTokyoWebminig カジュアルなHadoop
TokyoWebminig カジュアルなHadoop
 
ゾウ使いへの第一歩
ゾウ使いへの第一歩ゾウ使いへの第一歩
ゾウ使いへの第一歩
 
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編A 2-3ゾウ使いへの第一歩 hadoop on azure 編
A 2-3ゾウ使いへの第一歩 hadoop on azure 編
 
Windows Azure 概要
Windows Azure 概要Windows Azure 概要
Windows Azure 概要
 
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知るAI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
 
はやわかりHadoop
はやわかりHadoopはやわかりHadoop
はやわかりHadoop
 
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみた
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみたA 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみた
A 1-3 awsのクラウドデザインパターンをwindows-azureに持ってきてみた
 
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
【ウェブセミナー】マネージドな 100% OSS アナリティクス プラットフォーム HDInsight の最新事情
 
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
 
Awsのクラウドデザインパターンをwindows azureに持ってきてみた
Awsのクラウドデザインパターンをwindows azureに持ってきてみたAwsのクラウドデザインパターンをwindows azureに持ってきてみた
Awsのクラウドデザインパターンをwindows azureに持ってきてみた
 
Hadoop事始め
Hadoop事始めHadoop事始め
Hadoop事始め
 
OSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring HadoopOSC2014 Tokyo/Spring Hadoop
OSC2014 Tokyo/Spring Hadoop
 
分散処理のすゝめ?
分散処理のすゝめ?分散処理のすゝめ?
分散処理のすゝめ?
 
20120913 nosql@hikarie(okuyama fuse)
20120913 nosql@hikarie(okuyama fuse)20120913 nosql@hikarie(okuyama fuse)
20120913 nosql@hikarie(okuyama fuse)
 
Hadoopの紹介
Hadoopの紹介Hadoopの紹介
Hadoopの紹介
 

More from Kuninobu SaSaki

A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツKuninobu SaSaki
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活Kuninobu SaSaki
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Kuninobu SaSaki
 
GTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSGTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSKuninobu SaSaki
 
ISC17 NVIDIA NEWS 日本版
ISC17 NVIDIA NEWS 日本版ISC17 NVIDIA NEWS 日本版
ISC17 NVIDIA NEWS 日本版Kuninobu SaSaki
 
20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワークKuninobu SaSaki
 
Azure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークAzure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークKuninobu SaSaki
 
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure最新技術アップデート編 - 20150123もっとわかる Microsoft Azure最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123Kuninobu SaSaki
 
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Kuninobu SaSaki
 
20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakimsKuninobu SaSaki
 
YAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションYAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションKuninobu SaSaki
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションKuninobu SaSaki
 
HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11Kuninobu SaSaki
 
TechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VTechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VKuninobu SaSaki
 
TechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VTechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VKuninobu SaSaki
 

More from Kuninobu SaSaki (20)

A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
A100 GPU 搭載! P4d インスタンス使いこなしのコツA100 GPU 搭載! P4d インスタンス使いこなしのコツ
A100 GPU 搭載! P4d インスタンス 使いこなしのコツ
 
EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活EnrootとPyxisで快適コンテナ生活
EnrootとPyxisで快適コンテナ生活
 
Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介Automatic Mixed Precision の紹介
Automatic Mixed Precision の紹介
 
GTC 2019 NVIDIA NEWS
GTC 2019 NVIDIA NEWSGTC 2019 NVIDIA NEWS
GTC 2019 NVIDIA NEWS
 
SC18 NVIDIA NEWS
SC18 NVIDIA NEWSSC18 NVIDIA NEWS
SC18 NVIDIA NEWS
 
GTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWSGTC Japan 2018 NVIDIA NEWS
GTC Japan 2018 NVIDIA NEWS
 
ISC17 NVIDIA NEWS 日本版
ISC17 NVIDIA NEWS 日本版ISC17 NVIDIA NEWS 日本版
ISC17 NVIDIA NEWS 日本版
 
GTC17 NVIDIA News
GTC17 NVIDIA NewsGTC17 NVIDIA News
GTC17 NVIDIA News
 
SC16 NVIDIA NEWS
SC16 NVIDIA NEWSSC16 NVIDIA NEWS
SC16 NVIDIA NEWS
 
20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク20150821 Azure 仮想マシンと仮想ネットワーク
20150821 Azure 仮想マシンと仮想ネットワーク
 
Azure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワークAzure仮想マシンと仮想ネットワーク
Azure仮想マシンと仮想ネットワーク
 
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure最新技術アップデート編 - 20150123もっとわかる Microsoft Azure最新技術アップデート編 - 20150123
もっとわかる Microsoft Azure 最新技術アップデート編 - 20150123
 
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
Cloudera World Tokyo 2014 LTセッション「マイクロソフトとHadoop」
 
20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims20140818 オープン白熱塾 ksasakims
20140818 オープン白熱塾 ksasakims
 
YAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッションYAPC::Asia Tokyo 2013 ランチセッション
YAPC::Asia Tokyo 2013 ランチセッション
 
Effective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディションEffective Hyper-V - 久しぶりエディション
Effective Hyper-V - 久しぶりエディション
 
HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11HPC Azure TOP500 2012-11
HPC Azure TOP500 2012-11
 
WDD2012_SC-004
WDD2012_SC-004WDD2012_SC-004
WDD2012_SC-004
 
TechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-VTechEd2010_T2-401_EffectiveHyper-V
TechEd2010_T2-401_EffectiveHyper-V
 
TechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-VTechEd2009_T1-402_EffectiveHyper-V
TechEd2009_T1-402_EffectiveHyper-V
 

Recently uploaded

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Yuma Ohgami
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...Toru Tamaki
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A surveyToru Tamaki
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)Hiroki Ichikura
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものですiPride Co., Ltd.
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdftaisei2219
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムsugiuralab
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略Ryo Sasaki
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNetToru Tamaki
 

Recently uploaded (9)

Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
 
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
 
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
 
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
 
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する       2024/04/19 の勉強会で発表されたものですSOPを理解する       2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
 
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdfTSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
 
スマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システムスマートフォンを用いた新生児あやし動作の教示システム
スマートフォンを用いた新生児あやし動作の教示システム
 
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
[DevOpsDays Tokyo 2024] 〜デジタルとアナログのはざまに〜 スマートビルディング爆速開発を支える 自動化テスト戦略
 
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
 

Windows Azure HDInsight サービスの紹介

  • 1. Windows Azure HDInsight サービス 佐々木邦暢 (@ksasakims) 日本マイクロソフト株式会社
  • 2. 2  Apache Hadoop  HDInsight 登場  クラスターの作成  クラスターの操作  MapReduce プログラムの開発  外部との接続 本日の内容
  • 3.
  • 4. 4 突然ですが いま、1 TB の Web アクセスログファイルが目の前にあります。 URI 毎にアクセス数を集計しなければなりません。 どうしますか? grep sort uniq| | > output
  • 6. 6 そこで Apache Hadoop です Apache の分散コンピューティングフレームワーク Google の論文が 契機となって誕生! 多数のサーバーで 分散処理 Yahoo や Facebook で使われている高スケーラビリティ
  • 7. 7 HDFS Hadoop の提供するもの その 1. 分散ファイルシステム “HDFS” (Hadoop Distributed File System)  複数のコンピューターを束ねて、 一つの仮想的なファイルシステムを提供。  Hadoop クラスタに属する全ての ノードが同じ名前空間を共有。  各ファイルは 64 MB ~ 256 MB 程度の ブロックに分割されて、複数ノードに分散。  ブロックサイズが大きいのは、シーケン シャルアクセスに特化しているため  各断片は最低 3 ノードに複製され、 ノード障害への耐性を持つ。  一つのファイルの複数の部分を、複数の コンピューターで同時に処理することで、 処理を高速化することができる。 断片 1 断片 2 断片 3 断片 4 断片 1 断片 2 断片 3 断片 4 ファイル 1 断片 1 断片 2 断片 3 断片 4 ファイル 4 断片 1 断片 2 断片 3 断片 4
  • 8. 8 Hadoop の提供するもの その 2. 分散プログラミングモデル “MapReduce” 2013-08-26 23:59:03 W3SVC1 192.168.0.1 GET /… 2013-08-26 23:59:05 W3SVC1 192.168.0.1 GET /… 2013-08-26 23:59:25 W3SVC1 192.168.0.1 GET /… 2013-08-27 00:01:02 W3SVC1 192.168.0.1 GET /… 2013-08-27 00:02:04 W3SVC1 192.168.0.1 GET /…  名前は一見難しげですが、実際には単純です。 (だからこそスケーラビリティがあります)  例えば右のような Web のアクセスログがあるとして、  伝統的なテキスト処理ツールによる集計はこのようなものですが、 $ cat access_log | grep /Login.aspx | sort | uniq –c > output.txt 対象ファイルの全行を頭から舐めて 何らかの処理をする(この場合は検索) 中間結果を集計の ためにソートする ソートされたデータを 数え上げて結果を得る MapReduce はこういった処理をクラスター上で分散並列実行する仕組みです Map Reduce
  • 9. 9 Hadoop クラスターの構成要素 Hadoop クラスター MapReduce 層 HDFS 層 ファイルの 登録情報を 一元管理 ジョブ トラッカー タスク トラッカー タスク トラッカー タスク トラッカー タスク トラッカー Map タスク Map タスクジョブと タスクの 状態を管理 Map タスク Map タスク Reduce タスク タスク トラッカー
  • 10.
  • 11. 11 Windows (Azure|Server) HDInsight Hortonworks と協業し、Windows 環境で Hadoop を提供します  元々 Java で書かれたオープンソースプロジェクトである Hadoop ですが、 Windows 環境でスムーズに動かすた めにはいくつか工夫が必要でした。  マイクロソフトは Hortonworks 社と協業し、 Hadoop の Windows 環境への移植と最適化を行っています。  Hortonworks は Yahoo! で Apache Hadoop の 開発に携わっていたチームが独立して設立された企業。  “Hortonworks Data Platform” (HDP) という Hadoop ディストリビューションを開発しており、 その Windows 版が HDInsight のコア部分です。 http://hortonworks.com/products/hdp-windows/
  • 12. 12 Windows Azure HDInsight Service すぐに使えるクラウド上の Hadoop です。  現在プレビュー中  40 ノードまでのクラスタが作成可能  料金は半額  利用可能なリージョンは以下の 3 箇所  北ヨーロッパ (North Europe)  米国東部 (East US)  米国西部 (West US)  インスタンスサイズ  ヘッドノード(ネームノード)は XL  データノードは L サイズ  OS  Windows Server 2008 R2
  • 13. 13 HDInsight に含まれる Hadoop のバージョン Hcatalog 0.4.1 主要な関連 プロジェクト
  • 14. 14 HDInsight Service システム構成 データ ノードネーム ノード BLOB ストレージ Windows Azure の PaaS 機能と BLOB ストレージを活用します。  ネームノード、データノードは どちらも Worker ロールの インスタンスです。  多数のノードを素早く デプロイできます。  また、Windows Azure の 「BLOB ストレージ」を、 デフォルトのファイルシステム として利用します。  もちろん HDFS も 利用可能です。
  • 15. 15 なぜ BLOB ストレージ? HDFS の代わりに BLOB ストレージを使うメリット  BLOB ストレージは、大容量・低価格・高信頼性と 三拍子そろった Windows Azure の主要サービスです。  Azure 上で稼働する多くのアプリケーションが、 BLOB ストレージにデータを保存しています。  また、“Windows Azure Diagnostics” 機能で Azure 上のサーバーから IIS ログ等のログファイルを BLOB ストレージへ自動転送することも一般的です。  BLOB をデフォルトのファイルシステムとすることで、 これら BLOB 上のデータを HDFS へ一旦コピーするこ となく、直接分析することができます。 データはそこにある! クラスターを消してもデータは残る  Hadoop クラスターの稼働中は、ジョブを実行していな い時間も CPU コア数に応じた課金が発生します。  クラスターを削除してしまえば、課金は止まりますが、 HDFS は各ノードのローカルディスクであるため、 内容が失われてしまいます。  BLOB ストレージは、クラスターとは切り離されていま すから、クラスターを削除してもデータは残ります。 様々なツールが利用可能  BLOB ストレージにアクセスする既存のツールで、 Hadoop クラスターとデータのやり取りができます。  CloudBerry Explorer for Windows Azure や CloudXplorer, AzCopy 等。
  • 16. 16 Azure Storage Vault (ASV) どういう仕組みで BLOB を Hadoop のファイルシステムにしているのか そもそも Hadoop のファイルシステムは可換  様々なファイルシステムを扱えるように、 Hadoop はファイルシステムの抽象化層を持っています。  マイクロソフトは NativeAzureFileSystem クラスを作成し、 Azure BLOB をサポートできるようにしました。 種類 URI スキーム Java の実装クラス (org.apache.Hadoop) 説明 Local file fs.LocalFileSystem ローカル ファイルシステム HDFS hdfs hdfs.DistributedFileSystem これがデフォルト FTP ftp fs.ftp.FTPFileSystem FTP サイト用 S3 s3n fs.s3native.NativeS3FileSystem Amazon S3 用 Azure BLOB asv fs.azurenative.NativeAzureFileSystem Azure BLOB 用 主なファイルシステム
  • 17. 17 ASV の登録と利用 asv://コンテナ名@アカウント名.blob.core.windows.net/パス名 core-site.xml で、 BLOB ストレージがデフォルトファイルシステムに設定されています。
  • 18.
  • 20. 20 PowerShell を使ってクラスター作成 New-AzureHDInsightCluster -Name 名前 -SubscriptionId SUBID -Certificate CERT -Location “West US“ -DefaultStorageAccountName ACCOUNT –DefaultStorageAccountKey KEY -DefaultStorageContainerName CONTAINER -UserName ksasaki -Password xxxxxxxxx -ClusterSizeInNodes 8 HDInsight 管理用コマンドレットで運用を自動化できます。
  • 22.
  • 23. 23 JavaScript コンソール “#コマンド” で、FS Shellの コマンドを呼び出せます。 “#lsr” は ”hadoop fs –lsr” に相当します。 “#fs.get” で Hadoop 上のファイルを ローカルコンピューターへダウンロード。
  • 25.
  • 26. 26 Hadoop は Java だけ? .NET は? Java 以外の言語でもプログラムを開発できます!  Hadoop 自体が Java で書かれているため、 MapReduce プログラムを書く言語としては Java が メジャーです。  しかし、 Hadoop には “Hadoop Streaming” という 仕組みがあり、およそありとあらゆる言語で MapReduce できるようになっています。  Hadoop Streaming は、 「標準入出力に対してプログラミングするだけで、 MapReduce ジョブができあがる。」 という、ある意味 inetd のような存在です。 元より多言語対応 Microsoft .NET SDK For Hadoop  Codeplex でホストされているオープンソースプロ ジェクトです。下記のモジュールがあります。  Hadoop Streaming を活用した “.NET MapReduce”  LINQ で Hive にクエリを行える “LINQ To Hive”  HDInsight 管理用の PowerShell コマンドレット  WebHDFS クライアント  https://hadoopsdk.codeplex.com/
  • 27. 27 .NET MapReduce  Hadoop Streaming API の .NET ラッパーです。  C# や Visual Basic で MapReduce ジョブを記述できます。
  • 28. 28 LINQ To Hive  LINQ のクエリを HIVE クエリに自動変換し、 .NET プログラムから自然な形で Hadoop の データにアクセスできます。
  • 29.
  • 30. 30 Hive ODBC ドライバー ODBC 経由で HDinsight クラスターの Hive に接続できます。 Hive ODBC ドライバーのインストール Hive データソースの作成 接続先テーブルの選択
  • 31. 31 ODBC 経由で Excel へデータ取込み Excel 上で Hive クエリの編集/結果セットの表示ができます。 HQL 文の定義 HDInsight から Excel へ取り込まれたデータ
  • 32. 32 HDInsight 関連情報  “Crunch Big Data in the Cloud with Windows Azure HDInsight Service” http://blogs.msdn.com/b/windowsazure/archive/2013/03/18/announcing-the-public-preview-of-azure- hdinsight.aspx  “Hortonworks & Microsoft: Bringing Apache Hadoop to Windows” http://hortonworks.com/partners/microsoft/  “HDInsight の開発” http://blogs.msdn.com/b/windowsazurej/archive/2013/04/03/developing-for-hdinsight.aspx  “Winodws Azure HDInsight パブリック プレビュー開始!” http://blogs.technet.com/b/ksasaki/archive/2013/03/19/winodws-azure-hdinsight.aspx  “How to Connect Excel to Windows Azure HDInsight via HiveODBC” https://www.windowsazure.com/en-us/manage/services/hdinsight/use-excel-via-hive-odbc-driver/  Microsoft ODBC Driver For Hive http://www.microsoft.com/en-us/download/details.aspx?id=37134