More Related Content
Similar to TokyoWebminig カジュアルなHadoop (20)
More from Teruo Kawasaki (8)
TokyoWebminig カジュアルなHadoop
- 2. 「カジュアル」
• MongoDB
• Pentaho ETL 私の考える
カジュアルな製品・サービス
• QlikView
• ドットインストール
• クチコミ係長(テキストマイニングWebサービス)
ドットインストール Amazon Web Services入門 (全17回)
http://dotinstall.com/lessons/basic_aws
クチコミ@係長 株式会社ホットリンク
http://www.hottolink.co.jp/kakaricho 2
- 5. Hadoopサブプロジェクト(一部)
分散ファイルシステムと汎用的な I/O(シリアライズ,Java RPC,
Core 永続的データ構造)を提供するコンポーネントとインタフェースの
集合
高効率かつ多言語間 RPC のためのデータシリアライゼーション
Avro
システムと,永続的データストレージ
分散データ処理モデルおよびコモディティマシンで構成される大
MapReduce
規模クラスタ上の実行環境
コモディティマシンで構成される大規模クラスタ上の分散ファイル
HDFS
システム
データフロー言語および超大規模データセットの調査実行環境.
Pig
HDFS およびMapRe-duce クラスタ上で実行される
列指向の分散データベース.HBase は階層のストレージとして
Hbase HDFS を使用 h し,MapReduce を使ったバッチ型の演算処理と,
一部を読み出すクエリ(ランダムリード)をともにサポートしている
高可用性分散協調サービス.分散アプリケーションを構築するの
ZooKeeper
に使われる分散ロックのような基礎的な機能要素を提供する
分散データウェアハウス.HDFS に保管されたデータを管理し,
Hive SQL に基づくクエリ言語(実行時に MapReduce のジョブに変
換される)を提供する
「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用
5
http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf
- 8. Hive
• 特徴
– SQL(HiveQL)が利用できる
→ 利用ユーザ拡大
– 直接Mapper、Reducerも利用可能
8
- 54. Hiveとは
• 2008年にFaceBookで開発され、Hadoopプロジェクトに
寄贈される。
• Yahoo!で開発しているPigのライバルプロジェクト?
• 一言で表すとHadoop上で動作するデータウエアハウ
ス。
• HiveQLというSQLのような言語でHDFSなどの分散ファ
イルシステム上のデータを操作できる。
• HiveQLの実行でMap/Reduce処理が完了する。
• 私見だが複雑なデータのMapReduceから特定のデー
タを抽出したい場合には便利かも。
Hadoopをより便利に使う!HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記
http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用 54
- 55. Hadoop & Hive の特徴
高
DB
Hadoop & Hive
アプライアンス
スループット
RDB OLTP系
低
高 レイテンシー 低
55