[TokyoWebminig]
カジュアルなHadoop
 2013/03/23 @teruu




                     1
「カジュアル」
• MongoDB
• Pentaho ETL        私の考える
                 カジュアルな製品・サービス
• QlikView

• ドットインストール
• クチコミ係長(テキストマイニングWebサービス)
                  ドットインストール Amazon Web Services入門 (全17回)
                  http://dotinstall.com/lessons/basic_aws

                  クチコミ@係長 株式会社ホットリンク
                  http://www.hottolink.co.jp/kakaricho   2
「カジュアルなCRM」
 by 分析力をコアとする企業




                  3
カジュアルなHadoop
• カジュアルという価値
• 初心者向け「鉄板プロセス」を提案できないか



Amazon EMR & Hive (WebHive)




                              4
Hadoopサブプロジェクト(一部)
             分散ファイルシステムと汎用的な I/O(シリアライズ,Java RPC,
 Core        永続的データ構造)を提供するコンポーネントとインタフェースの
             集合
             高効率かつ多言語間 RPC のためのデータシリアライゼーション
 Avro
             システムと,永続的データストレージ
             分散データ処理モデルおよびコモディティマシンで構成される大
 MapReduce
             規模クラスタ上の実行環境
             コモディティマシンで構成される大規模クラスタ上の分散ファイル
 HDFS
             システム
             データフロー言語および超大規模データセットの調査実行環境.
 Pig
             HDFS およびMapRe-duce クラスタ上で実行される

             列指向の分散データベース.HBase は階層のストレージとして
 Hbase       HDFS を使用 h し,MapReduce を使ったバッチ型の演算処理と,
             一部を読み出すクエリ(ランダムリード)をともにサポートしている

             高可用性分散協調サービス.分散アプリケーションを構築するの
 ZooKeeper
             に使われる分散ロックのような基礎的な機能要素を提供する

             分散データウェアハウス.HDFS に保管されたデータを管理し,
 Hive        SQL に基づくクエリ言語(実行時に MapReduce のジョブに変
             換される)を提供する

               「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用
                                                                       5
               http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf
参考


 Hadoopファーストガイド
 著者:佐々木達也




                  6
Amazon ElasticMapReduce(EMR)
       アマゾン版Hadoop
• メリット
 – 環境構築が不要
 – 運用が不要
 – 自動的に修正、バージョンアップ
• デメリット
 – コスト(従量制)
 – チューニングがしづらい


                                7
Hive
• 特徴
 – SQL(HiveQL)が利用できる
   → 利用ユーザ拡大
 – 直接Mapper、Reducerも利用可能




                           8
Amazon WebServices (AWS)
             &
 Elastic MapReduce (EMR)

        登録手順



                           9
AWSのトップページにアクセス




            10
キャンペーンの紹介




            11
アカウント作成




      12
アカウント情報入力




            13
クレジットカード情報入力




               14
電話番号入力




     15
暗証番号




       16
電話がかかってくる




            17
認証中




      18
サービス一覧




         19
EMRの利用開始




      20
利用可能なサービス




       21
サービス一覧




         22
バケット(ディレクトリ)作成




                 23
バケット作成




         24
バケット作成




         25
バケットの中にフォルダ作成




            26
EC2のインスタンスを起動




                27
イメージ選択→Amazon Linux AMI




                      28
インスタンスタイプ選択→マイクロ




               29
インスタンスタイプ一覧




              30
インスタンス 追加オプション




             31
32
タグ付




      33
キーペア作成




         34
ファイアウォール設定




             35
インスタンス起動




           36
インスタンス起動中




            37
インスタンス一覧




           38
TeraTermで接続(ssh)




                   39
40
ID入力+キー指定




            41
sshで接続




         42
パッケージを
アップデート




         43
EMR JobFlow作成




           44
Job名入力、バージョン指定




             45
入出力場所の指定




           46
インスタンスタイプ指定




              47
その他のオプション指定




              48
Job作成




        49
ブートストラップアクション指定




              50
JobFlow作成完了




              51
しばらく待つ → 利用可能に




            52
Hiveについて




           53
Hiveとは
• 2008年にFaceBookで開発され、Hadoopプロジェクトに
  寄贈される。
• Yahoo!で開発しているPigのライバルプロジェクト?
• 一言で表すとHadoop上で動作するデータウエアハウ
  ス。
• HiveQLというSQLのような言語でHDFSなどの分散ファ
  イルシステム上のデータを操作できる。
• HiveQLの実行でMap/Reduce処理が完了する。
• 私見だが複雑なデータのMapReduceから特定のデー
  タを抽出したい場合には便利かも。
    Hadoopをより便利に使う!HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記
    http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用 54
Hadoop & Hive の特徴

    高


                                     DB
             Hadoop & Hive
                                  アプライアンス

スループット

                                  RDB OLTP系

    低
         高               レイテンシー               低




                                                  55
Hiveの設定
HiveQL構文(DDL)
HiveQL構文(SQL)
など、下記のブログ記事が参考になります



 Hadoopをより便利に使う!HiveでのMapReduceまとめ - Yuta.Kikuchiの日記
 http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034




                                                         56
Hiveのデータ型




Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析(前編) | Opentone Labs.
http://labs.opentone.co.jp/?p=1860 より引用             57
WebHiveについて




              58
WebHive (githubで公開)




            リクルート社が開発・公開   59
WebHiveの画面




             60
発表のまとめ
• 初心者向け「鉄板プロセス?」として、EMR&
  Hive&WebHiveの組合わせをご紹介
• 「カジュアル」と言いながら、進めてみるとなか
  なか一筋縄ではいかないことが明らかに
• 一方で、課題解決のためのポイントがおぼろ
  げながら見えてきた



                           61

TokyoWebminig カジュアルなHadoop