Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Teruo Kawasaki
PDF, PPTX
4,324 views
TokyoWebminig カジュアルなHadoop
第25回 TokyoWebmining 発表スライド
Technology
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Download as PDF, PPTX
1
/ 61
2
/ 61
3
/ 61
4
/ 61
5
/ 61
6
/ 61
7
/ 61
8
/ 61
9
/ 61
10
/ 61
11
/ 61
12
/ 61
13
/ 61
14
/ 61
15
/ 61
16
/ 61
17
/ 61
18
/ 61
19
/ 61
20
/ 61
21
/ 61
22
/ 61
23
/ 61
24
/ 61
25
/ 61
26
/ 61
27
/ 61
28
/ 61
29
/ 61
30
/ 61
31
/ 61
32
/ 61
33
/ 61
34
/ 61
35
/ 61
36
/ 61
37
/ 61
38
/ 61
39
/ 61
40
/ 61
41
/ 61
42
/ 61
43
/ 61
44
/ 61
45
/ 61
46
/ 61
47
/ 61
48
/ 61
49
/ 61
50
/ 61
51
/ 61
52
/ 61
53
/ 61
54
/ 61
55
/ 61
56
/ 61
57
/ 61
58
/ 61
59
/ 61
60
/ 61
61
/ 61
More Related Content
PDF
Lambda in java_20160121
by
Teruo Kawasaki
PDF
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
by
Sho Shimauchi
PDF
elasticsearch-hadoopをつかってごにょごにょしてみる
by
Katsushi Yamashita
PDF
Hadoop Source Code Reading #17
by
Shingo Furuyama
PDF
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
by
Treasure Data, Inc.
PDF
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
PPTX
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
PPTX
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
Lambda in java_20160121
by
Teruo Kawasaki
Impala データサイエンティストのための 高速大規模分散基盤 #tokyowebmining
by
Sho Shimauchi
elasticsearch-hadoopをつかってごにょごにょしてみる
by
Katsushi Yamashita
Hadoop Source Code Reading #17
by
Shingo Furuyama
Prestoで実現するインタラクティブクエリ - dbtech showcase 2014 Tokyo
by
Treasure Data, Inc.
Deep Dive into Spark SQL with Advanced Performance Tuning
by
Takuya UESHIN
2015 03-12 道玄坂LT祭り第2回 Spark DataFrame Introduction
by
Yu Ishikawa
sparksql-hive-bench-by-nec-hwx-at-hcj16
by
Yifeng Jiang
What's hot
PDF
Kafka logをオブジェクトストレージに連携する方法まとめ
by
Keigo Suda
PPTX
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
by
Sotaro Kimura
PPTX
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
PPTX
Kafkaを活用するためのストリーム処理の基本
by
Sotaro Kimura
PDF
Re:dash Use Cases at iPROS
by
Jumpei Yokota
PDF
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
PDF
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
by
Katsushi Yamashita
PPTX
RDB開発者のためのApache Cassandra データモデリング入門
by
Yuki Morishita
PDF
噛み砕いてKafka Streams #kafkajp
by
Yahoo!デベロッパーネットワーク
PDF
最近のストリーム処理事情振り返り
by
Sotaro Kimura
PDF
Presto As A Service - Treasure DataでのPresto運用事例
by
Taro L. Saito
PDF
(LT)Spark and Cassandra
by
datastaxjp
PPTX
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
by
Sotaro Kimura
PDF
Apache NiFi の紹介 #streamctjp
by
Yahoo!デベロッパーネットワーク
PPTX
EmbulkとDigdagとデータ分析基盤と
by
Toru Takahashi
PDF
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
by
YusukeKuramata
PDF
FluentdとRedshiftの素敵な関係
by
moai kids
PDF
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
by
Koji Shinkubo
PDF
Tez on EMRを試してみた
by
Satoshi Noto
Kafka logをオブジェクトストレージに連携する方法まとめ
by
Keigo Suda
スキーマ 付き 分散ストリーム処理 を実行可能な FlinkSQLClient の紹介
by
Sotaro Kimura
Hive on Spark の設計指針を読んでみた
by
Recruit Technologies
Kafkaを活用するためのストリーム処理の基本
by
Sotaro Kimura
Re:dash Use Cases at iPROS
by
Jumpei Yokota
最新版Hadoopクラスタを運用して得られたもの
by
cyberagent
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
Spot Instance + Spark + MLlibで実現する簡単低コスト機械学習
by
Katsushi Yamashita
RDB開発者のためのApache Cassandra データモデリング入門
by
Yuki Morishita
噛み砕いてKafka Streams #kafkajp
by
Yahoo!デベロッパーネットワーク
最近のストリーム処理事情振り返り
by
Sotaro Kimura
Presto As A Service - Treasure DataでのPresto運用事例
by
Taro L. Saito
(LT)Spark and Cassandra
by
datastaxjp
Spark Structured StreamingでKafkaクラスタのデータをお手軽活用
by
Sotaro Kimura
Apache NiFi の紹介 #streamctjp
by
Yahoo!デベロッパーネットワーク
EmbulkとDigdagとデータ分析基盤と
by
Toru Takahashi
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
by
YusukeKuramata
FluentdとRedshiftの素敵な関係
by
moai kids
db tech showcase_2014_A14_Actian Vectorで得られる、BIにおける真のパフォーマンスとは
by
Koji Shinkubo
Tez on EMRを試してみた
by
Satoshi Noto
Viewers also liked
PDF
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
by
Koichi Hamada
PDF
複雑ネットワーク上の伝搬法則の数理
by
Koichi Hamada
PDF
FB投稿分析とパネル調査によるFBページ運営Tips
by
Masayoshi Nakamura
PDF
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
PDF
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
by
Koichi Hamada
PPTX
ソーシャルゲームにレコメンドエンジンを導入した話
by
Tokoroten Nakayama
PDF
セクシー女優で学ぶ画像分類入門
by
Takami Sato
PDF
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
by
NTT DATA OSS Professional Services
PPTX
DAUを評価指標から捨てた会社の話 #tokyowebmining
by
Tokoroten Nakayama
PDF
SASとHadoopとの連携 2015
by
SAS Institute Japan
オープニングトーク - 創設の思い・目的・進行方針 -データマイニング+WEB勉強会@東京
by
Koichi Hamada
複雑ネットワーク上の伝搬法則の数理
by
Koichi Hamada
FB投稿分析とパネル調査によるFBページ運営Tips
by
Masayoshi Nakamura
Cloudera Impalaをサービスに組み込むときに苦労した話
by
Yukinori Suda
Large Scale Data Mining of the Mobage Service - #PRMU 2011 #Mahout #Hadoop
by
Koichi Hamada
ソーシャルゲームにレコメンドエンジンを導入した話
by
Tokoroten Nakayama
セクシー女優で学ぶ画像分類入門
by
Takami Sato
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
by
NTT DATA OSS Professional Services
DAUを評価指標から捨てた会社の話 #tokyowebmining
by
Tokoroten Nakayama
SASとHadoopとの連携 2015
by
SAS Institute Japan
Similar to TokyoWebminig カジュアルなHadoop
PDF
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
by
Kotaro Tsukui
PDF
20111130 10 aws-meister-emr_long-public
by
Amazon Web Services Japan
PPT
Hadoop ~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
PDF
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
by
Amazon Web Services Japan
PDF
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
by
Shinpei Ohtani
PDF
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
by
SORACOM, INC
PPTX
Cloudera大阪セミナー 20130219
by
Cloudera Japan
PPTX
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
PPT
Hadoop~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
by
Developers Summit
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
by
hamaken
PDF
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
by
オラクルエンジニア通信
PPTX
ATN No.1 Hadoop vs Amazon EMR
by
AdvancedTechNight
PPTX
WebDB Forum 2012 基調講演資料
by
Recruit Technologies
PPTX
ビッグデータ活用支援フォーラム
by
Recruit Technologies
PDF
Developers.IO 2019 Effective Datalake
by
Satoru Ishikawa
PDF
Hadoop, NoSQL, GlusterFSの概要
by
日本ヒューレット・パッカード株式会社
PDF
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
PDF
CDH4.1オーバービュー
by
Cloudera Japan
PPTX
20111215_第1回EMR勉強会発表資料
by
Kotaro Tsukui
20120303 _JAWS-UG_SUMMIT2012_エキスパートセッションEMR編
by
Kotaro Tsukui
20111130 10 aws-meister-emr_long-public
by
Amazon Web Services Japan
Hadoop ~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
[AWSマイスターシリーズ] Amazon Elastic MapReduce (EMR)
by
Amazon Web Services Japan
Amazon Elastic MapReduce@Hadoop Conference Japan 2011 Fall
by
Shinpei Ohtani
AWS Elastic MapReduce詳細 -ほぼ週刊AWSマイスターシリーズ第10回-
by
SORACOM, INC
Cloudera大阪セミナー 20130219
by
Cloudera Japan
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
Hadoop~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
by
Developers Summit
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
by
hamaken
Oracle Cloudで始める、DBエンジニアのためのHadoop超入門(db tech showcase 2016 Oracle セッション資料)
by
オラクルエンジニア通信
ATN No.1 Hadoop vs Amazon EMR
by
AdvancedTechNight
WebDB Forum 2012 基調講演資料
by
Recruit Technologies
ビッグデータ活用支援フォーラム
by
Recruit Technologies
Developers.IO 2019 Effective Datalake
by
Satoru Ishikawa
Hadoop, NoSQL, GlusterFSの概要
by
日本ヒューレット・パッカード株式会社
Hadoopデータプラットフォーム #cwt2013
by
Cloudera Japan
CDH4.1オーバービュー
by
Cloudera Japan
20111215_第1回EMR勉強会発表資料
by
Kotaro Tsukui
More from Teruo Kawasaki
PDF
Pentaho ETL ハンズオン
by
Teruo Kawasaki
PDF
Pentaho 定型レポート ハンズオン
by
Teruo Kawasaki
PPTX
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
by
Teruo Kawasaki
PPTX
Pentaho CTools 20140902
by
Teruo Kawasaki
PDF
Pentaho Reporting Tutorial 20140729
by
Teruo Kawasaki
PPTX
About BI (2014/03/25)
by
Teruo Kawasaki
PDF
Pdi tutorial 20140121
by
Teruo Kawasaki
PDF
2章グラフ理論スピード入門
by
Teruo Kawasaki
Pentaho ETL ハンズオン
by
Teruo Kawasaki
Pentaho 定型レポート ハンズオン
by
Teruo Kawasaki
オープンソースのETLツール Pentaho Data Integration(PDI)のご紹介_20140906
by
Teruo Kawasaki
Pentaho CTools 20140902
by
Teruo Kawasaki
Pentaho Reporting Tutorial 20140729
by
Teruo Kawasaki
About BI (2014/03/25)
by
Teruo Kawasaki
Pdi tutorial 20140121
by
Teruo Kawasaki
2章グラフ理論スピード入門
by
Teruo Kawasaki
TokyoWebminig カジュアルなHadoop
1.
[TokyoWebminig] カジュアルなHadoop 2013/03/23 @teruu
1
2.
「カジュアル」 • MongoDB • Pentaho
ETL 私の考える カジュアルな製品・サービス • QlikView • ドットインストール • クチコミ係長(テキストマイニングWebサービス) ドットインストール Amazon Web Services入門 (全17回) http://dotinstall.com/lessons/basic_aws クチコミ@係長 株式会社ホットリンク http://www.hottolink.co.jp/kakaricho 2
3.
「カジュアルなCRM」 by 分析力をコアとする企業
3
4.
カジュアルなHadoop • カジュアルという価値 • 初心者向け「鉄板プロセス」を提案できないか Amazon
EMR & Hive (WebHive) 4
5.
Hadoopサブプロジェクト(一部)
分散ファイルシステムと汎用的な I/O(シリアライズ,Java RPC, Core 永続的データ構造)を提供するコンポーネントとインタフェースの 集合 高効率かつ多言語間 RPC のためのデータシリアライゼーション Avro システムと,永続的データストレージ 分散データ処理モデルおよびコモディティマシンで構成される大 MapReduce 規模クラスタ上の実行環境 コモディティマシンで構成される大規模クラスタ上の分散ファイル HDFS システム データフロー言語および超大規模データセットの調査実行環境. Pig HDFS およびMapRe-duce クラスタ上で実行される 列指向の分散データベース.HBase は階層のストレージとして Hbase HDFS を使用 h し,MapReduce を使ったバッチ型の演算処理と, 一部を読み出すクエリ(ランダムリード)をともにサポートしている 高可用性分散協調サービス.分散アプリケーションを構築するの ZooKeeper に使われる分散ロックのような基礎的な機能要素を提供する 分散データウェアハウス.HDFS に保管されたデータを管理し, Hive SQL に基づくクエリ言語(実行時に MapReduce のジョブに変 換される)を提供する 「Hiveを用いたログ解析システムの構築」福田一郎著 p4より引用 5 http://www.cyberagent.co.jp/technology/pdf/2010_3.pdf
6.
参考 Hadoopファーストガイド 著者:佐々木達也
6
7.
Amazon ElasticMapReduce(EMR)
アマゾン版Hadoop • メリット – 環境構築が不要 – 運用が不要 – 自動的に修正、バージョンアップ • デメリット – コスト(従量制) – チューニングがしづらい 7
8.
Hive • 特徴 –
SQL(HiveQL)が利用できる → 利用ユーザ拡大 – 直接Mapper、Reducerも利用可能 8
9.
Amazon WebServices (AWS)
& Elastic MapReduce (EMR) 登録手順 9
10.
AWSのトップページにアクセス
10
11.
キャンペーンの紹介
11
12.
アカウント作成
12
13.
アカウント情報入力
13
14.
クレジットカード情報入力
14
15.
電話番号入力
15
16.
暗証番号
16
17.
電話がかかってくる
17
18.
認証中
18
19.
サービス一覧
19
20.
EMRの利用開始
20
21.
利用可能なサービス
21
22.
サービス一覧
22
23.
バケット(ディレクトリ)作成
23
24.
バケット作成
24
25.
バケット作成
25
26.
バケットの中にフォルダ作成
26
27.
EC2のインスタンスを起動
27
28.
イメージ選択→Amazon Linux AMI
28
29.
インスタンスタイプ選択→マイクロ
29
30.
インスタンスタイプ一覧
30
31.
インスタンス 追加オプション
31
32.
32
33.
タグ付
33
34.
キーペア作成
34
35.
ファイアウォール設定
35
36.
インスタンス起動
36
37.
インスタンス起動中
37
38.
インスタンス一覧
38
39.
TeraTermで接続(ssh)
39
40.
40
41.
ID入力+キー指定
41
42.
sshで接続
42
43.
パッケージを アップデート
43
44.
EMR JobFlow作成
44
45.
Job名入力、バージョン指定
45
46.
入出力場所の指定
46
47.
インスタンスタイプ指定
47
48.
その他のオプション指定
48
49.
Job作成
49
50.
ブートストラップアクション指定
50
51.
JobFlow作成完了
51
52.
しばらく待つ → 利用可能に
52
53.
Hiveについて
53
54.
Hiveとは • 2008年にFaceBookで開発され、Hadoopプロジェクトに
寄贈される。 • Yahoo!で開発しているPigのライバルプロジェクト? • 一言で表すとHadoop上で動作するデータウエアハウ ス。 • HiveQLというSQLのような言語でHDFSなどの分散ファ イルシステム上のデータを操作できる。 • HiveQLの実行でMap/Reduce処理が完了する。 • 私見だが複雑なデータのMapReduceから特定のデー タを抽出したい場合には便利かも。 Hadoopをより便利に使う!HiveでのMapReduceまとめ ‐ Yuta.Kikuchiの日記 http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 より引用 54
55.
Hadoop & Hive
の特徴 高 DB Hadoop & Hive アプライアンス スループット RDB OLTP系 低 高 レイテンシー 低 55
56.
Hiveの設定 HiveQL構文(DDL) HiveQL構文(SQL) など、下記のブログ記事が参考になります Hadoopをより便利に使う!HiveでのMapReduceまとめ -
Yuta.Kikuchiの日記 http://d.hatena.ne.jp/yutakikuchi/20111219/1324251034 56
57.
Hiveのデータ型 Hadoop/Hive SQLライクなクエリを使ってビッグデータ解析(前編) |
Opentone Labs. http://labs.opentone.co.jp/?p=1860 より引用 57
58.
WebHiveについて
58
59.
WebHive (githubで公開)
リクルート社が開発・公開 59
60.
WebHiveの画面
60
61.
発表のまとめ • 初心者向け「鉄板プロセス?」として、EMR&
Hive&WebHiveの組合わせをご紹介 • 「カジュアル」と言いながら、進めてみるとなか なか一筋縄ではいかないことが明らかに • 一方で、課題解決のためのポイントがおぼろ げながら見えてきた 61
Download