Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Shinya Okano
1,909 views
Hadoopとその周辺の紹介
Technology
◦
Read more
2
Save
Share
Embed
Embed presentation
Download
Downloaded 11 times
1
/ 21
2
/ 21
3
/ 21
4
/ 21
5
/ 21
6
/ 21
7
/ 21
8
/ 21
9
/ 21
10
/ 21
11
/ 21
12
/ 21
13
/ 21
14
/ 21
15
/ 21
16
/ 21
17
/ 21
18
/ 21
19
/ 21
20
/ 21
21
/ 21
More Related Content
PDF
オライリーセミナー Hive入門 #oreilly0724
by
Cloudera Japan
PDF
Hadoop入門
by
Preferred Networks
PPTX
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
PPTX
Hadoop
by
Atsushi Shimura
PPT
Hadoopの紹介
by
bigt23
PPTX
Hdfsソースコードリーディング第2回
by
shunsuke Mikami
PDF
ただいまHadoop勉強中
by
Satoshi Noto
PDF
MapReduceプログラミング入門
by
Satoshi Noto
オライリーセミナー Hive入門 #oreilly0724
by
Cloudera Japan
Hadoop入門
by
Preferred Networks
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
by
AdvancedTechNight
Hadoop
by
Atsushi Shimura
Hadoopの紹介
by
bigt23
Hdfsソースコードリーディング第2回
by
shunsuke Mikami
ただいまHadoop勉強中
by
Satoshi Noto
MapReduceプログラミング入門
by
Satoshi Noto
What's hot
PDF
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
PDF
分散処理のすゝめ?
by
y oe
PPTX
SASとHadoopとの連携
by
SAS Institute Japan
PDF
Hadoop 基礎
by
hideaki honda
PDF
コード読経会報告書
by
Masahiko Toyoshi
PDF
Hadoopのシステム設計・運用のポイント
by
Cloudera Japan
PDF
MapReduce解説
by
Shunsuke Aihara
PPTX
Apache Spark チュートリアル
by
K Yamaguchi
PDF
レッドハット グラスター ストレージ Red Hat Gluster Storage (Japanese)
by
Katsutoshi Kojima
PPTX
データベース入門
by
拓 小林
PDF
MapReduce入門
by
Satoshi Noto
PPT
はやわかりHadoop
by
Shinpei Ohtani
PPTX
Hdfsソースコードリーディング第一回
by
shunsuke Mikami
PDF
Drill超簡単チューニング
by
MapR Technologies Japan
PDF
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
by
Takashi Aoe
PDF
Hadoopことはじめ
by
均 津田
PDF
Hadoop / MapReduce とは
by
Takeshi Matsuoka
PDF
Dat009 クラウドでビック
by
Tech Summit 2016
PDF
Learning spaerk chapter03
by
Akimitsu Takagi
PDF
Quick Introduction to GlusterFS
by
Etsuji Nakai
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
by
NTT DATA OSS Professional Services
分散処理のすゝめ?
by
y oe
SASとHadoopとの連携
by
SAS Institute Japan
Hadoop 基礎
by
hideaki honda
コード読経会報告書
by
Masahiko Toyoshi
Hadoopのシステム設計・運用のポイント
by
Cloudera Japan
MapReduce解説
by
Shunsuke Aihara
Apache Spark チュートリアル
by
K Yamaguchi
レッドハット グラスター ストレージ Red Hat Gluster Storage (Japanese)
by
Katsutoshi Kojima
データベース入門
by
拓 小林
MapReduce入門
by
Satoshi Noto
はやわかりHadoop
by
Shinpei Ohtani
Hdfsソースコードリーディング第一回
by
shunsuke Mikami
Drill超簡単チューニング
by
MapR Technologies Japan
JavaOne2013報告会 LT資料 Hadoopの話を聞いてきた
by
Takashi Aoe
Hadoopことはじめ
by
均 津田
Hadoop / MapReduce とは
by
Takeshi Matsuoka
Dat009 クラウドでビック
by
Tech Summit 2016
Learning spaerk chapter03
by
Akimitsu Takagi
Quick Introduction to GlusterFS
by
Etsuji Nakai
Similar to Hadoopとその周辺の紹介
PPTX
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
PDF
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
by
Developers Summit
PDF
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
PPT
Googleの基盤クローン Hadoopについて
by
Kazuki Ohta
PDF
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
by
NTT DATA Technology & Innovation
PDF
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
PPT
Hadoop ~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
PPT
Hadoop~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
PDF
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
by
hamaken
PDF
OSC2012 Tokyo/Spring - Hadoop入門
by
Shinichi YAMASHITA
PDF
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
by
NTT DATA OSS Professional Services
PDF
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
by
NTT DATA OSS Professional Services
PDF
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
PDF
ストリームデータ分散処理基盤Storm
by
NTT DATA OSS Professional Services
PDF
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
PDF
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
PPT
Hadoop~Yahoo!Japanの活用について
by
kaminashi
PDF
Hadoopによる大規模分散データ処理
by
Yoji Kiyota
PDF
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
by
Sho Shimauchi
PDF
Hadoop_startup
by
Yusuke Shimizu
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
by
NTT DATA Technology & Innovation
【17-E-3】Hadoop:黄色い象使いへの道 ~「Hadoop徹底入門」より~
by
Developers Summit
Apache Hadoop HDFSの最新機能の紹介(2018)#dbts2018
by
Yahoo!デベロッパーネットワーク
Googleの基盤クローン Hadoopについて
by
Kazuki Ohta
Hadoop Compatible File Systems 2019 (db tech showcase 2019 Tokyo講演資料、2019/09/25)
by
NTT DATA Technology & Innovation
Hadoop ecosystem NTTDATA osc15tk
by
NTT DATA OSS Professional Services
Hadoop ~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
Hadoop~Yahoo! JAPANの活用について~
by
Yahoo!デベロッパーネットワーク
40分でわかるHadoop徹底入門 (Cloudera World Tokyo 2014 講演資料)
by
hamaken
OSC2012 Tokyo/Spring - Hadoop入門
by
Shinichi YAMASHITA
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
by
NTT DATA OSS Professional Services
分散処理基盤Apache Hadoop入門とHadoopエコシステムの最新技術動向 (オープンソースカンファレンス 2015 Tokyo/Spring 講...
by
NTT DATA OSS Professional Services
Apache Hadoop & Hive 入門 (マーケティングデータ分析基盤技術勉強会)
by
Takeshi Mikami
ストリームデータ分散処理基盤Storm
by
NTT DATA OSS Professional Services
Hadoopエコシステムのデータストア振り返り
by
NTT DATA OSS Professional Services
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
by
NTT DATA OSS Professional Services
Hadoop~Yahoo!Japanの活用について
by
kaminashi
Hadoopによる大規模分散データ処理
by
Yoji Kiyota
Data-Intensive Text Processing with MapReduce(Ch1,Ch2)
by
Sho Shimauchi
Hadoop_startup
by
Yusuke Shimizu
More from Shinya Okano
PDF
XenServerによるお手軽開発サーバ運用
by
Shinya Okano
PDF
Djangoフレームワークの紹介
by
Shinya Okano
PPTX
Spring4Dの紹介
by
Shinya Okano
PPTX
Python札幌201406
by
Shinya Okano
ODP
Delphi ideを使わない開発スタイルの紹介
by
Shinya Okano
PDF
Djangoエンジニアの観点から見たHue
by
Shinya Okano
PDF
Djangoのエントリポイントとアプリケーションの仕組み
by
Shinya Okano
PDF
mixiアプリ『the Actress』運用にあたっての課題へのチャレンジ
by
Shinya Okano
PDF
写真共有アプリのバックエンドサーバー
by
Shinya Okano
PDF
Djangoフレームワークの紹介
by
Shinya Okano
PDF
Djangoフレームワークのユーザーモデルと認証
by
Shinya Okano
PDF
Python入門 コードリーディング - PyConJP2016
by
Shinya Okano
PDF
Pyconjp2016 pyftplib
by
Shinya Okano
PDF
Djangoフレームワークの紹介 OSC2015北海道
by
Shinya Okano
PDF
Python札幌 2012/06/17
by
Shinya Okano
PDF
電子書籍の話
by
Shinya Okano
PDF
2011.06.01 和歌山高専
by
Shinya Okano
XenServerによるお手軽開発サーバ運用
by
Shinya Okano
Djangoフレームワークの紹介
by
Shinya Okano
Spring4Dの紹介
by
Shinya Okano
Python札幌201406
by
Shinya Okano
Delphi ideを使わない開発スタイルの紹介
by
Shinya Okano
Djangoエンジニアの観点から見たHue
by
Shinya Okano
Djangoのエントリポイントとアプリケーションの仕組み
by
Shinya Okano
mixiアプリ『the Actress』運用にあたっての課題へのチャレンジ
by
Shinya Okano
写真共有アプリのバックエンドサーバー
by
Shinya Okano
Djangoフレームワークの紹介
by
Shinya Okano
Djangoフレームワークのユーザーモデルと認証
by
Shinya Okano
Python入門 コードリーディング - PyConJP2016
by
Shinya Okano
Pyconjp2016 pyftplib
by
Shinya Okano
Djangoフレームワークの紹介 OSC2015北海道
by
Shinya Okano
Python札幌 2012/06/17
by
Shinya Okano
電子書籍の話
by
Shinya Okano
2011.06.01 和歌山高専
by
Shinya Okano
Recently uploaded
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
by
PC Cluster Consortium
PDF
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
by
Toru Tamaki
PDF
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
by
Toru Tamaki
PDF
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
by
Toru Tamaki
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
by
PC Cluster Consortium
PDF
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
by
PC Cluster Consortium
PPTX
ChatGPTのコネクタ開発から学ぶ、外部サービスをつなぐMCPサーバーの仕組み
by
Ryuji Egashira
PDF
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
by
Data Source
PPTX
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
by
Tetsuya Oi
PDF
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
by
Data Source
PDF
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
by
Data Source
PCCC25(設立25年記念PCクラスタシンポジウム):コアマイクロシステムズ株式会社 テーマ 「AI HPC時代のトータルソリューションプロバイダ」
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ1「大規模AIの能力を最大限に活用するHPE Comp...
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ3「『TrinityX』 AI時代のクラスターマネジメ...
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):Pacific Teck Japan テーマ2「『Slinky』 SlurmとクラウドのKuber...
by
PC Cluster Consortium
論文紹介:DiffusionRet: Generative Text-Video Retrieval with Diffusion Model
by
Toru Tamaki
論文紹介:HiLoRA: Adaptive Hierarchical LoRA Routing for Training-Free Domain Gene...
by
Toru Tamaki
論文紹介:MotionMatcher: Cinematic Motion Customizationof Text-to-Video Diffusion ...
by
Toru Tamaki
PCCC25(設立25年記念PCクラスタシンポジウム):エヌビディア合同会社 テーマ1「NVIDIA 最新発表製品等のご案内」
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):日本ヒューレット・パッカード合同会社 テーマ3「IT運用とデータサイエンティストを強力に支援するH...
by
PC Cluster Consortium
PCCC25(設立25年記念PCクラスタシンポジウム):富士通株式会社 テーマ1「HPC&AI: Accelerating material develo...
by
PC Cluster Consortium
ChatGPTのコネクタ開発から学ぶ、外部サービスをつなぐMCPサーバーの仕組み
by
Ryuji Egashira
AI開発の最前線を変えるニューラルネットワークプロセッサと、未来社会における応用可能性
by
Data Source
2025年11月24日情報ネットワーク法学会大井哲也発表「API利用のシステム情報」
by
Tetsuya Oi
ニューラルプロセッサによるAI処理の高速化と、未知の可能性を切り拓く未来の人工知能
by
Data Source
膨大なデータ時代を制する鍵、セグメンテーションAIが切り拓く解析精度と効率の革新
by
Data Source
Hadoopとその周辺の紹介
1.
Hadoopとその周辺の紹介 BPStyle #41 tokibito
2.
Apache Hadoopとは ● 分散処理基盤 ○
HDFS - 分散ファイルシステム ○ MapReduce - 分散処理フレームワーク ● Apache財団のプロジェクト ● Javaで作られている ● http://hadoop.apache.org/
3.
HDFSとは ● 分散ファイルシステムのサービス ● Unixのファイルシステムのように、ディレクトリや パーミッション、所有者の概念がある ●
大きく分けて2つのコンポーネントで構成 ○ NameNode - 各ファイルのメタ情報を管理 ○ DataNode - 実データを持つ
4.
NameNodeとDataNodeのイメージ NameNode DataNode DataNode DataNode HDD HDD HDD NameNodeが1台でDataNodeが複数台
5.
HDFSの操作 $ hdfs dfs
-ls /user/tokibito Found 3 items drwx------ tokibito tokibito 0 drwxrwxrwx - tokibito tokibito 0 -rw-r--r-3 tokibito tokibito 419 $ hdfs dfs -put test.txt /user/tokibito/ $ hdfs dfs -ls /user/tokibito/ Found 4 items drwx------ tokibito tokibito 0 drwxrwxrwx - tokibito tokibito 0 -rw-r--r-3 tokibito tokibito 419 -rw-r--r-3 tokibito tokibito 5 $ hdfs dfs -cat /user/tokibito/test.txt hoge hdfs dfsコマンドを使ってファイルを操作できる put get mv rm ls mkdirなどのサブコマンドがある 2013-12-06 09:00 /user/tokibito/.Trash 2013-12-04 18:18 /user/tokibito/tab1 2013-12-06 15:34 /user/tokibito/test.tsv 2013-12-06 2013-12-04 2013-12-06 2014-01-08 09:00 18:18 15:34 11:18 /user/tokibito/.Trash /user/tokibito/tab1 /user/tokibito/test.tsv /user/tokibito/test.txt
6.
MapReduceとは ● 分散処理フレームワーク ● 大きく分けて2つのコンポーネントで構成 ○
JobTracker ○ TaskTracker ● ジョブ(Job) ○ Map処理とReduce処理の組み合わせ ■ org.apache.hadoop.mapreduce.Mapper ● 分割された入力データを並列処理 ■ org.apache.hadoop.mapreduce.Reducer ● Mapperの処理結果を一つにまとめる ○ jarパッケージにしてJobTrackerに登録する
7.
JobTrackerとTaskTrackerのイメージ JobTracker TaskTracker TaskTracker JobTrackerが1台でTaskTrackerが複数台 TaskTrackerでMap/Reduce処理が実行される TaskTracker
8.
Map処理とReduce処理のイメージ Job Map処理 Input Map処理 Map処理 Reduce処理 Output
9.
MapReduceを使うのは面倒くさい ● Javaで処理を書く必要がある ● jarを作ってJobTrackerに登録しないといけない ●
SQL使いたい →そこでApache Hive
10.
Apache Hive ● Hadoop上のクエリエンジン ●
SQLで問い合わせ ○ SQLからMapReduceタスクを生成して実行 ● Javaで実装されている ● http://hive.apache.org/
11.
Hiveの操作 hiveコマンドで対話シェルを起動する hive> show databases; OK default tokibito Time
taken: 2.379 seconds hive> use tokibito; OK Time taken: 0.047 seconds hive> show tables; OK tab1 Time taken: 0.143 seconds hive> select * from tab1; OK 7 NULL 1 NULL 1 foo 2 hoge 3 bar 4 5 NULL Time taken: 1.971 seconds
12.
Hiveは遅い? ● 小さなデータに対してクエリした場合でも数十秒 かかったりすることがある ○ HDFSへのアクセスのオーバーヘッドが大きい ○
MapReduce処理が遅い →そこでCloudera Impala
13.
Cloudera Impala ● Hadoop上のクエリエンジン ●
SQLで問い合わせ ○ ImpalaDaemonがSQLをコンパイルして実行(LLVM) ● MapReduce処理の最適化 ○ Impaladのノードと同じマシンのDataNodeを直接参照 ■ ネットワーク転送のオーバーヘッド軽減 ● C++で実装 ● Hiveのメタ情報を利用 ○ hiveのテーブルを参照できる ● 現状ではHiveの全機能はカバーできてない ● http://impala.io/
14.
Impalaの操作 impala-shellコマンドで対話シェルを起動する [slave1:21000] > use
tokibito; Query: use tokibito [slave1:21000] > select * from tab1; Query: select * from tab1 Query finished, fetching results ... +----+-------+ | id | col_1 | +----+-------+ | 7 | NULL | | 1 | foo | | 2 | hoge | | 3 | bar | | 4 | | | 5 | NULL | | 1 | NULL | +----+-------+ Returned 7 row(s) in 2.46s
15.
他のHadoop関連のプロダクト ● ● ● ● Apache HBase -
KVS Apache Flume - ログ収集 Apache Oozie - ワークフローエンジン Cloudera Hue - Hadoopのフロントエンド など
16.
Hadoopは大変 ● コンポーネントの数が多い ● 依存関係の解決が面倒(バージョンも気にする 必要ある) ●
複数台のサーバー管理が必要(HA構成なら最 低でも7〜11台以上) →そこでCDHとCloudera Manager
17.
CDH ● Cloudera's Distribution
Including Apache Hadoop ● 米Cloudera社 ● Hadoopのパッケージ ○ rpm ○ 依存関係が解決されている ○ 安定したバージョンのパッケージ ● http://www.cloudera. com/content/cloudera/en/products-andservices/cdh.html
18.
Cloudera Manager ● Hadoopクラスタの管理ツール ●
Webベース ● ホストの管理 ○ 対象の各ホストにagentをインストールする ● ホストへのCDHのインストール ○ 一括で自動インストール可能 ● サービスの管理 ○ どのホストでどのサービスを動かすかをWebUIから一括 設定可能 ● http://www.cloudera. com/content/cloudera/en/products-and-
19.
Hadoopの利点は? ● 一台で処理できないような量のデータを扱える ○ MapReduce ●
一台で保存できないような量のデータを扱える ○ HDFS ○ 容量が足りなければ台数を増やせばよい ○ 台数を増やせばパフォーマンスも上がる ● メモリに載り切らないようなデータを現実的な時 間で処理できる ● 正規化されていないデータを処理できる
20.
Hadoopの欠点は? ● 速くはない ○ メモリに乗る程度のデータ量ならRDBMSを使ったほう がかなり速い ●
推奨マシンスペックは低くない ○ Impalaの推奨メモリは128GB以上 ■ コモディティサーバー≠安価なサーバー ○ 最低でも1ノードあたり4〜8GB程度ないと、まともに動 かない ● 最小構成のサーバー台数が多い ○ HA構成ならマスター3台、スレーブ4〜8台以上 ● コンポーネント数が多く、複雑なのでトラブル シューティングは大変
21.
http://www.slideshare.net/Cloudera_jp/cloudera-manager-5-hadoop-cwt2013
Download