Submit Search
Upload
Hadoop基盤を知る
•
0 likes
•
590 views
日本ヒューレット・パッカード株式会社
Follow
- 企業活動とデータの在り方 - Hadoopクラスター構成 - データモデル - ビッグデータ向けサーバー
Read less
Read more
Data & Analytics
Report
Share
Report
Share
1 of 26
Download now
Download to read offline
Recommended
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
日本ヒューレット・パッカード株式会社
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
日本ヒューレット・パッカード株式会社
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
Recommended
Hadoop, NoSQL, GlusterFSの概要
Hadoop, NoSQL, GlusterFSの概要
日本ヒューレット・パッカード株式会社
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
Hadoop/AI基盤における考慮点、PoCの進め方、基盤構成例
日本ヒューレット・パッカード株式会社
HDFS vs. MapR Filesystem
HDFS vs. MapR Filesystem
日本ヒューレット・パッカード株式会社
コンテナーによるIT基盤変革 - IT infrastructure transformation -
コンテナーによるIT基盤変革 - IT infrastructure transformation -
日本ヒューレット・パッカード株式会社
MapReduce/YARNの仕組みを知る
MapReduce/YARNの仕組みを知る
日本ヒューレット・パッカード株式会社
Apache Hadoopを改めて知る
Apache Hadoopを改めて知る
日本ヒューレット・パッカード株式会社
ビッグデータ活用とサーバー基盤
ビッグデータ活用とサーバー基盤
日本ヒューレット・パッカード株式会社
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
AI・HPC・ビッグデータで利用される分散ファイルシステムを知る
日本ヒューレット・パッカード株式会社
HPE×SUSE協業ソリューション
HPE×SUSE協業ソリューション
日本ヒューレット・パッカード株式会社
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
shuichi iida
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
Yuki Gonda
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
20191115-PGconf.Japan
20191115-PGconf.Japan
Kohei KaiGai
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
CDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
[Postgre sql9.4新機能]レプリケーション・スロットの活用
[Postgre sql9.4新機能]レプリケーション・スロットの活用
Kosuke Kida
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
20200828_OSCKyoto_Online
20200828_OSCKyoto_Online
Kohei KaiGai
20190926_Try_RHEL8_NVMEoF_Beta
20190926_Try_RHEL8_NVMEoF_Beta
Kohei KaiGai
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
Cloudera, Inc.
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
NTT DATA Technology & Innovation
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
More Related Content
What's hot
HPE×SUSE協業ソリューション
HPE×SUSE協業ソリューション
日本ヒューレット・パッカード株式会社
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Daiki Sato
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
Yuki Gonda
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
AdvancedTechNight
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
shuichi iida
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
Yuki Gonda
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
NTT DATA Technology & Innovation
20191115-PGconf.Japan
20191115-PGconf.Japan
Kohei KaiGai
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
NTT DATA Technology & Innovation
CDH4.1オーバービュー
CDH4.1オーバービュー
Cloudera Japan
[Postgre sql9.4新機能]レプリケーション・スロットの活用
[Postgre sql9.4新機能]レプリケーション・スロットの活用
Kosuke Kida
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
Kohei KaiGai
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
NTT DATA OSS Professional Services
20200828_OSCKyoto_Online
20200828_OSCKyoto_Online
Kohei KaiGai
20190926_Try_RHEL8_NVMEoF_Beta
20190926_Try_RHEL8_NVMEoF_Beta
Kohei KaiGai
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
Cloudera, Inc.
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
Yoshikazu Suganuma
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
NTT DATA Technology & Innovation
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
NTT DATA OSS Professional Services
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
NTT DATA Technology & Innovation
What's hot
(20)
HPE×SUSE協業ソリューション
HPE×SUSE協業ソリューション
Hadoop splittable-lzo-compression
Hadoop splittable-lzo-compression
Hadoop -NameNode HAの仕組み-
Hadoop -NameNode HAの仕組み-
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
ATN No.1 MapReduceだけでない!? Hadoopとその仲間たち
Hadoopを用いた大規模ログ解析
Hadoopを用いた大規模ログ解析
Hadoop -ResourceManager HAの仕組み-
Hadoop -ResourceManager HAの仕組み-
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
BigtopでHadoopをビルドする(Open Source Conference 2021 Online/Spring 発表資料)
20191115-PGconf.Japan
20191115-PGconf.Japan
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
Hadoop Compatible File Systems (Azure編) (セミナー「Big Data Developerに贈る第二弾 ‐ Azur...
CDH4.1オーバービュー
CDH4.1オーバービュー
[Postgre sql9.4新機能]レプリケーション・スロットの活用
[Postgre sql9.4新機能]レプリケーション・スロットの活用
20190314 PGStrom Arrow_Fdw
20190314 PGStrom Arrow_Fdw
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
HDFS新機能総まとめin 2015 (日本Hadoopユーザー会 ライトニングトーク@Cloudera World Tokyo 2015 講演資料)
20200828_OSCKyoto_Online
20200828_OSCKyoto_Online
20190926_Try_RHEL8_NVMEoF_Beta
20190926_Try_RHEL8_NVMEoF_Beta
Hadoop Troubleshooting 101 - Japanese Version
Hadoop Troubleshooting 101 - Japanese Version
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
データサイズ2ペタ ソネット・メディア・ネットワークスでのImpala活用とHadoop運用
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
PostgreSQLレプリケーション10周年!徹底紹介!(PostgreSQL Conference Japan 2019講演資料)
Hadoopエコシステムのデータストア振り返り
Hadoopエコシステムのデータストア振り返り
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
pg_bigmで全文検索するときに気を付けたい5つのポイント(第23回PostgreSQLアンカンファレンス@オンライン 発表資料)
Similar to Hadoop基盤を知る
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
Insight Technology, Inc.
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
Insight Technology, Inc.
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
Insight Technology, Inc.
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
Dai Utsui
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
Insight Technology, Inc.
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Cloudera Japan
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
DataWorks Summit
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
NTT DATA OSS Professional Services
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
オラクルエンジニア通信
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
YusukeKuramata
オープン・クラウド・プラットフォーム構築の秘訣
オープン・クラウド・プラットフォーム構築の秘訣
ThinkIT_impress
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
NTT DATA OSS Professional Services
HPCフォーラム2015 基調講演 HPテクニカルコンピューティング最前線 ~HP Apollo Systemディープダイブと、世界の採用事例~ Ed T...
HPCフォーラム2015 基調講演 HPテクニカルコンピューティング最前線 ~HP Apollo Systemディープダイブと、世界の採用事例~ Ed T...
日本ヒューレット・パッカード株式会社
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTT DATA OSS Professional Services
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
NTT DATA OSS Professional Services
[D35] インメモリーデータベース徹底比較 by Komori
[D35] インメモリーデータベース徹底比較 by Komori
Insight Technology, Inc.
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
NTT DATA Technology & Innovation
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Insight Technology, Inc.
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
NTT DATA Technology & Innovation
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
NTT DATA Technology & Innovation
Similar to Hadoop基盤を知る
(20)
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2018] #dbts2018 #E28 『Hadoop DataLakeにリアルタイムでデータをレプリケ...
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2014] L34: そのデータベース 5年後大丈夫ですか by 日本ヒューレット・パッカード株式会社 後藤宏
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
[db tech showcase Tokyo 2015] B24:最高峰の可用性 ~NonStop SQLが止まらない理由~ by 日本ヒューレット・パ...
Gmo media.inc 第9回西日本ossの普及を考える会
Gmo media.inc 第9回西日本ossの普及を考える会
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
[db tech showcase Sapporo 2015] A22:HP NonStop SQLはなぜグローバルに分散DBを構築できるのか、 データの...
Cloudera大阪セミナー 20130219
Cloudera大阪セミナー 20130219
Beginner must-see! A future that can be opened by learning Hadoop
Beginner must-see! A future that can be opened by learning Hadoop
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
分散処理基盤Apache Hadoopの現状と、NTTデータのHadoopに対する取り組み
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
[Oracle Cloud Days Tokyo2015]成功事例に学べ! ビッグデータ活用のための最新ベストプラクティス
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
今注目のSpark SQL、知っておきたいその性能とは 20151209 OSC Enterprise
オープン・クラウド・プラットフォーム構築の秘訣
オープン・クラウド・プラットフォーム構築の秘訣
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
分散処理基盤ApacheHadoop入門とHadoopエコシステムの最新技術動向(OSC2015 Kansai発表資料)
HPCフォーラム2015 基調講演 HPテクニカルコンピューティング最前線 ~HP Apollo Systemディープダイブと、世界の採用事例~ Ed T...
HPCフォーラム2015 基調講演 HPテクニカルコンピューティング最前線 ~HP Apollo Systemディープダイブと、世界の採用事例~ Ed T...
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
NTTデータ流 Hadoop活用のすすめ ~インフラ構築・運用の勘所~
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
SQL on Hadoop 比較検証 【2014月11日における検証レポート】
[D35] インメモリーデータベース徹底比較 by Komori
[D35] インメモリーデータベース徹底比較 by Komori
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
大規模データ処理の定番OSS Hadoop / Spark 最新動向 - 2021秋 -(db tech showcase 2021 / ONLINE 発...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
[db tech showcase Tokyo 2017] A32: Attunity Replicate + Kafka + Hadoop マルチデータ...
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Apache Bigtop3.2 (仮)(Open Source Conference 2022 Online/Hiroshima 発表資料)
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop/Spark を使うなら Bigtop を使い熟そう! ~並列分散処理基盤のいま、から Bigtop の最近の取り組みまで一挙ご紹介~(Ope...
Hadoop基盤を知る
1.
Hadoop基盤を知る 日本ヒューレット・パッカード株式会社 HPE認定オープンソース・Linuxテクノロジーエバンジェリスト Hadoop(CCAH)認定技術者 古賀政純@masazumi_koga 2019年4月 ~ AI時代を生き抜くビッグデータ基盤技術の基礎を知る ~
2.
古賀政純の実践ガイドシリーズ 最先端オープンソース書籍出版の取り組み コンテナや OSSの 自動配備 IT資源管理 の自動化 社内クラウド 構築手順 ステップバイ ステップで 徹底解説 OS部門1位 AmazonJP ランキング OS部門1位 AmazonJP 新着 ランキング OS部門2位 AmazonJP ランキング 機械学習 ビッグデータ 基盤構築 具体例満載 2
3.
企業活動と データの在り方 3
4.
4 先進企業は、なぜ積極的にWebサービスに取り組むのか? – エンドユーザーによるサービスへのアクセス • データアクセス –
メールを読む – ツイートを送信する – 本を買う – 友達をパーティーに招待する – 写真を表示する • パフォーマンスに対する厳格な制限 – エンドユーザー:「アクセスの際に、待ちたくない」 – Webサイトの応答性:重要な差別化要因! – エンドユーザーに関するデータの整理 • データマイニングの容易さ • イントラネット検索のしやすさ • 膨大なデータへアクセスするスピード • 分析結果を得るまでの応答時間 • セキュリティの確保 Webで得られ る多種多様な データ 制したものが 生き残る時代 情報の真偽 商品評価 会話、流行 映像配信 エンタメ ニュース 購買情報
5.
企業活動とデータ –IT設備投資 • 所有している資産の価値は? • 利用効率は? •
なぜ必要なのかの検討は? • IT投資の目的 – TCO削減? – 人件費削減? – 電気代削減? – 売り上げ拡大? – 利益拡大 – 外販ビジネス開拓? – 特許収入? IT調査会社の天の声: 「AI時代の企業の成長には、 データ活用が必須!」 企業活動の成否は、 経営のプロの職人芸? 成長するには、IT投資が必要なのは わかるけど、データ多くないし... データ活用っていうけど、 なんだか、大変そう... 5
6.
企業のWebサービス基盤 Web 層/ アプリケーション層 キャッシュ層 ストレージ データベース層 データマイニング 検索 利 用 者 6
7.
Web 層/ アプリケーション層 Apache Tomcat Geronimo キャッシュ層 Memcached ストレージ XFS, ZFS,
NFS,HDFS, Haystack データベース層 MySQL データマイニング 検索 YARN on Hadoop Elastic Search Webサービスとオープンソース 利 用 者 7
8.
Web 層/ アプリケーション層 Apache Tomcat Geronimo キャッシュ層 Memcached ストレージ XFS, ZFS,
NFS,HDFS, Haystack データベース層 MySQL データマイニング 検索 YARN on Hadoop Elastic Search ハードウェア要件 CPU メモリ IOPS + メモリ IOPS + CPU IOPS 利 用 者 8
9.
ビッグデータとHadoop 9
10.
ビッグデータってファイルサイズの大きいデータのこと? –例)2025年までデータを取得、毎日生成 –ユーザーが生成するコンテンツの急増 –磁気ディスクが安価に –ずっと生成され続けるデータをその都度処理 –企業にとって、なにが問題? –ミッションクリティカル対応 –エンタープライズ対応 –従来のアーキテクチャ –データを処理しようとすると、脆弱で低速 –ペタバイトスケールが困難 – 非構造化データの処理手順 10
11.
Hadoopって? – ビッグデータ保管・分析に必要なもの – 巨大スケールアップマシン=頑健な作り –
大量のスケールアウト型マシン=クラスタ → Hadoopはスケールアウト! – 誰が管理するのか? – データはどこにあるか? – ジョブはいつ終わるのか? – 障害発生時はどうなるのか? – Hadoopにおける管理 – YARN(MapReduce)アプリを実行 – 何を/どこで/いつ実行を追跡 – HDFS :分散データストレージ – データの複製を保持 – 障害に対応 Secondary Name Node Job Tracker Name Node Rack 2 Rack 1 Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce 1つのタスク... ワーカーノード群 アプリケーション:MapReduceで書く? 基盤ソフトウェア:Hadoop 11
12.
Apache Hadoopクラスター構成 スレーブ マシン N スレーブ マシン5 スレーブ マシン4 スレーブ マシン3 スレーブ マシン2 マスター マシン1 YARN(MapReduce) Hadoop
分散ファイルシステム Linux 12
13.
データとHadoopアプリケーション –HDFSに配置 – 低コスト(=信頼性は低い)のストレージを使った分散ファイルシステム – MapReduceがなくても、大規模でスケーラブルなデータストアとして価値がある –傾向分析 –
Webのログファイルをマイニング – 大量の非構造化データの選別 – 例: 「今、ホットな情報」、「最も人気のある情報」など –Webクロールやコンテンツ処理 – 情報の抽出、分類、結合 –アドホックテキスト分析 – データをふるいにかけ、新しいトレンドやパターンを簡単に特定 HDFS 13
14.
データモデル Hadoop ディストリビューション データベース オフラインシステム 非構造化データ 生データ スクリプティング分析 DBA 分析 ビジネスユーザー分析 システム管理とプロビジョニング スケールアウト特化型のハードウェアインフラストラクチャ インポート エクスポート オンライン/リアルタイムシステム 構造化データ システム使用モデル データモデル ユーザーレベルツール プログラマーレベルのツール 管理者レベルのツール 14
15.
データモデル MapR/Cloudera MapR-DB, Cassandra, HBase,
Vertica オフラインシステム 非構造化データ 生データ Pig Hive/Impala/Drill Datameer/Pentaho Mesosphere DC/OS, MapR Control System, Cloudera Manager, Chef, Ansible HPE Apollo 4200 Gen10インフラストラクチャ インポート エクスポート オンライン/リアルタイムシステム 構造化データ システム使用モデル データモデル ユーザーレベルツール プログラマーレベルのツール 管理者レベルのツール 15
16.
オープンソースソフトウェア=無料ではない Hadoopディストリビューション – 選択肢: – Apache
Hadoop – 安定性よりも、むしろ、最新の機能を試したい – コミュニティの最新成果物に触れる – コミュニティの発展に寄与 – ベンダーサポートなし – MapR – GUIインストーラー、GUI管理画面 – 超高速ファイルシステム:MapR-FS(C/C++で実装) – NFSストレージ利用 – 日本のHPEの技術コンサルティング部隊での導入実績も豊富 – Cloudera – GUIインストーラー、GUI管理画面 – Impalaの取り組み – 日本のHPEの技術コンサルティング部隊での導入実績も豊富 16
17.
留意点 17
18.
Hadoopを誤解しないように… 18 Secondary Name Node Job Tracker Name
Node Rack 2 Rack 1 Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce Data Node Task Tracker Task Map Reduce Task Map Reduce Task Map Reduce • Hadoopは、アプリではなく、インフラストラクチャ • 計算ノード構成は、データ保管と計算処理のバランスが必要 • 結果的に、Hadoop向けハードウェアを導入する場合が多い • 結構、ハードウェアリソースが必要 • CPU • メモリ • ディスク • NIC • 何をしたいかを明確にする • 分析要員の確保 • ハイレベルアプリとの連係 18
19.
Hadoop向けハードウェア –何を考慮すべきなのか? –初期コスト –電源、電力消費量 –CPU処理能力 –メモリ容量 –ディスク容量 –ラック密度 19
20.
Hadoopにおけるお客様の課題 –お客様の声 –「Hadoopだけでエンタープライズに利用できるの?」 –「私は、Hadoop技術や技能を極めたいわけではない」 –「私のデータはどこにあって、今どのような処理が動いているの?」 –データの密度 vs. 電力 –「ラック1台あたり、N個のハードドライブが欲しい」 –「ラック1台あたり、8Kワット以下でないと導入は厳しい」 –「サーバーあたり、200TB保存したい」 –「1日で1TB増えるけど、設備は5年使う」 HPE
Apollo 4200 Gen10 HPE Apollo 6500 Gen10 20
21.
ビッグデータ専用ハードウェア 21
22.
Hadoopプラットフォームの変遷 –DL180 – 最大 14
LFF HD/25 SFF HD – 12個の DIMM ソケット – 2U –SL160s/SL165 – 最大 6 LFF HD/8 SFF HD – 18/24 DIMM スロット – 1U –SL335 – 最大 4 LFF HD/8 SFF HD – 12個の DIMM スロット – リスボン CPU – 1Uで2台 2011年 2019年 HPE Apollo 4200 Gen10 HPE Apollo 6500 Gen10 GPU HPE Apollo 2000 Gen10 22
23.
Hadoopのラッキング構成を知る -計算ノードのサーバー機種:Apollo 4200 Gen10 -メモリ:
512 GB RAM -Disk(OS用): 1TBディスク x 2 -Disk(データ用): 10TB ディスク x 15~26 -CPU: Xeonプロセッサ x2ソケット -NIC: 最低10GbE以上 スイッチ • 最低10GbE以上 • 冗長性確保 ソフトウェア • HW/OS管理用ソフトウェア(HPE) • MapR Control System or Cloudera Manager インストール • マスターノード: 巨大メモリが必要、RAID構成 • 計算ノード: RAIDなし、ホットスワップなし HPE ラック HPEスイッチ Hadoopマスター Hadoop スレーブ1 Hadoop スレーブ2 Hadoop スレーブ3 Hadoop スレーブ... Hadoop スレーブN HW/OS管理用サーバー HW/OS管理ツール: HPE Performance Cluster Manager 23
24.
複数ラックにまたがる構成 HPE ラック1 HPEN スイッチ Hadoopマスター Hadoop
スレーブ1 Hadoop スレーブ2 Hadoop スレーブ3 Hadoop スレーブ... Hadoop スレーブN HW/OS管理用サーバー HPE ラック... HPEN スイッチ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ HPE ラック x HPEN スイッチ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ Hadoop スレーブ 24
25.
ご清聴ありがとう ございました @masazumi_koga 25
26.
機械学習とビッグデータを知る 最先端オープンソース書籍出版への取り組み AI時代に必携の一冊! 機械学習・ビッグデータ基盤導入検討・構築・使用法・応用例 等 Apache
Hadoop 3と商用版MapR 6クラスター構築、使用法 機械学習, ニューラルネットワークの具体例 データベースとの連携, ETLツール RDBMS, ログ, Twitterデータの取得 等 • Bigdata分析基盤の概要 • Hadoopの種類、沿革、システム構成 • Apache Hadoop 3の特徴 • Hadoopシステム構成、導入前検討項目 • ハードウェアコンポーネントの検討 • Hadoop 3, MapR 6クラスターハードウェア構成例 • Hadoopクラウド • ハードウェアの設定 • Hadoop 3, MapR 6クラスターのインストール • Hadoop 3, MapR 6クラスターの運用管理 • Spark SQL, Spark Streaming, Spark GraphX, Spark R, Spark MLlib • ニューラルネットワーク • Hive, Impala, HBase, Pig • Sqoop, Flume • Mahout Amazon インプレス フライトデータ分析、 迷惑メール分類、 おすすめ映画タイトルの 表示など、機械学習の 具体例を掲載! Hadoop 3と MapR 6を 解説した世界初の本!
Download now