Cloudera Seminar 2013/04/23
Upcoming SlideShare
Loading in...5
×
 

Cloudera Seminar 2013/04/23

on

  • 960 views

2013/4/23に実施したセミナーの資料です

2013/4/23に実施したセミナーの資料です

Statistics

Views

Total Views
960
Views on SlideShare
960
Embed Views
0

Actions

Likes
3
Downloads
29
Comments
0

0 Embeds 0

No embeds

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment
  • There are three ah-ha moments here:Private training costs less when training a team, not only considering total cost (i.e., including productivity loss due to time off task) or total dollars spent (i.e., including travel and lodging expenses), but also when comparing base price (no discounting).Private training not only saves tons of time on task, but there are additional implicit savings involved in getting trained on the customer’s own schedule (i.e., sooner rather than later, when the entire team will be present to collaborate synchronously).Private training achieves economies of scale such that additional people can be trained at virtually no marginal cost – considering base price alone, it costs less to train 10 participants in a private training than it does to train nine in a public training. Including travel and lodging expenses and productivity loss, breakeven for public training is seven participants.

Cloudera Seminar 2013/04/23 Cloudera Seminar 2013/04/23 Presentation Transcript

  • 1ビッグデータ時代到来!どうするデータ活用〜Hadoopの導入事例から学ぶ〜川崎 達夫 |Cloudera株式会社 エデュケーションサービス2013年4月24日
  • 自己紹介2• 川崎 達夫• シニアインストラクター&研修全般の業務を担当• email: kawasaki@cloudera.com• Hadoopトレーニングに関するお問い合わせ先• web: http://www.cloudera.co.jp/university• email: training-jp@cloudera.com
  • 後半のアジェンダ3• ビッグデータとは• Hadoop事例紹介• Hadoopのアーキテクチャ• ビッグデータ時代の人材育成
  • 4Hadoopのアーキテクチャ
  • Googleの課題5• Googleの課題• Googleの重要なサービスのひとつ、検索サービス• インターネット上のコンテンツを集めて、検索インデックスを作る必要があった• 2つの課題• 大量のコンテンツを「蓄積」(保存)しなければならない• 大量のコンテンツを「加工」(処理)しなければならないインターネット蓄積加工
  • 課題と解決(1)6• 一般的にデータはハードディスクに保存される• 利点• GBあたりの単価が安い• 例)3TBのディスクは$0.05/GB• 欠点• 読み書き速度が遅い• 例)転送レートが210MB/sのディスク• 3TBの読み込みに約4時間かかる→ 複数のディスクを並列で使用する
  • 課題と解決(2)7• データを一カ所に保存する• 処理時に共有ディスクからデータを読み込む• ボトルネックの要因• 処理するデータのサイズが大きい• 多くの台数が同時にアクセス• ネットワークの帯域→ 処理をデータ側に持ってくる
  • 課題と解決(3)8• 一台で処理するのではなく、複数のマシンに処理を分散する• 一方、分散処理は難しい• C言語、フォートラン、MPI、、、、• 専門知識が必要→ 汎用言語と高レベルなAPIを使用して複雑さを抽象化
  • 課題と解決(4)9• 分散システムには高価なコンポーネントが必要• 障害の可能性を最小限に抑える→ 障害は発生すると認識した設計
  • Googleの解決策: GFSとMapReduce10• GFS(分散ファイルシステム)• 多数のサーバ上に分散してデータを保存できるファイルシステム• Google はGFSを使って大量 webページを多数のサーバの上に保存した• MapReduce(分散処理)• GFSで分散された多数のサーバの上でそのまま計算処理を行うための分散フレームワーク• GoogleはMapReduceを使って検索インデックスを作成したキーワードは「分散」
  • Hadoopの登場11• Hadoop = Googleが公開した論文を元にしてオープンソースで開発されたクローン• GFS -> HDFS (Hadoop分散ファイルシステム)• MapReduce -> MapReduce (分散処理)
  • Hadoop12ただしスレーブ数は非常に多い(10-1000台、10000台も可能)マスタースレーブ群
  • Hadoop13データを分散して保存マスタースレーブ群データ
  • Hadoop14処理を分散して実行マスタースレーブ群処理
  • ここまでのまとめ15• Hadoopのアーキテクチャ• 「分散して蓄積」と「分散して処理」• Hadoopが有効なケース• 大量のデータを蓄積したい• 比較的単純な処理を高速に行いたい→台数を増やすことで容易にスケールアウトできます• Hadoopに向いていないケース• RDBMSではありません(低遅延ではありません)• トランザクションのような複雑な処理はありません
  • 16ビッグデータ時代の人材育成Cloudera University
  • ビッグデータと人材不足17• ‘ビッグデータ’を業務に活かす基盤は整って来た• 大きな課題は「人材不足」• 関連記事• 日経コンピュータ 2011年9月15日号• ビッグデータ革命:最大の課題は人材不足• COMPUTERWORLD(IDC調査)• Hadoop/MapReduce関連ソフトの世界市場、今後5年間の年平均成長率は60.2%の見通し。(中略)その一方で、今後2〜3年間、HadoopやMapReduceを使いこなせる人材の不足がこれらの技術の普及拡大のネックになるだろうとも付け加えている
  • Hadoopエンジニアと給与18• 関連記事• 10 Tech Skills That Will Instantly Net You A $100,000+Salary• 第7位: “Haddop は尐なくとも $103,000の価値がある”• http://www.businessinsider.com/10-tech-skills-that-will-instantly-net-you-100000-salary-2012-8?op=1• As Demand Keeps On Increasing, Hadoop And NoSQL SkillsPay Off• “HadoopとNoSQLを使用している社員の年収は$100,000以上であり、IT業界平均年収の平均$85,619よりもかなり高い”• http://inside-bigdata.com/as-demand-keeps-on-increasing-hadoop-and-nosql-skills-pay-off/
  • なぜHadoopのトレーニングなのか?不足 エキスパートを雇用するよりも社員に研修を行う方が安価速度 訓練されたプロフェッショナルは迅速でより効率的に業務を遂行セキュリティ 認定資格はリーダーシップとスキルの明らかな証明19戦略 独自の利用事例と卓越した研究拠点の構築を開始
  • 25%$115K20Hadoopプロフェッショナル:育成か雇用か?Hadoopのスキルを持つエンジニアの給与は、尐なくとも一般より多く必要Hadoopの開発者は、現在技術職において賃金が最も高額であり、この水準以上になっているSources: Business Insider, “10 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 11 August 2012.Business Insider, “30 Tech Skills That Will Instantly Net You A $100,000+ Salary,” 21 February 2013.GigaOm, “Big Data Skills Bring Big Dough,” 17 February 17 2012.$300Kかなりシニアなデータサイエンティストの求人における賃金
  • 21なぜClouderaのトレーニングなのか?1 広範囲なコース体系開発,管理,HBase,Hive & Pig,データサイエンス23経験豊かな講師2009年以降、15,000人以上が受講5 世界各国で実施ほとんどのコースが20カ国、およびバーチャルでも提供6 プラットフォームとコミュニティに密接CDHは他社のディストリビューションよりも展開されている7 詳しいトレーニング教材ハンズオン演習と仮想マシンが実操作に役立つ認定資格のリーダーClouderaの認定取得者は5,000人以上4 最高水準のカリキュラムHadoopの進化に伴い定期的に更新 8 学習の継続ビデオチュートリアルとe-learningでトレーニングを補完
  • 55%22がClouderaのトレーニングを受講Source: Fortune, “Fortune 500 “ and “Global 500,” May 2012.Clouderaはトップ企業への研修を提供100%の企業の社員に対する研修をClouderaで提供Hadoopの導入を検討している世界のテクノロジー企業のトップ20社のうちFortune 100 企業のビッグデータプロフェッショナルのうち、
  • 94%66%23がClouderaのトレーニングを同僚または知人に推奨、または強く推奨が尐なくとも毎月開催しているClouderaのトレーニングを当てにしているSource: Cloudera Past Public Training Participant Study, December 2012, n = 20640%がClouderaのトレーニング後、新しいアプリケーションを開発、あるいはビジネスに重要な分析を実施Clouderaのトレーニング受講者は現場のリーダー88% がClouderaのトレーニングは受講生の役割に求められるHadoopの専門知識を提供していると示唆
  • 24講師の専門スキルと講義中に得られる技術知識の向上は素晴らしかった。トレーニングの品質は大学の授業に比肩する
  • 25Cloudera Universityとは何か?役割ベースのトレーニングコース開発者 管理者 分析者専門的な認定資格プロジェクトベースのビデオチュートリアル(英語)製品ベースのE-LearningHadoop クラスタの発展Cloudera ナレッジベース
  • 26Clouderaエッセンシャル1 日Hadoop管理者向け3 日間 & 認定試験ClouderaEnterprise1 日間Hadoop開発者向け4 日間 & 認定試験Proposed Company Training TimelineProposed Evolution of Cloudera Enterprise DeploymentApacheHBase2 日間 & 認定試験ApacheHive & Pig2 日間DataScience3 日間 & 認定試験最初のユースケース追加のユースケースリアルタイムのユースケース広範囲なユーザーが採択Estimated Data in Production最新の分析Hadoop選択のライフサイクルHadoopで何をすることができるか?本番環境でのHadoopを準備
  • 27ラーニングパス:開発者とソフトウェアエンジニアData Scienceトレーニング開発者向けトレーニングHBaseトレーニング本番環境でMapReduceプログラムを記述する方法を学習実際のデータ分析に必要となる高度なAPIのトピックをマスター大量データセットでの遅延を最小化するためのスキーマ設計秒間数十万オペレーションまでスケールアップレコメンダとデータ解析を実装異種データの分析からすぐに利用可能な洞察力を認識
  • 28ラーニングパス:システム管理者とITマネージャーHive & PigトレーニングClouderaEnterpriseトレーニング迅速なクラスタのデプロイと拡大のためにCloudera Managerを使用クラスタの性能向上のためにどのツールと技術を使用するかを学習外部BIツールなしに大量データセットの完全な分析を実行高い価値がある用途で扱うためにデータを変換して操作管理者向けトレーニング設定、インストール、最適なパフォーマンスのための監視セキュリティ機能と複数ユーザを実現するための実装
  • 29ラーニングパス:分析者&ビジネス情報スペシャリストData ScienceトレーニングClouderaエッセンシャルトレーニングHive & Pigトレーニング既存の技術と並行してHadoopの価値を創造複数の構造化された大量な量のデータを分析するための方法を学習大きすぎるデータセットに対してSQLとスクリプト言語を適用Hadoopのアクセスの容易さを加速する高度なテクニックを取得好機を生かすために業界固有のデータプラットフォームを構築コスト削減、利益拡大、顧客維持のためにデータを使用
  • 30Course OverviewCloudera Apache Hadoop エッセンシャル1 日なぜHadoopが存在しているのか、いつ利用するのが適切か、拡張を成功させるために必要なリソースは何かを学習します。Hadoopの主要なコンポーネントと広範囲なHadoopエコシステムを紹介します。Cloudera Apache Hadoop 開発者向けトレーニング4 日間HDFSとMapReduceの基本と同様に、APIを使用してどのようにプログラムを記述するのか、デバッグと最適化のテクニック、大きなワークフローの管理方法を学習します。関連するApacheプロジェクトの概要を紹介します。Cloudera Apache Hadoop 管理者向けトレーニング3日間Hadoopシステム管理者のコンセプトと実務について、インストールと設定、デプロイにおける問題の診断と解決するための負荷分散とチューニングについて学習します。Cloudera Enterprise トレーニング1 日大規模Hadoopクラスタを維持管理するために、Cloudera Managerを含むCloudera Enterpriseの一部として提供されるアプリケーションの使用方法について学習します。Cloudera Apache HBase トレーニング2日間低遅延クエリと高スループットを実現するための分散データストアとして、HBaseの使用方法を学習します。本コースではスキーマ設計、アプリケーションの作成、設定とメンテナンスも網羅しています。Cloudera Apache Hive & Pig トレーニング2日間Apache Hadoopで分析とデータ変換を行うための、2つの人気のあるApacheプロジェクト、HiveとPigの使用方法について、フィルタ、結合、ユーザー定義関数などを学習します。データサイエンス入門:レコメンドシステムを構築する3日間データサイエンティストとは何か、解決できる問題は何か、異なる業界においてデータからビジネスの価値を導くために現実的な課題に適用する方法について学習します。自動化されたレコメンダシステムを実装します。
  • 31Clouderaはビッグデータの動向に福音を説いている最適なベンダーであり、業界でHadoopを促進する素晴らしいサービスを提供している。開発者向けトレーニングは私が旅を始めるのに素晴らしい方法だった。
  • 32なぜプライベートトレーニングなのか?利便性希望日に希望した場所でプライバシー相互の情報開示契約はないフォーカス1教室あたり10名または20名に限定関連性Hadoopの目的に合わせた議論カスタマイズ研修の内容はご要望に応じて提供価格旅費と最小限の作業に追加費用は発生しない
  • 本日のまとめ34• ビッグデータとは何か• Hadoopの事例• Hadoopのアーキテクチャ• ビッグデータ時代の人材育成• 前半の資料は参加者のみに期間限定で公開しています
  • 35 CONFIDENTIAL - RESTRICTED