Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
第 1 回 “Learning Spark” 読書会
Chap. 2: “Downloading Spark
and Getting Started” (1)
– Sparkを導入し、使ってみよう (1) –
@data sciesotist
...
1 “In this chapter...”
• この章では、1台のPCへのSparkの
導入から利用開始までの手順を紹介します
• Scala、Java、Pythonについて、基本文法を
理解していることが望ましいです
• SparkはSca...
2 “Downloading Spark” (1)
• 最新のコンパイル済みパッケージを
https://spark.apache.org/downloads.html
からダウンロードする
• 例えば “Pre-built for Hadoo...
3 参考: Sparkサイトからのダウンロード
ftp.riken.jp や ftp.jaist.ac.jp などのネットワーク的に近いミラーも利用可能
3
4 “Downloading Spark” (2)
• アーカイブの中でも特に重要なものは以下
■ README.md: 簡単な案内文
■ bin: Sparkの実行ファイルを格納
■ core,streaming,python...:
各コン...
5 “Introduction to Spark’s Python
and Scala Shells”
• シェルを操作してアドホック分析ができる
• 大量データへの反復処理、探索的分析を
対話的に、高速に実行可能
• シェルの利便性を体感する...
6 参考: Scalaシェルの起動画面
メッセージが邪魔な場合は 2> /dev/nullとする
Windowsでも2> NULとできる
詳細はconf/log4j.propertiesで設定
6
7 “Using IPython”
• IPythonは補完などの機能があり多くの
ユーザーに利用されるPythonシェルの一種
• Sparkで利用するにはIPYTHON環境変数を
1に設定する (IPYTHON=1 ./bin/pyspar...
8 “Example 2-1. Python line count”
# RDDsの作成
>>> lines=sc.textFile("README.md")
# 行数のカウント
>>> lines.count()
# 1つ目の要素 (1行目を...
9 参考: IPythonノートブックの利用
http://localhost:8888にアクセス
set IPYTHON=1
set IPYTHON_OPTS="notebook"
binpyspark
9
10 “Example 2-2. Scala line count”
# RDDsの作成
> val lines=sc.textFile("README.md")
# 行数のカウント
> lines.count()
# 1つ目の要素 (1行目を...
11 参考: Spark Web UI
http://localhost:4040にアクセス
11
12 参考: EC2へのデプロイ (1)
• EC2にデプロイするためのspark-ec2
スクリプトが標準で付属する
• 前提: AWSのアカウントがあり
■ キーペアを作成していること
■ アクセスキーを作成していること
• Bash + ...
13 参考: EC2へのデプロイ (2)
• m3.largeインスタンス5台
(マスタ1 + スレーブ4) で構成する例
$ ec2/spark-ec2 --help
... ヘルプ表示 ...
$ ec2/spark-ec2 -k Spar...
14 参考: EC2へのデプロイ (3)
やたらエラーが出るけど、これでよいらしい
スタンドアロンクラスタマネージャのURLが表示される
14
今回は
ここまで!
15
Upcoming SlideShare
Loading in …5
×

第1回 ``Learning Spark'' 読書会 第2章 ``Downloading Spark and Getting Started''

1,532 views

Published on

2015/2/28開催の第1回 ``Learning Spark'' 読書会 第2章の資料です。
http://readlearningspark.connpass.com/event/11846/

Published in: Data & Analytics
  • Be the first to comment

第1回 ``Learning Spark'' 読書会 第2章 ``Downloading Spark and Getting Started''

  1. 1. 第 1 回 “Learning Spark” 読書会 Chap. 2: “Downloading Spark and Getting Started” (1) – Sparkを導入し、使ってみよう (1) – @data sciesotist 2015/2/28
  2. 2. 1 “In this chapter...” • この章では、1台のPCへのSparkの 導入から利用開始までの手順を紹介します • Scala、Java、Pythonについて、基本文法を 理解していることが望ましいです • SparkはScalaで書かれており、JVM上で 動作するため、Java 6以上が必須です • SparkはPython3では動作しません ……だそうです。 1
  3. 3. 2 “Downloading Spark” (1) • 最新のコンパイル済みパッケージを https://spark.apache.org/downloads.html からダウンロードする • 例えば “Pre-built for Hadoop 2.4 and later” など、適切なバージョンを選択する • WindowsでSparkを利用する場合、 スペースを含まないフォルダ名にする • もちろんソースからのコンパイルも可能 2
  4. 4. 3 参考: Sparkサイトからのダウンロード ftp.riken.jp や ftp.jaist.ac.jp などのネットワーク的に近いミラーも利用可能 3
  5. 5. 4 “Downloading Spark” (2) • アーカイブの中でも特に重要なものは以下 ■ README.md: 簡単な案内文 ■ bin: Sparkの実行ファイルを格納 ■ core,streaming,python...: 各コンポーネントのソースを格納 ■ examples: サンプル集 • 以降、ローカル環境でインタラクティブ処理、 バッチ処理の順に使い方を紹介していく 4
  6. 6. 5 “Introduction to Spark’s Python and Scala Shells” • シェルを操作してアドホック分析ができる • 大量データへの反復処理、探索的分析を 対話的に、高速に実行可能 • シェルの利便性を体感するには、Sparkサイト のQuick Start Guideが適している • シェルを起動するにはbin/pysparkまたは bin/spark-shellとする 5
  7. 7. 6 参考: Scalaシェルの起動画面 メッセージが邪魔な場合は 2> /dev/nullとする Windowsでも2> NULとできる 詳細はconf/log4j.propertiesで設定 6
  8. 8. 7 “Using IPython” • IPythonは補完などの機能があり多くの ユーザーに利用されるPythonシェルの一種 • Sparkで利用するにはIPYTHON環境変数を 1に設定する (IPYTHON=1 ./bin/pyspark) • IPythonノートブックを使うには IPYTHON OPTS="notebook" ./bin/pyspark • Windowsではset IPYTHON=1 binpyspark 7
  9. 9. 8 “Example 2-1. Python line count” # RDDsの作成 >>> lines=sc.textFile("README.md") # 行数のカウント >>> lines.count() # 1つ目の要素 (1行目を出力) >>> lines.first() 8
  10. 10. 9 参考: IPythonノートブックの利用 http://localhost:8888にアクセス set IPYTHON=1 set IPYTHON_OPTS="notebook" binpyspark 9
  11. 11. 10 “Example 2-2. Scala line count” # RDDsの作成 > val lines=sc.textFile("README.md") # 行数のカウント > lines.count() # 1つ目の要素 (1行目を出力) > lines.first() 10
  12. 12. 11 参考: Spark Web UI http://localhost:4040にアクセス 11
  13. 13. 12 参考: EC2へのデプロイ (1) • EC2にデプロイするためのspark-ec2 スクリプトが標準で付属する • 前提: AWSのアカウントがあり ■ キーペアを作成していること ■ アクセスキーを作成していること • Bash + Pythonスクリプトなので、 Linuxからデプロイするのが楽 12
  14. 14. 13 参考: EC2へのデプロイ (2) • m3.largeインスタンス5台 (マスタ1 + スレーブ4) で構成する例 $ ec2/spark-ec2 --help ... ヘルプ表示 ... $ ec2/spark-ec2 -k SparkLab -i ˜/aws_key/SparkLab.pem -s 4 -t m3.large launch SparkLab00 13
  15. 15. 14 参考: EC2へのデプロイ (3) やたらエラーが出るけど、これでよいらしい スタンドアロンクラスタマネージャのURLが表示される 14
  16. 16. 今回は ここまで! 15

×