Deploy Spark App on EMR AWS Cluster

Deploy a Spark Application
on a Spark Cluster @
Elastic Map Reduce AWS
Dr. Rim Moussa
University of Carthage

Amazon S3 -Amazon Simple Storage Service
 Upload
– S3 bucket for Spark code: .jar
– S3 bucket for Data
 Uploads to S3 might be done via Terminal for big data sets
laumch EC2 instance to upload data into S3 bucket
curl ftp://ftp.ais.dk/ais_data/dk_csv_jun2018.zip | aws s3 cp -
s3://aisdma
 Manipulation of S3 buckets and files can be done via
Terminal
aws s3 ls s3://data.info
aws s3 cp s3://spark.jars/rm-1.0-veracity.jar .
aws s3 rm s3://data.info
2

Open Datasets on Amazon
 Amazon has a repository of big datasets
https://registry.opendata.aws/
 Amazon implements a program AWS Public Dataset Program
in order to democratize access to data and encourage the
development of communities that benefit from access to
shared datasets.
https://aws.amazon.com/opendata/public-datasets/
3

Click on EC2 instance of master
15

Review Master Security Groups
16

Check “allow pinging and ssh”
17

Steps towards submitting a workflow
19

Create S3 bucket for Workflow output
20

Re-check data.info S3 bucket
23

Deploy Spark App on EMR AWS Cluster

Recommended

Recommended

More Related Content

Similar to Deploy Spark App on EMR AWS Cluster

Similar to Deploy Spark App on EMR AWS Cluster (20)

More from Rim Moussa

More from Rim Moussa (6)

Recently uploaded

Recently uploaded (20)

Deploy Spark App on EMR AWS Cluster