Pilvipalvelut : AWS Elastic MapReduce

AWS – Elastic MapReduce
Hadoop ja Amazon Web Sercvices

Mikä on Elastic MapReduce
 Web-palvelu, joka mahdollistaa suurten datamäärien
tehokkaan käsittelyn
 Käyttää Hadoop-ohjelmistoympäristöä (software framework)
 Tarkoitettu yrityksille, tutkijoille ja sovelluskehittäjille
analyysien suorittamiseen

 Soveltuu mm.:
 Analyyseihin
 Tutkimukseen
 Simulointiin
 Tiedonlouhintaan

Mikä on Hadoop?
 Hadoop on avoimen lähdekoodin
ohjelmistoympäristö, joka on valmiiksi
asennettuna Elastic MapReducen käyttäjille

 Hadoop on käytössä lukuisissa suuryrityksissä
kuten eBay, IBM ja Yahoo!

Mitä Hadoop tekee?
 Hadoop jakaa käsiteltävän datan osiin, joka
puolestaan jaetaan EC2-instanssien
(virtuaalipalvelimia) käsiteltäväksi
 Hadoop kokoaa käsitellyn datan taas yhteen ja
yhdistää ne lopputulokseksi
 Hadoop huolehtii instanssien välisestä
kommunikaatiosta ja valvoo niiden toimintaa

 Hadoopin käyttämää hajautetun laskennan
toimintamallia kutsutaan nimellä MapReduce

Mitä on MapReduce?
 Käsiteltävä data jaetaan siis osiin ja osat
jaetaan AWS:n tapauksessa EC2-instansseille
(slave-instansseille, joita master-instanssi
valvoo)
 Jaetun datan mukana instanssit saavat
käsittelyohjeet
 Käsiteltyään datan Hadoop yhdistää slave-
instanssien laskennan tulokset

Mitä Elastic MapReduce maksaa?

 Hinnat riippuvat käytettyjen instanssien
(virtuaalipalvelin) koosta ja käyttöalueesta (Aasia,
Yhdysvallat vai EU)

Mitä Elastic MapReduce maksaa?

 Palvelun käyttämisen hinta koostuu siis neljästä osasta:
EC2, S3, tiedonsiirto ja Elastic MapReduce

Elastic
EC2 S3 Tiedonsiirto MapReduce

Osaamisvaatimukset
sovelluskehittäjälle
 XML (extender markup language)
 Ymmärrys web-palveluiden perusteista
 Ohjelmointiosaaminen tarvittavien
komentojen (mapper, reducer) antamiseksi
Elastic MapReduce-palvelulle ja tulosten
hyödyntämiseksi
 Käytössä myös Hive (versio 0.5) ja Pig (versio 0.6),
jotka mahdollistavat Hadoopin käytön SQL-tyyppisin
komennoin ilman tarvetta MapReduce-algoritmejä
esim. Javalla

Käsiteltävän datan enimmäismäärä

 Ilman yhteydenottoa Amazonin
(myynti)edustajaan voi ottaa käyttöön 20
instanssia
 Käsiteltävän datan enimmäismäärä on 34
teratavua (34 TB)
 20 ”extra large”-instanssia, joissa 1.69 teratavua
kovalevytilaa kussakin. Elastic MapReduce
käyttää instanssien kovalevytilaa datan
säilyttämiseen prosessoinnin aikana

Elastic MapReducen käyttäminen

 Kolme vaihtoehtoista tapaa: konsoli
(hallintapaneeli), komentorivi (command line
interface, CLI) ja API (ohjelmointirajapinta)

 Konsoli helpoin ja suppein
 API vaikein ja monipuolisin

 Komentorivi (CLI, command line interface)
vaatii Rubyn asennettuna toimiakseen

Tietoturva (data security)
 Ainoastaan AWS-tilin omistaja pääsee käsiksi
Elastic MapReducen S3-palveluun tallentamiin
tietoihin, ellei toisin määritetä
 S3-palveluun tiedot ladataan HTTPS-protokollalla
 Elastic MapReduce käyttää HTTPS-protokollaa
siirtäessään tietoja S3:n ja EC2:n välillä
 Tiedot voi myös siirtää S3-palveluun salattuina
(crypted), kunhan Elastic MapReduce-ajossa
huolehditaan salauksen purusta ennen datan
käsittelyä (ylimääräinen työvaihe ennen data
käsittelyä)

Toimintamalli vaiheittain
1. Lataa data ja ohjaustiedostot (mapper, reducer
executable:t) S3-palveluun ja pyydä Elastic
MapReducea (EMR) aloittamaan työ
2. EMR käynnistää EC2-klusterin, joka lataa ja ajaa
Hadoopin
3. Hadoop tekee työn lataamalla datan S3:sta EC2-
klusterilla. Dataa voidaan myös ladata
dynaamisesti.
4. Hadoop käsittelee datan ja tallentaa tulokset
klusterista S3:en
5. Työ on valmis ja tulokset ladattavissa S3-sta

ELASTIC MAPREDUCEN
KÄYTTÖÖNOTTO
Miten palvelua käytetään?

Avaa AWS-tili

Mene osoitteeseen http://aws.amazon.com

Klikkaa jompaa kumpaa

...Avaa AWS-tili...

Sähköpostiosoitteestasi tulee
käyttäjätunnuksesi

...Avaa AWS-tili...

Täytä kaikki kentät ja
klikkaa ”Continue”

...Avaa AWS-tili...

• Kun olet kirjautunut sisään, etusivulla aws.amazon.com mene
hallintapaneeliin (management console)

• Päästäksesi käyttämään palveluita (EC2, S3 jne.) täytyy sinun antaa
myös maksutietosi
• Palvelut maksetaan luottokortilla, maksutiedot ovat luottokortin numero,
voimassaoloaika ja turvaluku

AWS – hallintapaneeli

Voit ohjata kaikkia ostamiasi palveluita
(resursseja) web-käyttöliittymällä.

Elastic MapReduce

Alue, jolla haluat Amazonin Valitse Elastic MapReduce-välilehti
palvelimien sijaitsevan

Se, missä palvelimet
sijaitsevat, vaikuttaa
palvelun hintaan ja lisäksi
lainsäädäntö voi vaatia
sinua säilyttämään ja
prosessoimaan datan
esim. EU-alueella

Käytä Elastic MapReducea

Klikkaa aloittaaksesi uuden työn

Vaihe 3. (Configure EC2 Instances)

Vaihe 5. (Review, tarkasta)

Tarkista, että kaikki on kuten haluat ja paina ”Create Job Flow”

ELASTIC MAPREDUCE
VAIHEET TARKEMMIN
Edellä esiteltyjen vaiheiden tarkempi tarkastelu

Vaihe 1. (Define Job Flow)

Sovelluksen nimi

Oma sovellus: Valmiita esimerkkisovelluksia:

Oman sovelluksen vaihtoehdot Tarjolla olevat valmiit esimerkit

Vaihe 2. (Specify Parameters)

Mistä tieto haetaan (S3 bucket)
Mihin tulokset ladataan (S3 bucket)

Mistä Mapper ladataan (S3 bucket)

Mistä Reducer ladataan (S3 bucket)

Lisäargumentit työlle (job)
 Voit lisätä tiedostoja tai kirjastoja Mapper:n
tai Reducer:n käyttöön

Esimerkki Extra Args:
-cacheFile s3n://bucket/polku_tiedostoon#paikallinen_polku
• Tiedosto ladataan ja löytyy työkansiosta nimella ”paikallinen_polku”

-cacheArchive s3n://bucket/polku_kirjastoon#paikallinen_polku
• Kirjasto ladataan ja löytyy työkansiosta kansiosta ”paikallinen_polku”

Kts. http://docs.amazonwebservices.com/ElasticMapReduce/latest/DeveloperGuide/index.html?UsingBootstrapActions.html

Instanssien määrä ja laatu
 Oletuksena instanssien maksimimäärä on 20
 Jos tarvitset enemmän, voi lisäinstansseja pyytää Amazonilta web-lomakkeella

 Instansseista yksi on master- ja muut slave-instansseja
 Jos käytössä vain yksi instanssi, se on molempia

 Master-instanssi jakaa ja valvoo työtä, slave-instanssit
suorittavat sen

 Käyttäjä voi ottaa suoran yhteyden ainoastaan master-
instanssiin
 Tarkastellakseen esim. Hadoopin loki-tiedostoja (log files) tai Hadoopin tarjoamaa
käyttöliittymää


Jos haluat ottaa SSH-salatun yhteyden slave-instanssiin, valitse
avainpari (Key Pair). Jos et ole luonut sellaista, kts. seuraava dia.

Valitse Amazon EC2-välilehti

Valitse alueeksi EU
Käynnistä uusi instanssi
(virtuaalipalvelin)

Luo salausavain (Key Pair)

Anna avainparille nimi

Luo ja lataa avainpari


Valitse intanssi-tyyppi ja instanssien lukumäärä

Instanssityyppejä – tehokkaammat
ovat kalliimpia


S3-kori (bucket), johon yleiset virhetiedot
(debugging) tallennetaan

Jos valitset tämän, tarvitsen
SimpleDB-tilit tietojen
tallentamiseen
(SimpleDB:tä ei käsitellä tässä)

Vaihe 4. (Bootstrap Actions)

Bootstrapit ovat toimintoja, jotka tehdään
ennen kuin työ (job flow) käynnistetään.

Kirjaudu hallintapaneeliin ja luo
S3-bucketit

Luo uusi S3 ”Bucket” datalle ja tuloksille

Luo bucket

Jos haluat datan sijaitsevan
EU-alueella, valitse Irlanti

Kirjaudu hallintapaneeliin ja aloita työ

Klikkaa aloittaaksesi uuden työn

Vaihe 3.

Yksi instanssi, joka on samalla slave ja master

En halua ottaa SSH-yhteyttä

Luo S3-bucket

Jos haluat datan sijaitsevan
EU-alueella, valitse Irlanti

Tulokset S3:ssa (tulokset ”bucket”)

Ote tuloksista

Lähdetiedosto Amazonin tarjoama dokumentti,
josta työ (job flow) oli laskea sanojen
esiintymistiheys.

Lisää aiheesta jatkokursseilla.

Pilvipalvelut : AWS Elastic MapReduce

More Related Content

Viewers also liked

Similar to Pilvipalvelut : AWS Elastic MapReduce

More from Immo Salo

Pilvipalvelut : AWS Elastic MapReduce