7. Big
Data-‐määritelmiä
"Big data technologies describe a new generation of technologies and
architectures, designed to economically extract value from very large
volumes of a wide variety of data, by enabling high-velocity capture,
discovery, and/or analysis"
IDC
"Big Data is a technology that helps extract value from the digital universe.”
IDC
"Techniques and technologies that make handling data at extreme scale
economical."
Forrester
8. Gartnerin
top
10
strategista
teknologiaa
2012
1. Media
Tablets
and
Beyond
2. Mobile-‐Centric
Applica/ons
and
Interfaces
3. Contextual
and
Social
User
Experience
4. Internet
of
Things
5. App
Stores
and
Marketplaces
6. Next-‐Genera/on
Analy/cs
7. Big
Data
8. In-‐Memory
Compu/ng
9. Extreme
Low-‐Energy
Servers
10.Cloud
Compu/ng
9. Gartnerin
top
10
strategista
teknologiaa
2013
1. Mobile
Devices
Ba7les
2. Mobile
Applica/ons
and
HTML5
3. Personal
Cloud
4. Internet
of
Things
5. Hybrid
IT
and
Cloud
Compu/ng
6. Strategic
Big
Data
7. Ac/onable
Analy/cs
8. Mainstream
In-‐Memory
Compu/ng
9. Integrated
Ecosystems
10.
Enterprise
App
Stores
15. Osaajapula
uhkaa
“There will be a shortage of talent necessary for
organizations to take advantage of big data. By 2018,
the United States alone could face a shortage of
140,000 to 190,000 people with deep analytical skills
as well as 1.5 million managers and analysts with the
know-how to use the analysis of big data to make
effective decisions.”
Lähde: McKinsey
17. Big
Datan
ABC
• Analy/cs
(analy2ikka)
• Data
pitää
jalostaa
informaa2oksi,
2edoksi
ja
ymmärrykseksi.
Visualisoin2,
konkre2soin2,
ennusteiden
tekeminen,
tunnuslukujen
laskeminen,
korrelaa2oiden
hakeminen...
• Bandwidth
(2etoliikenne)
• Suurten
2etomäärien
liiku=elu
on
yhä
useammin
pullonkaula.
Lähtökohtainen
päätös
siitä,
missä
2etoja
säilytetään
ja
missä
niitä
prosessoidaan
on
yhtä
merki=ävä
kuin
käytetyt
teknologiat
ja
analyysin
hyödyntämiskohteet.
• Content
(sisältö)
• Edelleen
suuri
osa
2edosta
säilytetään,
mu=a
jätetään
käy=ämä=ä
tai
vielä
pahempaa:
heitetään
hukkaan
ilman
ensimmäistäkään
analyysia.
Lähde: Netapp.com
18. Big
Datan
kolme
V-‐kirjainta
(3V)
• Variety
(vaihtelevuus)
• Dataa
on
strukturoitua
ja
strukturoimatonta.
Molempia
pitää
pystyä
hyödyntämään.
• Velocity
(vauh2)
• Datan
määrä
kasvaa
vauhdilla
ja
sitä
tulee
lukema=omista
lähteistä.
Lähes
reaaliaikaisen
analyysi
tavoi=eena.
• Volume
(voluumi)
• Data
pitää
pystyä
analysoimaan
ja
säily=ämään
myöhempää
käy=öä
varten.
Lähde: Netapp.com
23. Hadoop
• Avoimen
lähdekoodin
Apache-‐projek/,
joka
on
ehkä
tunnetuin
yksi7äinen
tuotenimi
Big
Data-‐tarjoomista
• Tarkoite7u
suurten
datamäärien
hajaute7uun
prosessoin/in
• Asennetaan
palvelinklusteriin,
joka
on
vikasietoinen
eli
yksi7äisen
palvelimen
vikaantuminen
ei
hai7aa
• Kolme
alaprojek/a
1. Hadoop
Common
2. Hadoop
Distributed
Filesystem
3. Hadoop
MapReduce
25. Hadoop:
arkkitehtuuri
Master Master
Task tracker Task tracker
Job tracker
MapReduce
HDFS Name node
Data node Data node
26. Mihin
Hadoop
parhaiten
sopii?
• Hadoop on klusteriarkkitehtuurin toteuttava ohjelmisto
• Käyttökelpoinen kun...
• Nopeus on valttia
• Tarvitaan skaalautuvuutta!
• Vikasietoisuus on arvokasta
• Analysoitavaa dataa on paljon
• Laitteistoriippumattomuus(?) kiinnostaa
• Nopeasti kehittyvä ekosysteemi koetaan hyödylliseksi
27. Hadoopin
sisarprojekRt
• HBase
• Hive
• Pig
• Zookeeper
Mitkä ihmeen sisarprojektit? Pelkkä Hadoop on sopimaton moniin
käyttötarkoituksiin ja hyödyntää huonosti olemassa olevaa
osaamista. Sisarprojektit parantavat hallittavuutta, lisäävät
toiminnallisuuksia ja helpottavat käyttöä.
28. Ketkä
käyFävät
Hadoopia?
• Facebook
• Walmart
• eBay
• Yahoo
• Hadoop ei millään tavalla ole sidottu suurten yritysten
käyttöön!
• http://wiki.apache.org/hadoop/PoweredBy
30. Hadoop-‐ekosysteemi
• Moni startup-yritys on rakentanut liiketoimintansa Hadoopin
ympärille
• Cloudera
• Hortonworks
• MapR
• Hadoop on mukana suuressa osassa big data -tuotteita ja
palveluita
• Oracle Big Data Appliance (Cloudera)
• Teradata Aster Big Analytics Appliance (Hortonworks)
• IBM InfoSphere BigInsights (Cloudera)
• Microsoft Azure Hadoop (HDInsight) (Hortonworks)
• Amazon Web Services EMR (MapR)
33. Hadoop-‐pilvipalveluiden
käyFö
Edut Riskit
• Ei investointeja • Tietoturva
• Nopea käyttöönotto • Luottamus
• Valmis konfiguraatio • SLA
• Mahdolliset rajapinnat muihin • Latenssi
palveluihin (esim. S3-tuki) • Mahdollisuus palveluehto- ja muihin
• Mahdollisuus käyttää sopimuksellisiin muutoksiin
analysointivoimaa myös muuhun kuin • Palvelukatkokset ja muut tekniset
organisaation omaan dataan ongelmat
• Mahdolliset lisäarvoa tuottavat • Rajoitettu kustomoitavuus
lisäpalvelut
34. Oma
Hadoop-‐klusteri
pilvipalveluna
• Välimuoto pilvipalveluna tarjottavalle klusterille (AWS EMR
tai Microsoft Windows Azure)
• Rakennetaan oma klusteri pilvipalveluna saatavilla oleville
palvelimille
Edut Riskit
• Kts. edellinen kalvo • Kts. edellinen kalvo
Haasteena konfigurointi ja ylläpito
(kuten omassakin klusterissa, mutta pahempi)
36. Google
BigQuery
• “Google
BigQuery
is
a
web
service
that
lets
you
do
interac2ve
analysis
of
massive
datasets
—up
to
billions
of
rows.
Scalable
and
easy
to
use,
BigQuery
lets
developers
and
businesses
tap
into
powerful
data
analy2cs
on
demand.”
Tarjolla
• Selainkäy7ölii7ymä
• Browser
Tool
• Komentorivityökalu
• bq
command-‐line
tool
• API