• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Hadoop
 

Hadoop

on

  • 1,495 views

 

Statistics

Views

Total Views
1,495
Views on SlideShare
1,380
Embed Views
115

Actions

Likes
0
Downloads
15
Comments
0

5 Embeds 115

http://barcamp.lt 111
http://feeds.feedburner.com 1
http://gama.startups.lt 1
http://new.pifas.lt 1
http://www.slideshare.net 1

Accessibility

Categories

Upload Details

Uploaded via as Microsoft PowerPoint

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Hadoop Hadoop Presentation Transcript

    • Valdas Vaivaras sban.com Distributed computing su Hadoop
    • Problema Nr. 1
      • Didelės apimties informaciją.
      • Nuskaitymas ir įrašymas į kietąjį diską daug lėtesnis negu duomenų apdorojimo sparta.
    • Sprendimas
      • Vietoj vieno HDD naudoti 100, 1000…
      • 1 HDD – 75Mb/s
      • 1000 HDD – 75Gb/s
      Procesas prie duomenų, o ne duomenys prie proceso.
    • Problema Nr. 2
      • Reikia parašyti ne tik pačia aplikaciją, bet ir duomenų paskirstymo aplikaciją.
      • Taigi, reikia būti dviejų sričių specialstu.
    • Kas yra Hadoop?
      • Hadoop yra atviro-kodo Google MapReduce implementacija, kurią sukūrė Apache.
      • Naudojant Hadoop, high-level programuotoju i nereikia gilitnis į paskirst ymo sistemą (distributed computing) .
      • Šiuo metu Hadoop naudoja daugybė stambių įmonių, tarp kurių tokios kaip: Facebook, Amazon,Yahoo, IBM, veoh...
      • Naudojama:
      • Log ų procesingas
      • Interneto crawlinimas ir indeksavimas
      • Data warehousingas
      • Pagrindiniai algoritmai:
      • Entity-Reduce
      • Sort
      • Join
      • Inverted Index
    • Hadoop failų sistema (HDFS) Slave Node Slave Node Slave Node Slave Node Slave Node Client HDFS Slave Node Master Node
    • MapReduce
      • MapReduce programa apdoroja duomenis esančius HDFS.
      • MapReduce užduotį atlieka per du etapus Map ir Reduce.
      • Kiekviename etape naudojama rakto ir reikšmės (key-value) įvestis ir įšvestis.
    • MAP map (in_key, in_value) -> (out_key, intermediate_value) list
    • Pavyzdys: Explode Mapper
      • let map (k, v) =
      • foreach char c in v:
      • emit ( c , 1 )
      • (“A”, “bar”)  (“b” ,1 ), (“a” ,1 ), (“r” ,1 )
      • (“B”, “camp”)  (“c” ,1 ), (“a” ,1 ),
      •  (“m” ,1 ), (“p” ,1 )
    • REDUCE reduce (out_key, intermediate_value list) -> out_value list
    • Pavyzdys : Sum Reducer
      • let reduce(k , vals ) =
      • sum = 0
      • foreach int v in vals:
      • sum += v
      • emit (k, sum)
      • ( “a” [1,1] )  (“ a ”, 2 ) (“ m ”, [ 1 ])  (“ m ”, 1 )
      • (“ b ”, [ 1 ])  (“ b ”, 1 ) (“ p ”, [ 1 ])  (“ p ”, 1 )
      • (“ c ”, [ 1 ])  (“ c ”, 1 ) (“ r ”, [ 1 ])  (“ r ”, 1 )
    • DEMO