• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Spracovanie velkych dat MONOGRAM Tech Monday 27.07.2011
 

Spracovanie velkych dat MONOGRAM Tech Monday 27.07.2011

on

  • 2,649 views

 

Statistics

Views

Total Views
2,649
Views on SlideShare
1,025
Embed Views
1,624

Actions

Likes
0
Downloads
0
Comments
0

8 Embeds 1,624

http://www.tomaj.sk 1024
http://blog.tomaj.sk 574
http://abtasty.com 17
http://tomasmajer.tumblr.com 4
http://tomaj.sk.data1.websupport.sk 2
http://translate.googleusercontent.com 1
http://www.wws-lexikon.de 1
http://yandex.ru 1
More...

Accessibility

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Spracovanie velkych dat MONOGRAM Tech Monday 27.07.2011 Spracovanie velkych dat MONOGRAM Tech Monday 27.07.2011 Presentation Transcript

    • Spracovanie veľkých dát Tomáš Majer MONOGRAM Tech. Monday 25.7.2011Monday, July 25, 11
    • Čo sú veľké dáta ✤ Tomajová definicia ✤ Také dáta, ktoré: nevojdú na jeden stroj, alebo sa s nedá s nimi pracovať v reálnom čase na jednom strojiMonday, July 25, 11
    • Prečo sú dôležité? ✤ Dát je stále viac a viac ✤ Web 2.0 - sociálny aspekt webu zabezpečuje vytváranie obrovského množstva použiteľných dát ✤ Jednoduchý príklad: Facebook ✤ 135 bilionov správ za mesiac ✤ 20 bilionov udalostí za deň - 200 000 za sekunduMonday, July 25, 11
    • Nárast Facebooku Nové data za ďen (GB) 4,000 3,000 2,000 1,000 Marec 2008 Apríl 2009 0 Október 2009Monday, July 25, 11
    • Ako ukladať veľké dáta ✤ SQL  databázy  trpia  základnym  problémom  so  škálovateĺnosťou ✤ NoSQL - “ľahko” škálovateĺné - vhodné pre veľké dátaMonday, July 25, 11
    • Monday, July 25, 11
    • NoSQL ✤ Viaceré typy ✤ document oriented, column oriented, graph oriented, key-value ✤ Vysoký výkon ✤ Obmedzené možnosti - oproti SQL databázam ✤ Neexistuje štandard pre prácu s dátami ✤ V praxi sa osvedčila kombinácia NoSQL s SQLMonday, July 25, 11
    • Google MapReduce 2004 Google vydal paper: MapReduce: Simplified Data Processing on Large ClustersMonday, July 25, 11
    • Ciele MapReduce ✤ Rozložiť výpočet medzi viacero strojov - nodov ✤ Jednoduchý framework, ktorý zabezpečí jednoduché písanie takéhoto kódu ✤ Horizontálna škálovateľnosťMonday, July 25, 11
    • Ako teda funguje MapReduce?Monday, July 25, 11
    • ✤ Existuje viacero nodov, ktoré môžu robiť viacero vecí ✤ 2 základne úlohy ✤ Map job ✤ vstupný vektor <key1, value1> ✤ výstupný zoznam vektorov <key2, value2> ✤ Reduce job ✤ vstupný vektor <key2, <zoznam hodnot z maperov s výstupom key2>> ✤ výstupný zoznam vektorov <key3, value3>Monday, July 25, 11
    • Jednoduchý príklad - spočítanie slov void map(String name, String document): // name: document name // document: document contents for each word w in document: EmitIntermediate(w, "1"); void reduce(String word, Iterator partialCounts): // word: a word // partialCounts: a list of aggregated partial counts int sum = 0; for each pc in partialCounts: sum += ParseInt(pc); Emit(word, AsString(sum));Monday, July 25, 11
    • Monday, July 25, 11
    • Jednoduché MapReduce príklady ✤ Distribuovaný grep ✤ Sčítanie návštev pre URL ✤ mapper <URL, 1> ✤ reducer <URL, celkový počet návštev> ✤ Graf väzieb stránok ✤ mapper <cieľ, zdroj> ✤ reducer <cieľ, zoznam zdrojov>Monday, July 25, 11
    • Moje skúsenosti s MapReduce?Monday, July 25, 11
    • Diplomovka ✤ Práca s Twitter Datasetom ✤ takmer 30 GB textový subor ✤ ďalšie pár sto megové csvcka ✤ implementácia viacerých Mapperov a Reducerov pre výpočet ohodnotenia stránok pomocou tweetov z mikrobloguMonday, July 25, 11
    • Apache HADOOPMonday, July 25, 11
    • ✤ Open source MapReduce framework ✤ Napísaný v Jave ✤ Podporuje aj iné jazyky ✤ Využívajú ho dnes okrem Google-u takmer všetci veľký IT hráčí: ✤ Facebook, Twitter, LinkedIn, Adobe, Amazon, Apple, eBay, Hulu, IBM, Last.fm, Yahoo a strašne veľa ďalšíchMonday, July 25, 11
    • Hadoop zahŕňa celý ekosystém Hadoop zah DateMonday, July 25, 11
    • HDFS ✤ Vychádza z GFS - Google File Systém ✤ Distribuovaný file systém ✤ Rieši čo kde bude uložené a koľkokrát ✤ Virtuálny file systémMonday, July 25, 11
    • HIVE ✤ SQL nad “NoSQL” dátami ✤ súbory, SQL Databázy... ✤ Podporuje SELECT, JOIN, GROUP BY.. ✤ Vyvinul FacebookMonday, July 25, 11
    • HBase ✤ NoSQL column oriented databáza ✤ Vychádza z Google BigTable ✤ podľa mňa asi najviac “enterprise” NoSQLMonday, July 25, 11
    • Ďalšie ✤ Mahout - knižnica s MapReduce jobmi pre strojové učenie ✤ Pig - prasačiny ;-) vlastný jazyk pre ľahkú prácu s dátami ✤ Chuckwa - zberač logov ✤ ZooKeeper - drží všetko pohromade ;-) rieši zamykanie, synchornizáciu atď... ✤ Avro - serializérMonday, July 25, 11
    • Záver ✤ Dát je veľa - distribuované výpočty sú nevyhnutnosťou ✤ Problematické uloženie dát - NoSQL ✤ Hadoop - framework s celým ekosystémom pre distribuované výpočty založený na MapReduceMonday, July 25, 11