BigData

2,966 views

Published on

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
2,966
On SlideShare
0
From Embeds
0
Number of Embeds
519
Actions
Shares
0
Downloads
57
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

BigData

  1. 1. BigData Svet Ivantchev, eFaber UniEE, 15 de marzo de 2011miércoles 16 de marzo de 2011
  2. 2. miércoles 16 de marzo de 2011
  3. 3. miércoles 16 de marzo de 2011
  4. 4. miércoles 16 de marzo de 2011
  5. 5. miércoles 16 de marzo de 2011
  6. 6. iMac 2000 vs iPhone 2010miércoles 16 de marzo de 2011
  7. 7. http://www.washingtonpost.com/wp-dyn/content/article/2011/02/10/AR2011021004916.htmlmiércoles 16 de marzo de 2011
  8. 8. miércoles 16 de marzo de 2011
  9. 9. miércoles 16 de marzo de 2011
  10. 10. Tipo de información • Información [no]estructurada • Interna vs externa • Encyclopedia Britannica vs Wikipediamiércoles 16 de marzo de 2011
  11. 11. BigData Cuando las viejas técnicas ya no nos valen captura - almacenamiento - transformación - análisis - visualizaciónmiércoles 16 de marzo de 2011
  12. 12. Con que “pagamos” • Conceptos • cambios en la infraestructura • noSQL • MapReduce • mucho más ...miércoles 16 de marzo de 2011
  13. 13. Infraestructura • “El servidor” vs VMs de “usar y tirar” • Backup: super-RAID+super-Backup vs multiples copias • Libertad de experimentar con nuevas herramientas (macroscopes) • Ancho de banda: HDD, Internet o Seurmiércoles 16 de marzo de 2011
  14. 14. Idea de MapReduce http://blog.jteam.nl/2009/08/04/introduction-to-hadoop/miércoles 16 de marzo de 2011
  15. 15. BD Relacional MapReduce Tamaño Gigabytes (10^9) Petabytes (10^15) Acceso Interactivo y Batch Batch Rectura y escritura Pocas escrituras, Actualizaciones múltiple muchas lecturas Estuctura Estática Dinámica Integridad Alta Baja Escalado Nolineal Lineal Hadoop:The Definitive Guide, O’Reilly, 2010miércoles 16 de marzo de 2011
  16. 16. miércoles 16 de marzo de 2011
  17. 17. miércoles 16 de marzo de 2011
  18. 18. miércoles 16 de marzo de 2011
  19. 19. miércoles 16 de marzo de 2011
  20. 20. miércoles 16 de marzo de 2011
  21. 21. miércoles 16 de marzo de 2011
  22. 22. miércoles 16 de marzo de 2011
  23. 23. miércoles 16 de marzo de 2011
  24. 24. CouchDB/Couchbase http://www.couchbase.com/downloads http://www.couchbase.com/downloadsmiércoles 16 de marzo de 2011
  25. 25. miércoles 16 de marzo de 2011
  26. 26. Demomiércoles 16 de marzo de 2011
  27. 27. miércoles 16 de marzo de 2011
  28. 28. miércoles 16 de marzo de 2011
  29. 29. miércoles 16 de marzo de 2011
  30. 30. miércoles 16 de marzo de 2011
  31. 31. miércoles 16 de marzo de 2011
  32. 32. miércoles 16 de marzo de 2011
  33. 33. miércoles 16 de marzo de 2011
  34. 34. miércoles 16 de marzo de 2011
  35. 35. miércoles 16 de marzo de 2011
  36. 36. miércoles 16 de marzo de 2011
  37. 37. miércoles 16 de marzo de 2011
  38. 38. miércoles 16 de marzo de 2011
  39. 39. miércoles 16 de marzo de 2011
  40. 40. miércoles 16 de marzo de 2011
  41. 41. Google Books • 129 000 000 libros publicados • 15 000 000 libros escaneados (1700-2010) • 5 000 000 analizados con sus metadatosmiércoles 16 de marzo de 2011
  42. 42. http://ngrams.googlelabs.com/miércoles 16 de marzo de 2011
  43. 43. miércoles 16 de marzo de 2011
  44. 44. miércoles 16 de marzo de 2011
  45. 45. DIY • Amazon EC2 • Amazon S3 • Apache Hadoop y Hive • Amazon Elastic MapReducemiércoles 16 de marzo de 2011
  46. 46. http://ngrams.googlelabs.com/datasetsmiércoles 16 de marzo de 2011
  47. 47. miércoles 16 de marzo de 2011
  48. 48. Tendencias Siglo XX elastic-mapreduce --create --alive --hive-interactive --hive-versions 0.7 elastic-mapreduce --list mi-flow-id elastic-mapreduce --ssh mi-flow-id $ hive hive> set hive.base.inputformat=org.apache.hadoop.hive.ql.io.HiveInputFormat; hive> set mapred.min.split.size=134217728; http://aws.amazon.com/articles/5249664154115844miércoles 16 de marzo de 2011
  49. 49. CREATE EXTERNAL TABLE english_1grams ( gram string, year int, occurrences bigint, pages bigint, books bigint ) ROW FORMAT DELIMITED FIELDS TERMINATED BY t STORED AS SEQUENCEFILE LOCATION s3://datasets.elasticmapreduce/ngrams/books/20090715/eng-all/1gram/;miércoles 16 de marzo de 2011
  50. 50. CREATE TABLE normalized ( gram string, year int, occurrences bigint ); INSERT OVERWRITE TABLE normalized SELECT lower(gram), year, occurrences FROM english_1grams WHERE year >= 1890 AND gram REGEXP "^[A-Za-z+-]+$";miércoles 16 de marzo de 2011
  51. 51. CREATE TABLE by_decade ( gram string, decade int, ratio double ); INSERT OVERWRITE TABLE by_decade SELECT a.gram, b.decade, sum(a.occurrences) / b.total FROM normalized a JOIN ( SELECT substr(year, 0, 3) as decade, sum(occurrences) as total FROM normalized GROUP BY substr(year, 0, 3) ) b ON substr(a.year, 0, 3) = b.decade GROUP BY a.gram, b.decade, b.total;miércoles 16 de marzo de 2011
  52. 52. SELECT a.gram as gram, a.decade as decade, a.ratio as ratio, a.ratio / b.ratio as increase FROM by_decade a JOIN by_decade b ON a.gram = b.gram and a.decade - 1 = b.decade WHERE a.ratio > 0.000001 and a.decade >= 190 DISTRIBUTE BY decade SORT BY decade ASC, increase DESC;miércoles 16 de marzo de 2011
  53. 53. 1900 radium, ionization, automobiles, petrol, archivo, automobile, electrons, mukden, anopheles, marconi, botha, ladysmith, lhasa, boxers, suprema, aboord, rotor, turkes, wireless, conveyor, manchurian, erythrocytes, shoare, thirtie, kop, tuskegee, thorium, audiencia, bvo, arteriosclerosis 1910 cowperwood, britling, boches, montessori, venizelos, bolsheviki, salvarsan, photoplay, pacifists, joffre, petrograd, pacifist, bolshevism, airmen, kerensky, foch, boche, serbia, serbian, hindenburg, madero, serbians, bombing, ameen, anaphylaxis, aviators, syndicalism, aviator, biplane, taxi 1920 bacteriophage, fascist, mussolini, fascism, sablin, latvia, insulin, peyrol, volstead, czechoslovakia, iraq, vitamin, kenya, curricular, swaraj, reparations, broadcasting, slovakia, vitamins, gandhi, automotive, kemal, zoning, jazz, isotopes, isoelectric, airscrew, shivaji, czechoslovak, stabilization 1930 dollfuss, goebbels, manchukuo, hitler, sudeten, hitlers, rearmament, nazis, wpa, nazi, nra, manchoukuo totalitarian, pwa, tva, stalins, peiping, homeroom, kulaks, stalin, devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol, reichswehr, ussr, businessmenmiércoles 16 de marzo de 2011
  54. 54. 1930 dollfuss, goebbels, manchukuo, hitler, sudeten, hitlers, rearmament, nazis, wpa, nazi, nra, manchoukuo totalitarian, pwa, tva, stalins, peiping, homeroom, kulaks, stalin, devaluation, bta, carotene, broadcasts, corporative, comintern, ergosterol, reichswehr, ussr, businessmen 1940 waveguide, luftwaffe, plutonium, streptomycin, darlan, gaulle, beachhead, lanny, jeeps, penicillin, alamein, radar, bandwidth, psia, thiamine, quisling, sulfathiazole, wpb, airborne, jeep, aftr, bdg, tobruk, pakistan, sulfonamides, evacuees, guadalcanal, airfields, unesco, rommel 1950 qumran, transistors, chlorpromazine, transistor, automation, terramycin, chloramphenicol, khrushchev, reserpine, pradesh, nasser, vietnamese, shri, uttar, madhya, vietnam, adenauer, aureomycin, nato, annexure, dna, edc, rna, biophys, pyarelal, cortisone, semiconductors, rajasthan, minh 1960 tshombe, bhupesh, vietcong, lumumba, ribosomal, lasers, ribosomes, ieee, aerospace, malawi, thant, fortran, zambia, medicare, lysosomes, nlf, laser, tanzania, efta, oecd, astronaut, teilhard, goldwater, programed, uar, software, autoimmune, spacecraft, eec, nasamiércoles 16 de marzo de 2011
  55. 55. 1970 biofeedback, sexist, sexism, multinationals, namibia, bangladesh, microprocessor, watergate, chicano, lifestyle, cytosol, medicaid, trh, chicanos, plasmid, jovanovich, ldcs, apg, pediatr, cyclase, isbn, immunotherapy, prostaglandin, opec, prostaglandins, gentamicin, bangla, radioimmunoassay, epa, ophthalmol 1980 htlv, dbase, interleukin, spreadsheet, vlsi, videotex, calmodulin, sandinistas, contras, isdn, gorbachevs, sandinista, gorbachev, workstation, workstations, fsln, captopril, hybridoma, ifn, robotics, kda, fibronectin, khomeini, sql, robotic, oncogenes, rajiv, xiaoping, unix, microsoft 1990 netscape, cyberspace, html, endothelin, toolbar, biodiversity, mpeg, tqm, harpercollins, applet, reengineering, nafta, http, c++, newsgroups, gallopade, belarus, internet, apec, url, yeltsin, adhd, apoptosis, integrin, usenet, hypermedia, globalisation, netware, africanamerican, myanmar 2000 bibliobazaar, itunes, cengage, qaeda, wsdl, aspx, xslt, actionscript, xpath, sharepoint, blogs, easyread, ipod, xhtml, blog, rfid, google, writeline, proteomics, bluetooth, voip, microarray, mysql, microarrays, putin, dreamweaver, dvds, ejb, xml, osamamiércoles 16 de marzo de 2011
  56. 56. Q &Amiércoles 16 de marzo de 2011

×