Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Big Data: Realitats i Reptes

1,543 views

Published on

Aquests setmana m'han convidat a les XII Jornades Fòrum Català d'Informació i Salut per fer la conferència inaugural al CosmoCaixa. Com sempre que puc deixo a l'abast de tothom les transparències per si són del seu interés. Gràcies a la junta de Fòrum CIS per convidar-me, va ser molt enriquidor també per a mi la participació.

Published in: Technology
  • Be the first to comment

Big Data: Realitats i Reptes

  1. 1.         Jordi  Torres   www.JordiTorres.eu   Big Data: realitats i reptes
  2. 2.         Jordi  Torres   www.JordiTorres.eu   Big Data: realitats i reptes
  3. 3. On podem fer un primer tast de Big Data?
  4. 4. www.google.es/trends    
  5. 5. Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics   Font:     Red  Nacional  de  Vigilancia     Epidemiológica     Ins6tuto    de  Salud  Carlos  III  
  6. 6. Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics   Font:     Red  Nacional  de  Vigilancia     Epidemiológica  Ins6tuto     de  Salud  Carlos  III   www.google.es/trends    
  7. 7. Source:  @NewsReputa6on  –  Blog  SM  Reputa6on  Metrics   Font:     Red  Nacional  de  Vigilancia     Epidemiológica  Ins6tuto     de  Salud  Carlos  III   www.google.es/trends     ¿?  
  8. 8. De què parlem quan parlem de Big Data?
  9. 9. Ens  referim  al   conjunts  de  dades   tan  grans  i  tan   complexos  que  fa   molt  di6cil  el  seu   processat  “ú9l”   amb  les  eines  TIC   convencionals.  
  10. 10. Per  exemple,  algunes   xifres  en  Salut:     •  Ac6vitat  Hospitalària             –  Altes  732.684                   –  Visites  3.739.053                   –  Urgències  3.243.778   •  Visites  Atenció  Primària        44.884.529   •  Receptes          141.914.284  Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can   -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  
  11. 11. UNA  REALITAT:     Els  pacients  i  els   hospitals  tenen  grans   Volums  de  dades   clíniques,  en  paper  o   electròniques       Però…    que  romanen  sense   u6litzar  “del  tot”  per   la  dificultat  de   "digerir”-­‐les  de   manera  efec6va.   Source:  hWp://www.theatlan6c.com/health/archive/2012/05/big-­‐data-­‐can   -­‐save-­‐health-­‐care-­‐0151-­‐but-­‐at-­‐what-­‐cost-­‐to-­‐privacy/257621/  
  12. 12. 13 No només parlem de ”Volum”, també de parlem de “Varietat” Dades estructurades •  són les dades clàssics dels pacients (nom, edat, sexe ...) Dades no estructurats •  receptes de paper •  els registres mèdics •  les notes manuscrites i de veu de metges i infermeres •  Imatges mèdiques: radiografies, escàners, RM, TAC … •  …
  13. 13. i també de “Velocitat” Nou allau de dades que provenen de: •  dispositius, •  sensors, •  fitness, •  aparells mèdics diversos, •  dades hospitalàries •  ... I cal sumar les dades procedents de: •  els mitjans socials •  dels telèfons intel.ligents, •  d'àrees com la genòmica, •  etc, etc, etc. Source:cetemma-mataró
  14. 14. Definició de Big Data?
  15. 15. BIG  DATA:  3V     Velocity   Volume   Variety  
  16. 16. Altres reptes a tenir en compte?
  17. 17. La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  … Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html
  18. 18. La transferència de dades d’un lloc a un altre –  Enviament de dades enviant discos físics per correus! –  … –  Futur? Les dades no seran mogudes! Source: http://footage.shutterstock.com/clip-4721783-stock-footage-animation-presents-data- transfer-between-a-computer-and-a-cloud-a-concept-of-cloud-computing.html
  19. 19. Seguretat i privacitat de les dades dels individus –  Els mateixos problemes que apareixen en altres arees –  Solució? Us d’algoritmes d’encriptació avançats? HSM? Source: http://www.tbase.com/corporate/privacy-and-security
  20. 20. Augment de la necessitat d’emmagatzemar dades –  Han sorgit solucions de computació en el cloud. Source:http:// www.custodia-documental.com/wp-content/uploads/Cloud-Big-Data.jpg
  21. 21. Els inhibidors de Cloud Computing més comuns han de ser abordats aquí també Security   Privacy   Lack  of   Standards   Data   Integrity   Regulatory   Data   Recovery   Control   Vendor   Maturity   ...  
  22. 22. Quina és la utilitat del Big Data?
  23. 23. Crear “Valor” a partir de les dades
  24. 24. DERIVAR  VALOR  MITJANÇANT     L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        
  25. 25. La  informació  no   és  “acTonable   knowledge”   DERIVAR  VALOR  MITJANÇANT     L’APROFITAMENT  DE:                              VOLUME,                                      VARIETY  AND                                                VELOCITY        
  26. 26. 28                                                                                                     Knowledge   Informa6on   Data   + Volume - + - Value Realitza prediccions dels resultats i comportaments Enfoc: Machine Learning "funciona" en el sentit que aquests mètodes detecten estructura subtil en les dades amb relativa facilitat sense haver de fer suposicions fortes sobre els paràmetres de les distribucions
  27. 27. Quin és el repte real darrera de tot plegat?
  28. 28. The big data problem: In the end it is a Computing Challenge
  29. 29. Exemple: Genòmica –  Més de 2000 punts de sequenciació arreu –  Més de 15 petabytes/any de dades genètiques I en breu…, decenes de centenars de sequenciadors!!! Image source: https://share.sandia.gov/news/resources/ news_releases/images/2009/biofuel_genes.jpg
  30. 30. 1 Petabyte = 1000 x (1 Terabyte )
  31. 31. assume 100MB/sec
  32. 32. more than 5 hours assume 100MB/sec scanning 1 Terabyte:
  33. 33. scanning 1 Petabyte: more than 5.000 hours
  34. 34. Suposem 10.000 discos: Llegir 1 TB requereix 1 segon Paral.lelisme massiu Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg   Solució?
  35. 35. Quins avenços ens esperen en el sector TIC? (*) apartat dedicat als TIC de la sala ;-)
  36. 36. 38 Tres grups d’ avenços: Processat de dades mitjançant centenars de milers de servidors Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament. Noves insfrastructures de sistemes
  37. 37. Com s’ho fa google per programar tenint en compte que les dades provenen de 10.000 discos en paral.lel? Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  
  38. 38. How do companies like google read and process data from 10.000 disks in parallel? Source:  hWp://www.google.com/about/datacenters/gallery/images/_2000/IDI_018.jpg  
  39. 39. I el processat en temps real? Execució d’una consulta a una base de dades Temps real Source:Scalability Challenges for Big Data Science – BerlinBuzzwords, June 4, 2012 © 2012 by Mikio L. Braun –  Storm –  Kafka –  S4 –  Spark –  Sur –  Kinesis –  SAMOA –  …
  40. 40. 42 Tres grups d’ avenços: Processat de dades mitjançant centenars de milers de servidors Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament. Noves insfrastructures de sistemes
  41. 41. Big Data resource management Les Bases de Dades relacionals no són adequades per a problemes de Big Data à Non-relational databases (NoSQL) Relaxing consistencyàEventual consistency Big Data characteristics Requirements from data store Volume Scalability Variety Scheme-less Velocity Relaxed consistency & capacity to digest NoSQL     Systems  
  42. 42. 44 Tres grups d’ avenços: Processat de dades mitjançant centenars de milers de servidors Manegament de dades mitjançant centenars de milers de dispositius d’emmagatzemament. Noves insfrastructures de sistemes
  43. 43. “Active Storage Fabrics” Active Storage Fabric Compute Dense Compute Fabric Archival Storage Disk/Tape volution of Flash Adoption F L A S H A S M E M O R Y F L A S H + D I S K F L A S H A S D I S K
  44. 44. Important: Remote Nodes Have Gotten Closer •  La interconnexió ha esdevingut més ràpida •  La latència d’una IB és aprox. 2000ns, que és només 20x més lenta que la RAM i 100x més ràpida que els SSD Source: http://www.slideshare.net/blopeur/hecatonchire-kvm-forum2012benoithudzia
  45. 45. Cap a on anem a nivell tecnològic?
  46. 46. (1) Nou paradigma de la computació Old Compute-centric Model New Data-centric Model Massive Parallelism Persistent Memory Flash Manycore FPGA Source: Heiko Joerg http://www.slideshare.net/schihei/petascale-analytics-the-world-of-big-data-requires-big-analytics
  47. 47. Internet of Things (2) Internet of Things: Tot connectat al Cloud!
  48. 48. Future of Cloud: “Fog” Computing?(3) O tot serà Cloud? (Fog computing?)
  49. 49. Parin  atenció     a  la    “moguda  de  IoT”  !  
  50. 50. … en molt pocs anys portarem tota la tecnologia (ordinador, telèfon, càmera…) sempre a sobre a través del rellotge, roba, ulleres... Pas previ per a portar-ho insertat en la pell? Gran impacte en el seu sector, veritat?
  51. 51. I per acabar...
  52. 52. Infinites! tant per a l'àrea mèdica, com també per a les àrees d'anàlisi de dades (històries mèdiques, anàlisis clíniques ...), la gestió de centres de salut, l'administració hospitalària, la documentació científica (generació, emmagatzematge i explotació) .. Oportunitats d’usar el Big Data en el seu sector?
  53. 53. Per exemple: combinant les dades tradicionals amb altres de noves tant a nivell individual com poblacional realitzant la integració de dades estructurades i no estructurades Etc.
  54. 54. Sense oblidar la Internet de les Coses com un dels pilars dels Big Data: –  Utilització de xips per monitoritzar pacients. –  en els centres hospitalaris, ajudant a les cures mèdiques tant presencials com en el propi domicili del malalt. que per exemple permetrà acumular més dades dels pacients i amb això millorar el diagnòstic previ gràcies a l'anàlisi comparativa de perfils amb el mateix diagnòstic Source:cetemma-mataró
  55. 55. Com ho veuen? Gràcies per la seva atenció Trobaran les transparències a www.JordiTorres.eu i @JordiTorresBCN

×