Big Data e Calcolo ParalleloLuigi RoggiaThursday, May 9, 13
Tempi che cambiano...I sistemi informatici di ieri non sono più idonei a gestire le esigenzeinformative odierneOggi più ch...
L’invasione dei datiOgni giorno il mondo in cuiviviamo e lavoriamo produceincessantemente datiEsiste una netta differenza t...
Big data e dati in generaleNon esiste una definizione quantitaviva di quando un dataset diventiun large dataset; il termin...
Database relazionali e nonEsiste molta confusione su cosa sia effettivamente un database e suquanto sia importante un vero ...
Database relazionale...?id_colore codice_colore descrizione_colore1 K0123 Grigio Argento2 S9111 Nero Notte3 L0091 Rosso Fu...
Hardware e architettura di sistemaIl mondo informatico è irreversibilmente lanciato verso le soluzioniweb based, oggi chia...
Problemi dei big dataCome gestire il file systemCome effettuare il back up o la ridondanza dei datiCome eseguire analisi st...
Calcolo parallelo e distribuitoThursday, May 9, 13
Calcolo parallelo e distribuitoSolitamente questa situazionesi verifica nel calcoloscientifico, soprattutto quandosi fannn...
Calcolo parallelo e distribuitoThursday, May 9, 13
Apache HadoopThe Apache Hadoop software library is a framework that allows for the distributedprocessing of large data set...
Apache HadoopDispone di un file system distribuito, capace di gestire file di dimensioni ingentiPermette di aggiungere e r...
Apache HadoopThursday, May 9, 13
Data ScienceLa nuova disciplina nata dalla necessità di trasformare i dati in informazioni e leinformazioni in fatturatoUn...
ConclusioneGMSL Consulting svolge consulenze di Data Science ed è in grado di progettare erealizzare soluzioni per la gest...
Upcoming SlideShare
Loading in...5
×

Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

100

Published on

Presentazione effettuata in occasione del Meet Minitab 2013


Per info:
agostini@gmsl.it
0331.587511

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
100
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Gmsl Consulting - Luigi Roggia, Big Data e Calcolo Parallelo

  1. 1. Big Data e Calcolo ParalleloLuigi RoggiaThursday, May 9, 13
  2. 2. Tempi che cambiano...I sistemi informatici di ieri non sono più idonei a gestire le esigenzeinformative odierneOggi più che mai è indispensabile ottimizzare tempi, risorse, qualitàe strategieEnormi quantità di dati aspettano di essere strutturati ed analizzatiper rivelare informazioni ancora non emerseThursday, May 9, 13
  3. 3. L’invasione dei datiOgni giorno il mondo in cuiviviamo e lavoriamo produceincessantemente datiEsiste una netta differenza tradati e informazioni: i dati diper sè sono pressochè inutili!Se i dati vengono raccolti ed archiviati senza un metodoadeguato, possono diventare costosi o impossibili dautilizzare in un secondo momentoThursday, May 9, 13
  4. 4. Big data e dati in generaleNon esiste una definizione quantitaviva di quando un dataset diventiun large dataset; il termine Big Data è spesso usato impropriamentePer i veri large dataset sonoindispensabili le nuovetecnologie nate e studiateappositamenteAlcune delle strategie usateper i big data sono utili econvenienti anche per datasetpiù piccoliThursday, May 9, 13
  5. 5. Database relazionali e nonEsiste molta confusione su cosa sia effettivamente un database e suquanto sia importante un vero database in azienda!Un foglio Excel o un documento Access non rappresentano soluzioniper creare databasela struttura logica più stabile, utile, performante e versatile è quelladel database relazionaleper i big data esistono invece i database non relazionaliIn alcuni casi un mix di database relazionali e non relazionalirappresenta la soluzione ottimaleThursday, May 9, 13
  6. 6. Database relazionale...?id_colore codice_colore descrizione_colore1 K0123 Grigio Argento2 S9111 Nero Notte3 L0091 Rosso Fuoco4 K0125 Grigio Fucileid_modello codice_modello descrizione_modello1 PT002 Punto2 FR001 Freemont3 CR004 Croma4 PD005 Pandaid_produzione id_colore id_modello anno_mese_produzione1 1 4 2013022 2 3 2013023 2 1 2013034 4 2 201304tbd_colore tbd_modellotbl_produzioneThursday, May 9, 13
  7. 7. Hardware e architettura di sistemaIl mondo informatico è irreversibilmente lanciato verso le soluzioniweb based, oggi chiamate“cloud”In questo contesto, l’acquisto di“ferro”non ha più molto senso esenz’altro è anti economicoIl concetto di cloud è estremamente importante per il trattamentodei big data e offre soluzioni vincenti e strategiche anche per basidati non necessariamente bigTenere i dati in casa su hardware proprietario, non è più la soluzionesempre corretta e convenienteThursday, May 9, 13
  8. 8. Problemi dei big dataCome gestire il file systemCome effettuare il back up o la ridondanza dei datiCome eseguire analisi statisticheCome affrontare l’allestimento hardwareCome eseguire ricerche velociIn realtà tutti questi punti possono essere affrontati anche per datasetdi dimensioni standard e condurre a grandi ottimizzazioni...Thursday, May 9, 13
  9. 9. Calcolo parallelo e distribuitoThursday, May 9, 13
  10. 10. Calcolo parallelo e distribuitoSolitamente questa situazionesi verifica nel calcoloscientifico, soprattutto quandosi fannno moodelli di sistemifisici complessiThursday, May 9, 13
  11. 11. Calcolo parallelo e distribuitoThursday, May 9, 13
  12. 12. Apache HadoopThe Apache Hadoop software library is a framework that allows for the distributedprocessing of large data sets across clusters of computers using simple programmingmodels.It is designed to scale up from single servers to thousands of machines, each offeringlocal computation and storage.Thursday, May 9, 13
  13. 13. Apache HadoopDispone di un file system distribuito, capace di gestire file di dimensioni ingentiPermette di aggiungere e rimuovere macchine al cluster con estrema facilitàE’compatibile con diversi linguaggi di programmazioneGestisce in modo automatico l’utilizzo dei nodi di calcoloRisolve il problema del plateau paralleloThursday, May 9, 13
  14. 14. Apache HadoopThursday, May 9, 13
  15. 15. Data ScienceLa nuova disciplina nata dalla necessità di trasformare i dati in informazioni e leinformazioni in fatturatoUnisce matematica, informatica, creatività e competenze di settoreIl futuro appartiene alle aziende che sapranno sfruttare al meglio i datiThursday, May 9, 13
  16. 16. ConclusioneGMSL Consulting svolge consulenze di Data Science ed è in grado di progettare erealizzare soluzioni per la gestione e l’analisi di big data.www.gmslconsulting.itThursday, May 9, 13
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×