2. Marzia Murè:
Professor Hofmann, si è iniziato a parlare di Big Data
da un tempo ragionevolmente breve; eppure essi
rappresentano ormai un volume incredibile.
Come evolverà la situazione a suo avviso?
Ernesto Hofmann:
Quantificare l’enorme quantità di informazioni che esiste
attualmente nel mondo, e che va genericamente sotto il
nome di Big Data, è molto difficile. Ciò che però è chiaro è
che sembra essercene un’enorme quantità, e sembra che
essa stia crescendo all’incredibile ritmo del 60% annuo,
dando persino la sensazione di accelerare la sua crescita.
L’anno 2002 potrebbe essere considerato come il vero inizio
dell'era digitale, proprio perchè in quell’anno la quantità di
dati digitali memorizzati superava quella dei dati analogici.
3.
4. Attualmente oltre il 95% di tutti i dati memorizzati è in
forma digitale: i più grandi generatori di dati sono stati
i videogiochi e la televisione.
In termini di byte, le parole scritte sono molto meno
numerose e pari a meno dello 0,1% del totale.
Eppure la quantità di lettura per persona, che era in
declino soprattutto a causa della televisione, è quasi
triplicata dal 1980, grazie a Internet.
5. Quali sono dunque le origini, le cause di questa
esplosione di informazioni?
La più evidente è certamente la tecnologia. Le funzionalità
dei dispositivi digitali crescono mentre i prezzi crollano, e
così un numero crescente di sensori e di dispositivi
elettronici di tutti i generi può produrre una quantità
anch’essa sempre crescente di dati.
E un numero anch’esso crescente di persone ha accesso a
dispositivi sempre più versatili e potenti: uno su tutti lo
smartphone.
6. Per fare un’analogia, possiamo ricordare che proprio in virtù dei nuovi
flussi di informazioni disponibili all’inizio del XX secolo, attraverso nuovi
canali trasmissivi quali il telegrafo e il telefono, fu possibile avviare la
produzione di massa in molteplici settori industriali.
Così ora la disponibilità di grandi quantità di dati dovrebbe consentire
alle aziende di operare anche in piccole, o piccolissime, nicchie di
mercato, in tutto il mondo (il concetto del cosiddetto long tail).
I rivenditori online possono ora rintracciare non solo ciò che i clienti
hanno acquistato, ma anche cosa abbiano esaminato, come abbiano
navigato attraverso il sito, come siano stati influenzati da promozioni,
da recensioni, da tendenze di mercato. E si possono individuare profili
di consumo che riguardano sia gruppi di individui sia singoli.
E questo quali conseguenze genera in ambito business?
7. Vorrei proporre un’ipotesi molto azzardata. Ci sono problemi per i
quali la fenomenologia in esame presenta un’intrinseca
incomprensibilità. La moderna fisica ci ha abituato ormai a dover
trattare con entità e con fenomeni che non sono realmente
comprensibili dalla mente umana, ma solo trattabili in una certa
misura attraverso formalismi matematici molto astratti.
I buchi neri, l’entanglement quantistico, le simmetrie di gauge,
richiedono un’enorme capacità di astrazione, ma restano quasi sul
bordo della comprensibilità, almeno per come è costruito il nostro
cervello.
C’è però un’ulteriore molteplicità di fenomenologie che sfidano la
nostra comprensibilità per tutt’altri motivi
Vi possono essere anche grandi ricadute sulla ricerca e la
implementazione di nuove metodologie scientifiche…?
8. Una per tutte quella che io considero forse la sfida più grande
che oggi l’uomo debba affrontare, ossia comprendere
globalmente i meccanismi del cancro e pervenire ad una cura
possibilmente definitiva.
Qui i problemi sono di tutt’altra natura. Il cancro si manifesta
attraverso una miriade impressionante di miniprocessi nei
quali sono coinvolte migliaia di proteine all’interno di una
cellula, insieme ad altre entità come mitocondri, geni e via
dicendo.
9. Il limite quindi è la nostra mente?
L’uomo non è ancora in grado di gestire una quantità quasi
inverosimile di meccanismi, tutti singolarmente ben
comprensibili una volta che siano stati scoperti. Il punto è che
sono troppi e ciascuno con tante variabili.
Big Data potrebbe concorrere a fare chiarezza. Ossia poter
gestire una massa gigantesca di informazioni in maniera
strutturata potrebbe forse essere un’ulteriore potente arma
per la ricerca medica.
10. Si arriva così a definire una regola che sembra descrivere in
maniera quanto mai sintetica quanto abbiamo fin qui
descritto, la regola delle tre V ossia Volumi, Velocità e Varietà.
I volumi sono in crescita vertiginosa, e di questo si è già
parlato.
Per molte applicazioni, la velocità di creazione di dati è ancora
più importante dei volumi. La gestione delle informazioni in
tempo reale, o quasi in tempo reale, rende possibile a una
società di essere molto più agile rispetto ai suoi concorrenti.
Ma occorre anche considerare la varietà dei data, varietà che
prende la forma di messaggi, aggiornamenti, di immagini
inviate ai social network, di letture dai sensori, di segnali GPS ,
di contatti da telefoni cellulari, e ancora di più.
Professore, possiamo cercare una normalizzazione, se non proprio
una formula, per interpretare le componenti del processo?
11. Molte delle più importanti fonti di Big Data sono
relativamente nuove. Le enormi quantità di
informazioni dalle reti sociali, per esempio, sono nate
con le reti stesse.
Facebook è stato lanciato nel 2004, Twitter nel 2006. Lo
stesso vale per lo smartphone e per altri dispositivi
mobili che oggi offrono enormi flussi di dati legati alle
persone, attività e posizioni.
12. Perché questi dispositivi sono onnipresenti, è facile
dimenticare che lo iPhone è stato presentato solo nel 2007, e
l' iPad nel 2010. Sono quindi dispositivi recenti e tali sono
anche le enormi quantità di dati che essi hanno creato.
Bisogna allora considerare che gli archivi elettronici
(database) strutturati, che memorizzavano quasi tutte le
informazioni aziendali fino a qualche tempo fa sono poco
adatti per l'archiviazione e l'elaborazione di dati molto più
numerosi di quelli tradizionali.
13. La domanda chiave resta: come dare un senso a tutti questi dati?
Occorrerebbe preparare adeguatamente la prossima
generazione, non solo degli scienziati, ma anche di coloro che
operano nell’economia, nelle amministrazioni e nel governo.
li attuali computer, soprattutto quelli più potenti, hanno
grandissime capacità di memoria e di calcolo, di gran lunga
superiori a quelle di qualsiasi essere umano. Eppure, quando si
tratta di comprendere un contesto, di apprendere, di adattarsi a
mutate situazioni, i computer sono di gran lunga inferiori agli
esseri umani.
Professor Hofmann, di là dall’uso nel business che
possiamo fare con tutti i dati che vengono raccolti ?
14. L’uomo, al contrario, ha notevoli difficoltà nell’elaborare
grandi quantità di informazioni soprattutto quando queste si
presentano quasi contemporaneamente in tempi brevissimi,
come accade per esempio nella gestione di una città o di un
settore dell’economia.
Poter gestire correttamente le grandi quantità di dati che
attualmente si riescono a raccogliere in vario modo, e in
forma digitale (ossia disponibile per i computer), crea allora
la possibilità di comprendere lo scenario interessato con una
profondità e con una chiarezza che prima non era
assolutamente possibile.
15. I tanti dati che vengono a rendersi disponibili sono
di difficile lettura: esiste infatti un problema
concettuale non indifferente. I dati infatti si
possono presentare in due forme, strutturati e non
strutturati.
La denominazione “dati strutturati” si riferisce
generalmente a dati che hanno una lunghezza e un
formato definito . Esempi di dati strutturati
includono numeri, dati e gruppi di parole e numeri
chiamati stringhe (per esempio, il nome di un
cliente, l'indirizzo,...). La maggior parte degli esperti
concorda sul fatto che questo tipo di dati
rappresenta circa il 20% di tutti i dati disponibili.
Possiamo però iniziare da come i dati vengono organizzati,
prima ha accennato ai dati strutturati…
16. I “dati non strutturati” sono invece i dati che non
hanno uno specifico formato. Se il 20% dei dati
disponibili per le imprese è costituito da dati
strutturati, l'altro 80% non è strutturato.
Quindi la maggior parte dei dati che proviene dal
mondo reale (voce, immagini, sensori,..) richiede
un’opportuna traduzione per essere utilizzata.
Quando si parla di Big Data anche a questo ci si
riferisce, e quindi un progetto adeguato è ben altra
cosa che non il corretto posizionamento di un
ristorante su di uno smartphone.
17. Big Data in effetti non è una tecnologia, ma una
combinazione di tecnologie, vecchie e nuove, che aiuta
imprese e organizzazioni di vario genere, e persino il singolo,
a gestire opportunamente il nuovo scenario.
In conclusione: Big Data come tecnologia o piuttosto come
opportunità?
18. Ernesto Hofmann
Laureato in fisica, programmatore, manager, direttore consulente, per quasi
quarant’anni in IBM, Ernesto Hofmann è una delle grandi figure di riferimento
della storia dell’informatica. Entrato in IBM nel 1968 nel Servizio di Calcolo
Scientifico.
Nel 1973 è diventato manager del Servizio di Supporto Tecnico del Centro di Calcolo
dell'IBM di Roma. Dal 1978, come sistemista senior, è stato responsabile tecnico per
l'IBM di diversi centri elaborazione dati di alcune grandi istituti di credito e di
assicurazioni.
Nel 1981 è stato per tre anni presso lo stabilimento francese di Montpellier dove l'IBM
costruisce i suoi computer più grandi. Nel 1986 è stato presso lo stabilimento di
Corbeil Essonnes dove vengono realizzati i chip di logica utilizzati dai computer IBM.
In ambedue le assegnazioni ha svolto il ruolo di interfaccia tecnica tra i clienti ed i
progettisti dello stabilimento.
A partire dal 1986 è stato diverse volte negli USA per lunghi periodi, presso gli
stabilimenti di Poughkeepsie e Fishkill, dove vengono progettati i grandi computer
IBM. La sua attività negli USA gli ha consentito di approfondire sempre più
l'evoluzione tecnologica oggi in atto nell'informatica.
Dal 1984 è Direttore Consulente per i Sistemi Complessi dell'IBM Italia.
È autore di molteplici pubblicazioni sull'informatica, sia di carattere tecnico sia
divulgative, nonché di svariati articoli e interviste anche per la stampa non
specializzata.