Bigdata v eletti_nov2013 versione_ampliata_con_silver
1. Scienze Biologiche, A.A. 2013-14
Corso di BIOLOGIA APPLICATA
del Prof. Pier Luigi Luisi
INTERVENTO DI VALERIO ELETTI
Big Data
e nuove Protesi Cognitive
per il Web 3.0.
Opportunità e minacce.
Università degli Studi Roma Tre
Dipartimento di Biologia :: 11 NovembreUniversità RomaTre, 11 Novembre 2013
2013
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
2. Di cosa parliamo?
Complessità, approccio sistemico, effetto farfalla, reti digitali,
hub e connessioni complesse, big data, globalizzazione,
Web semantico, Internet delle cose …
sono espressioni, idee, concetti e - in potenza - comportamenti (memi)
che si allargano a macchia di leopardo, con una diffusione turbolenta.
DOMANDE: Secondo voi di che si tratta?
E perché dovrebbero interessare uno studioso di Biologia?
Agenda
Introduzione: lo scenario attuale
Big data
Motori semantici e soft computing
Nuove “protesi cognitive”: il paradigma cognitivo complesso
Esempio di applicazione: dalla genomica alla proteomica
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
3. Introduzione: lo scenario attuale
Scenario
Partiamo da uno sguardo ampio sullo scenario attuale:
-Cambiamenti geopolitici: nuove potenze e nuovi flussi migratori
-Pervasività e transnazionalità del potere finanziario
-Esplosione di produzione (e analisi!) di tracce digitali personali
Noi focalizziamo qui oggi la nostra attenzione sul terzo punto, ovvero sui
fenomeni nuovi che stanno emergendo dall’uso globale delle reti digitali:
-la formazione a valanga dei cosiddetti big data
-la diffusione dei cosiddetti motori semantici e del soft computing
che segneranno gli sviluppi dell’economia e della cultura
grazie anche alla velocità di elaborazione dei computer
e all’ampiezza delle nuove capacità di memoria
-... che si stanno profilando nel cosiddetto Web semantico o Web 3.0.
Vedremo poi come le conoscenze dei sistemi complessi,
della struttura delle reti e dell’approccio sistemico
possono essere considerate le protesi cognitive (le chiavi di accesso)
che ci servono per orientarci nel nuovo paesaggio
in cui siamo ormai tutti irreversibilmente immersi.
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
4. Introduzione: i fenomeni emergenti
Scenario
Per capire l’entità e la forza del mondo digitale che ci avvolge,
partiamo da alcune considerazioni concrete su fenomeni emergenti:
-Diffusione “in parallelo” di varie reti complesse: il Web (con i suoi social
network), la rete telefonica mobile, l’Internet delle cose ...
-Convergenza tra queste reti, tutte digitali e interfacciabili
-Accumulo in enormi archivi di miliardi di miliardi di dati digitali su persone,
malattie, cose, eventi, traffico, finanza, gruppi sociali e politici, ambiente ...
-Avvio di sistematiche attività di merging (ovvero di convergenza e
interfacciamento) di archivi di dati apparentemente estranei tra loro
-Passaggio inarrestabile da un approccio statistico, “a campione”, tipico
dell’era degli small data, ad analisi di “tutti” i dati dell’evento o della struttura
in esame
-Passaggio morbido ma diffuso, dopo quello da Web 1.0 a Web 2.0, al Web
semantico (chiamato Web 3.0 da Tim Berners-Lee dal 2006 )
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
5. Introduzione: progressi tecnici e fenomeni sociali
Scenario
Tutto ciò è reso possibile da alcuni progressi tecnici di base:
-Moltiplicazione della velocità di calcolo dei computer
-Costruzione di memorie sempre più ampie e capaci
-Messa a punto di algoritmi in grado di individuare pattern sconosciuti in
masse spaventosamente grandi di dati (soft computing, reti neurali ecc)
-Messa a punto di software e sistemi esperti in grado di “comprendere” la
semantica in alcuni ambiti lessicali (per ora limitati e specifici)
... e dall’esplosione di fenomeni sociali “produttori di dati digitali”
che erano assolutamente imprevedibili fino alla fine del ‘900
(e che spiegano i boom in borsa di aziende come Twitter o Facebook);
in particolare:
-La corsa frenetica di ogni singolo individuo alla condivisione spontanea
(possiamo dire “entusiasta”) di propri dati nei social network
-L’utilizzo, da parte di una quota crescente di cittadini, di apparecchi che
lasciano tracce digitali localizzate nel tempo e nello spazio
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
6. Introduzione
Scenario
Tutto ciò sta facendo nascere migliaia di vere e proprie “miniere d’oro”
su cui si sono avventate aziende private, multinazionali e istituzioni.
Nota importante:
queste miniere sono molto di più di semplici accumuli o “insiemi” di dati:
sono “sistemi” formati da reti di reti di relazioni dinamiche,
con le loro topologie, le loro proprietà di accrescimento preferenziale,
le loro correlazioni lineari e non lineari,
con i loro feedback e le proprie capacità di adattamento ...
Il che equivale a dire che:
i big data hanno strutture e proprietà
che richiamano da vicino quelle delle reti e dei sistemi complessi
(ne parleremo a proposito delle protesi cognitive).
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
7. Introduzione
Scenario
Qualche numero
per capire l’entità dei dati
che si stanno raccogliendo
negli archivi pubblici
e privati del mondo:
dalle decine di megaByte
(milioni di ‘caratteri’)
di vent’anni fa,
ai 600 exaByte
(miliardi di miliardi di byte)
di oggi.
Rif. pp.21-22 Eletti 2013
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
8. Introduzione
Scenario
E che ci facciamo
con tutti questi dati?
Per esempio:
previsioni di Borsa
basate sul sentiment
espresso da Twitter
Rif. p. 18 Eletti 2013
... ma anche
intercettazioni
come quelle della NSA:
e dunque minacce
e opportunità, tipiche
di un ambiente nuovo,
mai visto prima.
Vediamo un po’ più in
dettaglio di che si tratta ...
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
9. Agenda
Agenda
Introduzione: lo scenario attuale
Big data
Motori semantici e soft computing
Nuove “protesi cognitive”: il paradigma cognitivo complesso
Esempio di applicazione: dalla genomica alla proteomica
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
10. Big Data
Big data
... è un termine usato in diversi contesti con significati diversi.
Definiamo meglio la prima interpretazione,
quella generale che abbiamo già osservato:
una sorta di brodo primordiale dei nostri memi,
una somma di archivi di reti interconnesse di dati digitali
che si vanno accumulando in banche dati, in settori diversi:
dati che arrivano
dalla nostra localizzazione geografica
quando telefoniamo da un cellulare,
dai nostri profili sui social network,
dagli indirizzi Internet che andiamo a visitare,
dai sentiment che esprimiamo via Twitter,
dai dati sanitari, economici e finanziari
che affidiamo sempre più spesso e inconsapevolmente
alle varie nuvole informatiche (cloud)
che si stanno addensando nel chiuso
di sempre più giganteschi magazzini pieni di server...
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
11. Big data
Big data
Abbiamo visto che si formano così miniere di informazione
in cui si possono individuare strutture di conoscenza e profili di trend in atto.
Due considerazioni riguardo questa concezione generale dei big data:
A)
connettendo le singole ‘miniere’ si ottiene un insieme
che è molto di più della somma dei singoli data set,
un insieme reticolare iper-complesso
che può fornire non solo risposte a vecchie domande,
ma che può anche far emergere domande nuove
di particolare importanza strategica per le economie mondiali,
per l’ambiente, per i rapporti tra nazioni, politica e multinazionali;
B)
in concreto, la finanza privata e quella pubblica sono già in corsa
per mettere a punto efficaci strumenti “intelligenti” (semantici)
che permettano di analizzare e gestire queste masse di dati
che non si possono affrontare con i limitati strumenti
usati per catturare, gestire e processare le normali banche dati
in tempi accettabili (abbiamo visto che parliamo di centinaia di exaByte).
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
12. Big data
Big data
Un’idea della importanza strategica di questi big data
derivati dalla connessione fra giganteschi archivi pubblici e privati
ci può venire dalle azioni dei governi. Due esempi:
Stati Uniti:
nel 2012 l’Amministrazione Obama ha finanziato
con 200 milioni di dollari la Big Data Research and Development Initiative,
composta da 84 diversi programmi di ricerca sui big data,
distribuiti su 6 Dipartimenti federali
http://www.whitehouse.gov/sites/default/files/microsites/ostp/big_data_press_release.pdf
Unione Europea:
ha stanziato un miliardo di euro con cui finanziare per un decennio
(100 milioni l’anno) uno dei sei progetti selezionati a oggi:
il progetto bandiera è FuturICT
che coinvolgerà centinaia dei migliori scienziati europei;
cuore del progetto è il Living Earth Simulator, una enorme rete di calcolo
che vuole aggregare i big data provenienti da tutto il mondo
per elaborarli con nuovi modelli matematici e teorie sociali ancora da definire
http://www.futurict.eu/the-project
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
13. Big Data
Big data
... lo stesso termine si usa per definire un cambio di approccio ai dati.
In molti ambienti professionali, di studio e di ricerca
si parla di big data in senso più trasversale e pervasivo,
quando si passa dall’analisi di campioni (approccio statistico classico)
alla analisi dell’intero universo dei dati di un fenomeno o struttura.
Ne derivano alcuni mutamenti paradigmatici, tra cui sottolineiamo:
-Accettazione dell’imprecisione (compensata dall’abbondanza di dati)
-Consapevolezza della possibilità di emersione di pattern imprevedibili a
priori (ovvero emergenza di risposte di cui non si erano immaginate né
tantomeno formulate domande)
-Attenzione all’emersione di correlazioni anche non lineari (da cui l’utilizzo dei
vari strumenti della network analysis)
-Abbandono dell’illusione consolatoria del principio di causa-effetto
Per approfondire questi aspetti – particolarmente interessanti per gli studi
biologici - si veda il volume di V. Mayer-Schoenberger, K. Cukier, “Big data”,
appena tradotto in italiano da Garzanti (ed. orig.: 2013)
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
14. Agenda
Agenda
Introduzione: lo scenario attuale
Big data
Motori semantici e soft computing
Nuove “protesi cognitive”: il paradigma cognitivo complesso
Esempio di applicazione: dalla genomica alla proteomica
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
15. Motori semantici e soft computing
Motori
semantici
Qui il discorso si fa specialistico: diciamo solo di che cosa si tratta.
Sono software che
analizzano il significato delle parole nel proprio contesto:
motori di ricerca che non si limitano a cercare negli archivi sequenze di bit,
ma che analizzano la sequenza di bit richiesta all’interno di una ontologia,
ovvero di una rete di relazioni con altre parole “imparentate”.
Esempio: la parola “espresso” in contesti diversi
Questo è il concetto chiave.
La spiegazione nei dettagli non è complicata ma è piuttosto lunga,
per cui rimandiamo alla voce “Semantic Web” di Wikipedia,
che risulta chiara ed esaustiva.
Nota importante:
questa voce di Wikipedia è stata immessa nel 2003
e si è raffinata fino a oggi grazie ai controlli,
alle discussioni e alle correzioni di oltre mille esperti,
con una media di 1.500 visite al giorno da tutto il mondo anglosassone:
esempio pregnante di auto-organizzazione dal basso
di un ambiente complesso come il Web 2.0.
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
16. Motori semantici e soft computing
Soft
computing
Esistono, oltre
ai motori semantici,
molte altre tipologie
di algoritmi
che permettono
di affrontare
il mondo sfuggente
dei big data.
Eccone una breve
e parziale elencazione
tratta da
Eletti 2013, pp.39-40
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
17. Motori semantici e soft computing
Soft
computing
... segue
elencazione
tratta da
Eletti 2013, pp.39-40
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
18. Agenda
Agenda
Introduzione: lo scenario attuale
Big data
Motori semantici e soft computing
Nuove protesi cognitive: il paradigma cognitivo complesso
Esempio di applicazione: dalla genomica alla proteomica
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
19. Nuove protesi cognitive
Nuove
protesi
cognitive
Concludiamo dicendo che l’esplosione dei big data,
(con il corollario dell’estensione e pervasività delle reti digitali,
dello sviluppo esponenziale del soft computing, dei motori semantici,
della capacità di elaborazione dei dati
e della crescita esponenziale degli archivi di memorie)
crea la necessità impellente
di un approccio sistemico, complesso e reticolare,
(nel management, nel marketing, nella ricerca, nella politica, nella finanza)
con metodi di calcolo e di elaborazione delle informazioni
che fanno leva su una nuova tipologia di pensiero:
quella basata sul paradigma cognitivo complesso, circolare,
che considera i tradizionali ragionamenti lineari
(basati sul principio di causa-effetto)
solo come un sottoinsieme di un più ampio e variegato ventaglio
di nuove possibilità del pensare, del progettare e dell’agire.
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
20. Nuove protesi cognitive
Nuove
protesi
cognitive
Qualche elemento per capire di che cosa si tratta:
Per prima cosa,
vediamo la differenza tra un problema/ambiente/sistema
semplice, complicato o complesso
(esempio del sasso, dell’aeroplanino, del piccione)
E quindi deriviamo da questa visione la necessità
di un cambiamento “paradigmatico” nell’approccio al problema:
non più solo top-down,
determinista, riduzionista,
ma bottom-up,
teso a creare ridondanze e diversità,
a far emergere pattern nel sistema,
ad analizzare l’universo dei dati
invece di campioni prefigurati
(che non sono in grado di fare emergere risposte non previste).
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
21. Nuove protesi cognitive: attenzione ai riflessi negativi
Nuove
protesi
cognitive
E alcuni spunti di riflessione sulle minacce indotte dai big data,
tratti dalla analisi di Nate Silver(*):
PRIMO:
nelle reti, la diffusione esponenziale di grandi masse di informazioni,
unita con l’efficacia di trasmissione dei segnali,
porta facilmente alla diffusione VELOCE di “segnali errati”
(nel senso di idee sbagliate, aggressive o pericolose per la comunità),
dato che inizialmente, con l’esplosione incontrollata di dati,
viene a mancare qualunque tipo di feedback negativo,
che possa attenuare/controllare i segnali virali,
siano essi utili alla società (rinforzi “virtuosi”)
o dannosi (virus, notizie false,
agglomerazione di atteggiamenti aggressivi
tra gruppi di diverso credo o pensiero).
(*) Rif.: N. Silver, The Signal and the Noise, 2012,
trad it.: Il segnale e il rumore, Fandango 2013
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
22. Nuove protesi cognitive: attenzione ai riflessi negativi
Nuove
protesi
cognitive
SECONDO:
un’esplosione incontrollata e incontrollabile di informazioni
comporta all’inizio una situazione dannosa e pericolosa socialmente,
dato che ciascuno sceglie nel mucchio inesplorabile di dati disponibili
solo l’informazione che rafforza i propri pregiudizi e preconcetti,
ignorando (senza consapevolezza e dunque senza problemi di coscienza)
quanto potrebbe invece mettere in discussione le proprie convinzioni.
Sotto la pressione di montagne di dati e informazioni non gestibili,
la prima reazione diffusa è quindi
quella di abbandonare il feedback negativo
che fa tenere sotto controllo le proprie posizioni,
e di abbracciare un feedback positivo
che porta a esaltare le differenze tra individui e gruppi,
favorendo i settarismi, il muro contro muro
e il conseguente aumento di aggressività ...
Esempio: le numerose e feroci guerre di religione
seguite all’esplosione di informazioni non più gestibili dai singoli
derivata dall’invenzione di Gutenberg
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
23. Nuove protesi cognitive: attenzione ai riflessi negativi
Nuove
protesi
cognitive
TERZO:
con l’aumentare esagerato dei dati da esaminare
aumenta la possibilità di vedere segnali là dove c’è solo rumore,
ovvero di individuare “falsi positivi”
derivanti da una cattiva interpretazione di dati.
NOTA:
Nate Silver, nel suo “Il segnale e il rumore”,
individua nel teorema di Bayes uno degli strumenti più efficaci
per concretizzare e applicare il paradigma cognitivo complesso
necessario ad affrontare l’eccesso di dati che ci sta travolgendo.
Possiamo notare che in effetti il teorema e le reti di Bayes
vengono utilizzati ampiamente da diversi anni per “addestrare” le reti neurali
in grado di analizzare grandi masse di dati in processi bottom-up,
senza la necessità di modellare a priori una teoria astratta
che possa far emergere i pattern (o i segnali)
nascosti nel rumore di fondo dei dati.
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
24. Agenda
Agenda
Introduzione: lo scenario attuale
Big data
Motori semantici e soft computing
Nuove protesi cognitive: il paradigma cognitivo complesso
Esempio di applicazione: dalla genomica alla proteomica
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
25. Esempio di applicazione: dalla genomica alla proteomica
Esempio
Ora esco dalle mie competenze per dare un esempio adatto ai biologi.
Un esempio di applicazione degli strumenti tipici dell’approccio descritto,
lo troviamo nel passaggio dalla genomica alla proteomica;
considerando che 19.599 geni nel corpo umano
possono produrre circa 200.000 tipi di RNA;
e che ogni RNA può a sua volta codificare 200.000 proteine,
vediamo che l’analisi dei geni
richiede l’elaborazione di teraByte di dati (10 alla 12),
mentre quella delle proteine
richiede petaByte (migliaia di teraByte).
Il che significa che ci spostiamo su una logica big data,
e diventa dunque essenziale la messa a punto di algoritmi
in grado di trovare pattern emergenti
dal rumore di fondo del sistema complesso cellula.
Rif.: B. Saporito, “Blood work. Finding new cures means cracking the body’s complex
proteins. So scientists are turning to Big Data”, in “Time”, 20 maggio 2013, pp.40-42
( time.com/breakthrough )
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013
26. Parte terza: memi e tecnomemi, verso il Web 3.0
Riferimenti
Per informazioni, indicazioni bibliografiche e consigli di lettura,
mi potete contattare attraverso la mia email dell’Università:
valerio.eletti@uniroma1.it
Per informazioni su eventi e novità editoriali su questi temi,
potete consultare il sito del Complexity Education Projetc:
www.complexityeducation.it
Per dare uno sguardo alle prime 12 pagine del mio Quaderno della
complessità, potete andare sulla scheda del sito dell’Editore Guaraldi:
http://www2.guaraldi.it/Preview.aspx?id=808
Per vedere tutti i titoli della collana dei Quaderni della complessità
pubblicati dall’Editore Guaraldi sia in formato e-book che su carta,
potete andare sulla pagina IBS dedicata alla collana:
http://www.ibs.it/collana/I+quaderni+della+complessit%26agrave%
Valerio Eletti :: Big Data e nuove Protesi Cognitive per il Web 3.0
Università RomaTre, 11 Novembre 2013