La matematica di MoxOff al SiFood 2014, distretto del cibo e della scienza pe...MOXOFF
La demografia mondiale è cambiata, e con essa anche i fabbisogni alimentari: le cause di questa crescita esponenziale sono dovute essenzialmente a fattori di ordine demografico, come la diminuzione dei tassi di mortalità e l’aumento della speranza di vita della popolazione. Esse sono a loro volta generate soprattutto dal miglioramento delle condizioni dell’igiene, della sanità e del tenore di vita quotidiano. In altre parole, gli abitanti della terra sono sempre più numerosi e, soprattutto, vivono più a lungo.
In un panorama in cui la richiesta aumenta e l'offerta inizia a scarseggiare, diventa molto importante calcolare come è possibile prevenire gli sprechi alimentare e ottimizzare i processi produttivi.
Per questo MoxOff, in occasione della rassegna SiFood 2014, ha spiegato come la matematica possa essere realmente la chiave di svolta grazie alla simulazione, ottimizzazione, gestione del rischio e razionalizzazione, applicata a di tutta la catena del food processing: dalla produzione, logistica e conservazione delle materie prime e dei prodotti finiti, fino alla rete di vendita e alla sensibilizzazione dei consumatori per acquisti "intelligenti".
Tesina d'esame di Maffeis Alessio - NLP e Problemi di Ottimizzazione
Vedi: "A Maximum Entropy Approach to Natural Language Processing" http://www.cs.cmu.edu/afs/cs/user/aberger/www/ps/compling.ps
Extending Word2Vec for Performance and Semi-Supervised Learning-(Michael Mala...Spark Summit
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive function. Exercise causes chemical changes in the brain that may help protect against mental illness and improve symptoms for those who already suffer from conditions like anxiety and depression.
Quick introduction to community detection.
Structural properties of real world networks, definition of "communities", fundamental techniques and evaluation measures.
Label propagation - Semisupervised Learning with Applications to NLPDavid Przybilla
Label propagation is a semi-supervised learning algorithm that propagates labels from a small set of labeled data points to unlabeled data points. The algorithm constructs a graph with nodes for each data point and weighted edges representing similarity between points. It then iteratively propagates the labels across the graph from labeled to unlabeled points until convergence, resulting in "soft" probabilistic labels for all points. The algorithm aims to minimize an energy function that encourages points connected by strong edges to receive similar labels. It performs well with limited labeled data by leveraging the graph structure to make predictions for unlabeled points.
La matematica di MoxOff al SiFood 2014, distretto del cibo e della scienza pe...MOXOFF
La demografia mondiale è cambiata, e con essa anche i fabbisogni alimentari: le cause di questa crescita esponenziale sono dovute essenzialmente a fattori di ordine demografico, come la diminuzione dei tassi di mortalità e l’aumento della speranza di vita della popolazione. Esse sono a loro volta generate soprattutto dal miglioramento delle condizioni dell’igiene, della sanità e del tenore di vita quotidiano. In altre parole, gli abitanti della terra sono sempre più numerosi e, soprattutto, vivono più a lungo.
In un panorama in cui la richiesta aumenta e l'offerta inizia a scarseggiare, diventa molto importante calcolare come è possibile prevenire gli sprechi alimentare e ottimizzare i processi produttivi.
Per questo MoxOff, in occasione della rassegna SiFood 2014, ha spiegato come la matematica possa essere realmente la chiave di svolta grazie alla simulazione, ottimizzazione, gestione del rischio e razionalizzazione, applicata a di tutta la catena del food processing: dalla produzione, logistica e conservazione delle materie prime e dei prodotti finiti, fino alla rete di vendita e alla sensibilizzazione dei consumatori per acquisti "intelligenti".
Tesina d'esame di Maffeis Alessio - NLP e Problemi di Ottimizzazione
Vedi: "A Maximum Entropy Approach to Natural Language Processing" http://www.cs.cmu.edu/afs/cs/user/aberger/www/ps/compling.ps
Extending Word2Vec for Performance and Semi-Supervised Learning-(Michael Mala...Spark Summit
The document discusses the benefits of exercise for mental health. Regular physical activity can help reduce anxiety and depression and improve mood and cognitive function. Exercise causes chemical changes in the brain that may help protect against mental illness and improve symptoms for those who already suffer from conditions like anxiety and depression.
Quick introduction to community detection.
Structural properties of real world networks, definition of "communities", fundamental techniques and evaluation measures.
Label propagation - Semisupervised Learning with Applications to NLPDavid Przybilla
Label propagation is a semi-supervised learning algorithm that propagates labels from a small set of labeled data points to unlabeled data points. The algorithm constructs a graph with nodes for each data point and weighted edges representing similarity between points. It then iteratively propagates the labels across the graph from labeled to unlabeled points until convergence, resulting in "soft" probabilistic labels for all points. The algorithm aims to minimize an energy function that encourages points connected by strong edges to receive similar labels. It performs well with limited labeled data by leveraging the graph structure to make predictions for unlabeled points.
S. Corradini, L. Martinez, 30 Novembre - 1 Dicembre 2021 -
Webinar: L'inclusione lavorativa: il panorama nazionale e l'esperienza dell'Istat
Titolo: La condizione occupazionale delle persone con disabilità
L. Lavecchia, 30 Novembre - 1 Dicembre 2021 -
Webinar: Il quadro informativo per il Green Deal: sviluppi e domanda informativa per le questioni energetiche
Titolo: La misura della povertà energetica in Italia
V. Buratta, 30 Novembre - 1 Dicembre 2021 -
Webinar: La strategia dei dati: l’iniziativa europea e la risposta nazionale
Titolo: Il ruolo dell'Istat nella Strategia Nazionale ed Europea dei Dati
E. Fornero, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gender statistics by default: il cambiamento di paradigma nelle statistiche e oltre
Titolo: Illusioni, luoghi comuni e verità nella lotta alle disparità di genere
A. Perrazzelli, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gender statistics by default: il cambiamento di paradigma nelle statistiche e oltre
Titolo: Qualità di genere per sostenere la crescita
A. Tinto, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gli effetti della pandemia sulla soddisfazione per la vita e il benessere: analisi e prospettive
Titolo: L'impatto della pandemia sulla componente soggettiva del Benessere Equo e Sostenibile
L. Becchetti, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gli effetti della pandemia sulla soddisfazione per la vita e il benessere: analisi e prospettive
Titolo: La pandemia attraverso gli indicatori soggettivi a livello internazionale: un paradosso?
G. Onder, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: Il sistema di sorveglianza dei decessi dell'ISS e le nuove prospettive
C. Romano, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: Nuovi strumenti e indagini per un'informazione pertinente in fase di emergenza
S. Prati, M. Battaglini, G. Corsetti, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: La sfida per la demografia: tempestività e qualità dell'informazione
R. Crialesi, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: La tutela della salute: vecchie e nuove esigenze informative
S. Strozza, M. Battaglini, C. Conti, G. Corsetti, E. Tucci,
30 Novembre - 1 Dicembre 2021 -
Webinar: Le dimensioni della diseguaglianza
Titolo: Cittadinanza e disuguaglianze: le sfide della misurazione in una società complessa
S. Corradini, L. Martinez, 30 Novembre - 1 Dicembre 2021 -
Webinar: L'inclusione lavorativa: il panorama nazionale e l'esperienza dell'Istat
Titolo: La condizione occupazionale delle persone con disabilità
L. Lavecchia, 30 Novembre - 1 Dicembre 2021 -
Webinar: Il quadro informativo per il Green Deal: sviluppi e domanda informativa per le questioni energetiche
Titolo: La misura della povertà energetica in Italia
V. Buratta, 30 Novembre - 1 Dicembre 2021 -
Webinar: La strategia dei dati: l’iniziativa europea e la risposta nazionale
Titolo: Il ruolo dell'Istat nella Strategia Nazionale ed Europea dei Dati
E. Fornero, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gender statistics by default: il cambiamento di paradigma nelle statistiche e oltre
Titolo: Illusioni, luoghi comuni e verità nella lotta alle disparità di genere
A. Perrazzelli, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gender statistics by default: il cambiamento di paradigma nelle statistiche e oltre
Titolo: Qualità di genere per sostenere la crescita
A. Tinto, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gli effetti della pandemia sulla soddisfazione per la vita e il benessere: analisi e prospettive
Titolo: L'impatto della pandemia sulla componente soggettiva del Benessere Equo e Sostenibile
L. Becchetti, 30 Novembre - 1 Dicembre 2021 -
Webinar: Gli effetti della pandemia sulla soddisfazione per la vita e il benessere: analisi e prospettive
Titolo: La pandemia attraverso gli indicatori soggettivi a livello internazionale: un paradosso?
G. Onder, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: Il sistema di sorveglianza dei decessi dell'ISS e le nuove prospettive
C. Romano, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: Nuovi strumenti e indagini per un'informazione pertinente in fase di emergenza
S. Prati, M. Battaglini, G. Corsetti, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: La sfida per la demografia: tempestività e qualità dell'informazione
R. Crialesi, 30 Novembre - 1 Dicembre 2021 -
Webinar: La lezione della crisi per le statistiche demografiche e sociali
Titolo: La tutela della salute: vecchie e nuove esigenze informative
S. Strozza, M. Battaglini, C. Conti, G. Corsetti, E. Tucci,
30 Novembre - 1 Dicembre 2021 -
Webinar: Le dimensioni della diseguaglianza
Titolo: Cittadinanza e disuguaglianze: le sfide della misurazione in una società complessa
1. Social
Media,
Big
Data
&
Sta1s1cs
Voices from the Blogs
we capture the sentiment of the net
Stefano Maria Iacus | Università degli Studi di Milano & Voices from the Blogs
2. Cosa
si
intende
per
Big
Data?
35% della popolazione mondiale sul Web (raddoppiata tra il 2006 e il 2011)
il 72% di questi scrive e partecipa sui social media
500 milioni di tweet al giorno in tutto il mondo e oltre 500 milioni di account
15% della popolazione USA su Twitter, l’8% ogni giorno
10 milioni di tweet durante le ore dei dibattiti presidenziali Obama-Romney
!!!
3. Cosa
si
intende
per
Big
Data
in
Italia?
75% della popolazione italiana usa Internet
40% della popolazione italiana è attivo sui social media
20% parla di temi politici e sociali in rete
19 milioni di italiani accendono ad internet in mobilità mobile
400 mila tweet nella prima serata di Sanremo
4.7 milioni di account Twitter attivi settimanalmente
Quali
sfide
per
la
Sta1s1ca?
4. Cara<eris1che
dell’analisi
dei
Social
Media
dati geo-localizzati (Twitter)
analisi retrospettive (catturare l’opinione nel momento in cui
viene espressa)
analisi real-time (monitoraggio continuo dei temi di interesse)
velocità di esecuzione di analisi
raccolta di opinioni non sollecitate
analisi censuarie: si analizza l’intera popolazione di tweet
espressi su un particolare tema
popolazione sui social media non rappresentativa di quella
demografica
non si possono fare domande, si può solo ascoltare
se un tema non interessa i social, non si può indagare
analisi testuale, il linguaggio cambia a seconda dei temi
very Big data
5. Ogge<o
dell’analisi:
distribuzione
aggregata
Ciò
che
interessa
non
è
la
classificazione
dell’opinione
in
un
singolo
testo
ma
la
distribuzione
aggregata
delle
opinioni
Non
ci
interessa
l’ago
nel
pagliaio...
...ma
cara2erizzare
l’intero
pagliaio!
6. Problema
sta1s1co:
errore
di
classificazione
Anche
il
miglior
classificatore
sta1s1co
a<ribuisce
una
risposta
ad
un
testo
non
le<o
con
una
certa
probabilità
<
1
L’errore
di
missclassifica4on
sia
amplifica
quando
si
aggregano
le
s1me
anziché
ridursi
Risultato:
s1me
fortemente
distorte
e
con
alta
variabilità
7. Come
funziona
in
pra1ca?
Codifica Stemming
manuale
Word:
Post
Cat Word:
nuclear fear
Word:
radiation
Word:
pollution
Word:
waste
Word:
economic
post#1
train set a favore 1 0 0 0 0 1
test set post#2
NA 1 0 0 0 1 0
train set post#3
contro 1 1 1 1 1 0
post#4
train set contro 1 1 1 1 1 0
train set post#5
a favore 1 0 1 0 0 1
... ... ... ... ... ... ... ...
test set post#1000
NA 1 0 0 0 0 1
8. Come
funziona
in
pra1ca?
Post Word: Word: Word: Word:
Di nuclear fear radiation pollution
Word:
waste
Word:
economic
post#1
a favore 1 0 0 0 0 1
Di = “a favore” Si = (1,0,0,0,0,1)
Goal: stima della distribuzione P(D)
40%
0,4
30%
0,3
20%
0,2
10%
0,1
test set
0
a favore ok, ma ho paura contrario contrario, ma economico
9. Come
funziona
in
pra1ca?
Approccio
sta1s1co
classico
goal train & test train+test
P(D) = P(D|S) * P(S)
modello
sta1s1co
classico distribuzione
degli
stem
produce
missclassifica1on
S1m
e
dis
alta
t
varia orte
bilità
test set
10. Come
funziona
in
pra1ca?
Approccio
sta1s1co
innova1vo
(King&Hopkins,
2010)
train+test train goal
P(S) = P(S|D) * P(D)
-1
P(S|D) * P(S) = P(D)
ed ecco
il goal
test set
Semplice
quanto
inver1re
una
matrice
Nessun
problema
di
Big
Data
11. Accorgimen1
necessari
U1lizzare
tecniche
supervised,
cioè
con
codificatori
umani
NO:
dizionari
ontologici
NO:
pure
machine
learning Why human and not
ontological dictionaries?
๏ “What a nice rip-off” (“che bella fregatura”)
50% positive & 50% negative
Semantic rules do work ? =
misclassification
๏ Language evolves continuously: one cannot code all 100% negative
=
possible semantic rules unless reading the posts !!! no misclassification
“horses and
??? bayonets” ?
ironic !
Guardare
ai
da1
Guardare
nei
da1
12. Soluzione:
l’approccio
di
Voices
from
the
Blogs
Screening
(di cosa parlano i testi?) Fase di
Crawler codifica
Analisi
Statistica
Stemming
14. Esempio2:
Analisi
retrospecva
geolocalizzata
5,8
Milioni
di
tweet
in
12
mesi
su
5
paesi
in
5
lingue
Italy on Spain on
Germany on Mario Monti Mariano Rajoy
Angela Merkel time frame
Periodo
5.823.373 october 2011
total september 2012
tweets
analyzed o<.
2011-‐o<.2012
5
Popularity: 44% 5 diff countrie
erent s Popularity: 36%
Popularity: 34% 430.945 posts - Males: 59% langu
ages 2.018.509 posts - Males: 69%
123.887 posts - Males: 81%
France on
UK on Monti Merkel Hollande Rajoy Cameron
François Hollande
David Cameron 50
Popularity: 32% Popularity: 27%
1.539.921 posts - Males: 72% 1.710.111 posts - Males: 65%
40
Monti Merkel Hollande Rajoy Cameron
% di favorevoli
Popularity
numero di post in scala logaritmica
10000
Number of tweets - log scale
30
100
20
Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12 Ott11 Nov11 Dic11 Gen12 Feb12 Mar12 Apr12 Mag12 Giu12 Lug12 Ago12 Set12 Ott12
Oct11 Nov11 Dec11 Jan12 Feb12 Mar12 Apr12 May12 Jun12 Jul12 Aug12 Sep12 Oct12
15. Esempio3:
Analisi
retrospecva
geolocalizzata
2,4
Milioni
di
tweet,
Gen-‐Ago
2012,
analisi
su
Europa
a
15
0.55
Euro Sentiment
2.413.971 Tweet
0.50
15 European Countries
Euroscetticismo
January - August 2012 21% 33%
0.45
0.40
44%
16% 15% 54% 0.35
51% 23% Eurobarometro
0.30
e
36%
p
47% ro
Eu
60%
41% 0.25
Correlation = 0.55
Belgium
45% 40% 37% 50%0.20
France
Netherlands
Euro Sentiment on Twitter Portugal Denmark
0.15
Italy
40% Spain
Luxemburg
Greece Austria
30% Finland
Sweden
Germany
20%
Ireland
UK
10%
10% 20% 30% 40% 50% 60%
Eurobarometer (source: European Commission)
16. Esempio4:
Previsioni
ele<orali
presidenziali
USA
50
Milioni
di
tweet
in
40
gg
#US2012 Presidential Elections
Follower:
Obama
16,8
M
Obama Romney
Romney
0,6
M
50,0%
#revenge/love
Distanza
guardando
alle
#Mourdock intenzioni
di
voto
molto
45,0% #Sandy minore
#who cares of “47%”
40,0%
#Benghazi Da1
simili
a
quelli
dei
sondaggi
tradizionali
First Second Third ma
in
tempo
reale
debate debate debate
35,0% 28/9 30/9 2/10 4/10 6/10 8/10 10/10 12/10 14/10 16/10 18/10 20/10 22/10 24/10 26/10 28/10 30/10 1/11 3/11 5/11
La
rete
amplifica
i
(“Other” & “Don’t know” omitted)
cambiamen1
di
opinione
e
an1cipa
le
espressioni
di
voto
17. Esempio4:
Previsioni
ele<orali
presidenziali
USA
Previsione: Obama +3,5%, Effettivo +2,8%
5 Nov, 24h ora italiana
Porta a Porta, Rai1
Sbagliati solo 2 stati, solo Nate Silver ci ha battuto!
21. Esempio7:
Elezioni
Poli1che
2013
E’
possibile
prevedere
la
propensione
al
voto
ascoltando
Twi<er?
Sì,
ma...
AGCOM
blocca
lo
speciale
Elezioni
del
Corriere
della
Sera
che
mostra
l’analisi
di
VfB
poiché
il
dato
è
ritenuto
equiparabile
a
sondaggio
di
opinione
22. Conclusioni
La
società
è
cambiata
e
si
organizza
in
re1
virtuali
e
fisiche
Siamo
sempre
più
connessi
in
rete
e
interconnessi
CATI
&
CAWI
sono
ormai
strumen1
supera1
I
campioni
“rappresenta1vi”
non
sono
più
tali
(tassi
di
risposta
a<orno
al
10%
e
ricampionamen1
anche
tramite
randomizzazione
dei
numeri
di
cellulare!!!)
L’analisi
dei
da1
provenien1
dai
social
network
è
oggi
uno
strumento
indispensabile
(ma
non
esclusivo)
per
la
conoscenza
ma
servono
tecniche
sta1s1che
adeguate