SlideShare a Scribd company logo
1 of 10
Download to read offline
DECAF: Database per scoprire le risposte fisiologiche
emotive
1. INTRODUZIONE
Il riconoscimento delle emozioni è una necessità nell’interazione uomo-macchina. Gli
utenti richiedono che possano essere implicitamente riconosciuti dal loro stato emotivo e i
sistemi che effettivamente possono farlo possono farlo possono nettamente migliorare
l’esperienza dell’utente. Tuttavia, il riconoscimento delle emozioni è complicato in quanto le
emozioni possono manifestarsi sia esplicitamente (intonazione della voce o espressioni
facciali) sia attraverso risposte fisiologiche originate dal sistema nervoso centra e
periferico.
Dato che la maggior parte dei contenuti multimediali è creato con l’obiettivo di suscitare
un’emozione, rappresentare, misurare e predire il “contenuto emozionale” di un
contenuto multimediale diventa un importante valore aggiunto di quest’ultimi.
Gli approcci per predire il contenuto emotivo di un contenuto multimediale possono essere
categorizzati in:
• content-centric: vengono usate delle caratteristiche audio-video primitive che,
tuttavia, non riescono a caratterizzare adeguatamente l’emozione percepita
dall’utente
• user-centric: utilizzano espressioni facciali e intonazione della voce che denotano
una manifestazione emotiva conscia e contestualizzata
Recentemente, gli approcci cognition-based, che utilizzano strumenti come risonanze
magnetiche (fMRI) e elettro-encefalogrammi (EEG) per mappare i segnali
cerebrali in presenza dell’emozione indotta, hanno acquisito importanza: la lettura dei
segnali cerebrali, coniugata ai segnali fisiologici periferici, migliorano nettamente il
riconoscimento emotivo in approcci user-centric.
Tuttavia, l’acquisizione di segnali cerebrali affidabili è difficile e richiede laboratori
specializzati con dozzine di elettrodi posizionati sullo scalpo, i quali impediscono una risposta
naturale. Il magneto-encefalogramma (MEG) è una tecnologia non invasiva per
captare l’attività cerebrale, richiedendo solo un minimo contatto con l’utente e
assicurando, di conseguenza, una risposta più naturale e significativa, non affetta da stress.
In questo documento si presenta DECAF, un database basato su MEG per DECodificare
le risposte AFfettive degli utenti. DECAF si compone delle risposte di 30 soggetti date a 30
videoclip di 80 secondi e 40 video sonori di 1 minuto. Inoltre, DECAF contiene anche video
registrati in NIR (segnali vicini all’infrarosso) delle espressioni facciali, elettro-
oculogramma orizzontale (hEOG), elettro-cardiogramma (ECG) e trapezio-
elettromiogramma (tEMG).
2. SELEZIONE DEGLI STIMOLI
I videoclip sono stati inizialmente mostrati a 42 volontari che si sono assegnati uno stato
emozionale in base a quello che doveva fornire il video: in questo modo, si sono forniti due
parametri ossia il Valence Level (da molto negativo a molto positivo) e l’Arousal Level
(da molto calmo a molto agitato). La combinazione di questi valori, fornisce un tag che
descrive lo stato emozionale. Il primo indica il tipo di emozione, il secondo indica l’intensità
dell’emozione. Infine, il parametro di Dominance misura il grado di controllo sulle emozioni
provate. I 36 video selezionati sono quelli evidenziati in verde. Quelli in blu sono due video
introduttivi.
Una descrizione più completa
delle clip è presente nella
tabella seguente. Le emozioni
considerate, sono dunque:
amusing (spassoso), funny
(divertente), happy (felice),
exciting (entusiasmante),
angry (arrabbiato),
disgusting (disgustoso), fear
(pauroso), sad (triste), shock
(scioccante), per un totale di
9 stati emotivi.
Tratto e tradotto dall'omonimo documento IEEE
Tratto e tradotto dall'omonimo documento IEEE
3. SETUP SPERIMENTALE
Vengono di seguito descritti i vari segnali registrati.
MEG: la tecnologia MEG fornisce una registrazione non-invasiva dell’attività cerebrale ed
è basata su dispositivi che permettono la registrazione di campi magnetici molto bassi.
Infatti, i campi magnetici prodotti dal cervello umano sono dell’ordine del femtotesla (𝑓𝑓𝑓𝑓 =
10−15
𝑇𝑇) e dato che i dispositivi sono sensibili al rumore, la strumentazione MEG è stata
posta in una stanza schermata magneticamente e isolata da altre installazioni elettriche.
I sensori MEG non toccano direttamente la testa del soggetto, quindi il partecipante
può potenzialmente muovere la testa durante i test. Tuttavia, per via dell’alta risoluzione
spaziale, anche piccoli movimenti della testa causeranno una perdita del focus del
sensore, che capterà segnali da un’area diversa. Per compensare, dunque, inavvertiti
movimenti, si sono utilizzati degli Head Position Indicator (HPI) per determinare
accuratamente la posizione della testa del soggetto.
ECG: l’ECG è ben noto per la sua rilevanza nel riconoscimento emotivo. Due elettrodi sono
stati posti sui polsi a un terzo è stato posto sulla parte ossea del braccio (ulna). Questa
configurazione permette una rilevazione precisa del battito cardiaco quindi della frequenza
cardiaca (HR – Heart Rate) e della sua variazione (HRV – Heart Rate
Variability).
hEOG: l’elettro-oculografia misura i movimenti degli occhi e i suoi battiti. Nel caso di tale
dataset, si è misurato solo il movimento orizzontale. Inoltre, l’attività muscolare degli
zigomi produci forti variazioni nei segnali EOG dunque questa analisi registra anche
i movimenti dei muscoli facciali zigomatici.
tEMG: persone diverse mostrano movimenti muscolari diversi di fronte a stimoli emotivi.
Tuttavia, alcuni movimenti sono involontari. Il trapezio-elettromiocardiogramma
viene effettuato per correlare tali movimenti con il livello di stress del soggetto.
NIR Facial Videos: dato che la strumentazione MEG ha bisogno di essere
elettricamente schermata, le videocamere tradizionali non possono essere usate per
registrare l’attività facciale ed è per questo motivo che sono state usate delle telecamere a
infrarossi.
Vengono di seguito descritti le condizioni operative dei soggetti. Sono stati considerati 30
studenti universitari laureati, con un’età media di 27 anni. L’acquisizione dei dati per
ogni partecipante è stata suddivisa in due sessioni – i videoclip sono stati presentati
nell’una, i video con audio nell’altra. Durante ciascuna sessione, ogni contenuto
multimediale è stato mostrato in ordine casuale in modo tale che due clip con lo
stesso “contenuto emotivo” non fossero sequenziali.
Tratto e tradotto dall'omonimo documento IEEE
Durante ogni prova, è stata per prima mostrata una croce fissa per 4 secondi, per
preparare il soggetto e valutare il suo stato di veglia. Una volta mostrato il
contenuto, il soggetto aveva a disposizione un massimo di 15 secondi per valutare il suo stato
emotivo, attraverso un microfono.
Sono stati registrati valori di Arousal (Eccitazione) (“Quanto inteso è il tuo stato
emotivo dopo aver riguardato questa clip?”) con valori da 0 (molto calmo) a 4 (molto
entusiasmato), valori di Valence (Valenza) (“Come ti senti dopo aver visto questa
clip?”), con una scala da -2 (molto poco piacevole) a 2 (molto piacevole) e valori di
Dominance, con una scala da 0 (nessun controllo) a 4 (pieno controllo).
4. RATING ANALYSIS
Dato che le autovalutazioni sono un riflesso conscio dello stato emotivo del soggetto dinanzi
allo stimolo, non ci si aspetterebbe nessuna differenza tra le valutazioni per la musica e le
valutazioni per i videoclip.
La figura mostra la distribuzione delle autovalutazioni AV fornite dai 30 soggetti. Blu, viola,
nero e rosso rappresentano, rispettivamente:
• HAHV – High Arousal – High Valence
• LAHV – Low Arousal – High Valence
• LALV – Low Arousal – Low Valence
• HALV – High Arousal – Low Valence
Sono anche stati condotti dei test per
verificare se la caratteristica di
Arousal relativa a musica e
videoclip, influenzi la
caratteristica di Valence. I test
hanno mostrato che i valori di Valence
si distaccano sensibilmente dai valori di
HA relativi alla musica e ai videoclip e dai valori di LA relativi ai videoclip, mentre valori
più vicini sono stati trovati coi valori di LA relativi ai videoclip. Analogamente, risultati
simili sono stati osservati confrontando i valori di Arousal con quelli di HV relativi a musica
e videoclip, così come quelli LV.
Tratto e tradotto dall'omonimo documento IEEE
5. ESTRAZIONE DEI VALORI
CARATTERISTICHE hEOG
Il segnale hEOG ha informazioni relative ai movimenti oculari, punto di messa a fuoco e
battito di ciglia. L’attività dei muscoli facciali e dei battiti appare sotto forma di
componenti ad alta frequenza all’interno del segnale.
Movimento degli occhi: Per estrarre l’informazione relativa al movimento degli occhi, è
stato applicato un filtro passa-basso sul segnale e poi ne è stata estratta la densità spettrale
di potenza (PSD) in una fascia da [0;2]Hz con risoluzione frequenziale di 0.2Hz e
risoluzione temporale di 50ms. Quindi, per ogni secondo, è stata calcolata la media dei
PSD nei range di frequenza:
[0, 0.1) [0.1, 0.2) [0.2, 0.3) [0.3, 0.4) [0.4, 0.6) [0.6, 1.0) [1.0, 1.5) [1.5, 2)
Attività dei muscoli facciali: L’attività dei muscoli facciali si relaziona principalmente
con i muscoli zigomatici. In questo caso, si è limitato il segnale alla banda [105;145]Hz e
se ne estratta la PSD, calcolandone la media per ogni secondo all’interno degli intervalli
frequenziali: .
[105, 115) [115, 130]) [130, 145)
Dato che esistono molti muscoli che controllano l’attività facciale, si sono usate tre bande
per poter rifinire l’informazione associata alle attività muscolari; dunque, per ogni secondo,
si sono ottenuti tre valori di attività zigomatica.
CARATTERISTICHE ECG
Battito cardiaco: Si sono rilevati i battiti cardiaci attraverso dei picchi nel segnale ECG.
Dopo la rimozione delle componenti a bassa frequenza, i picchi sono stati rilevati come picchi
in ampiezza. Conseguentemente, sono stati calcolati gli intervalli tra battiti (IBI – inter-
beat-itervals), la frequenza cardiaca (HR – Hear Rate) e la variazione di frequenza
cardiaca (HRV – Heart Rate Variability).
Sono state calcolate due caratteristiche al secondo da cui sono state ottenute misure su IBI,
HR e HRV durante i 50 secondi di ciascuna prova utilizzata per il riconoscimento
dell’emozione.
Densità spettrale di potenza: l’ECG è stato registrato alla frequenza di campionamento
di 1KHz e poi ne è stata estratta la frequenza in una banda di [0;5]Hz. Quindi, all’interno
Tratto e tradotto dall'omonimo documento IEEE
dei seguenti intervalli, è stata calcolata la PSD media e usata come caratteristica del segnale,
avendo, dunque, a disposizione 11 valori al secondo.
(0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 1] (1, 1.5]
(1.5, 2] (2, 2.5] (2.5, 5.0]
Infine, si è sottocampionato il PSD da 1KHz a 256Hz e rimosso i frequency drift
(un offset arbitrario di un’oscillazione dalla sua frequenza nominale) e si è effettuata una
stima del PSD in una finestra di 15sr (sr = signal sampling rate). Si è usata la media nelle
bande:
[0, 0.1) [0.1, 0.2) [0.2, 0.3) [0.3, 0.4)
CARATTERISTICHE tEMG
L’EMG riesce a captare lo stress mentale del soggetto. Dato che sono stati piazzati degli
elettrodi per l’EMG, al di sopra del trapezio, sono stati osservati degli artefatti nel segnale
relativo al cuore e dunque, l’EMG si struttura di due componenti:
• attività cardiaca come il battito che può essere generalmente posizionato nella banda
[0;45]Hz
• il tEMG che può essere ottenuto dalle bande [55;95)Hz, [105;145)Hz
Attività cardiaca: Si è filtrato in modo passa-basso il segnale all’interno dei 45Hz
e poi estratto il PSD con una risoluzione temporale di 0.2Hz e 50ms. Per ogni secondo
e per ogni prova, si è calcolato il PSD medio all’interno delle seguenti bande in modo da
descrivere l’attività cardiaca nel momento in cui il segnale ECG non fosse stato
disponibile:
[0, 0.5) [0.5, 1.5) [1.5, 2.5) [2.5, 3.5) [3.5, 5) [5, 10) [10, 15) [15, 25) [25, 45)
Attività muscolare: Si è filtrato in modo passa-basso il segnale all’interno dei 55-
145Hz e poi estratto il PSD con una risoluzione temporale di 1Hz e 500ms. Per ogni
secondo e per ogni prova, si è calcolato il PSD medio all’interno delle seguenti bande in
modo da caratterizzare l’attività del muscolo trapezioidale.
[55, 95) [105, 145])
Tratto e tradotto dall'omonimo documento IEEE
6. CORRELAZIONE TRA MEG E AUTOVALUTAZIONI
Siano definite le seguenti bande:
⎩
⎨
⎧
𝜃𝜃 = [3 − 8]𝐻𝐻𝐻𝐻
𝛼𝛼 = [8 − 14]𝐻𝐻𝐻𝐻
𝛽𝛽 = [14 − 30]𝐻𝐻𝐻𝐻
𝛾𝛾 = [30 − 45]𝐻𝐻𝐻𝐻
OSSERVAZIONI
Si è calcolata una correlazione tra i valori di PSD precedentemente estratti e le
autovalutazioni dei partecipanti ai test. Conseguentemente, per ogni soggetto, prova,
emozione e banda di frequenze, si è calcolata la correlazione in modo da ottenere 102 tipi
di output diversi. Per entrambi gli stimoli visivi e musicali, si è osservata una
correlazione negativa tra 𝜶𝜶, 𝜷𝜷, 𝜸𝜸 e i livelli di Arousal sul lobo parietale e occipitale
(ossia la sezione centrale superiore del cervello e la sezione posteriore). Invece, sul lobo
temporale e occipitale (ossia la sezione centrale inferiore del cervello e la sezione
posteriore) si è osservata una correlazione positiva tra 𝜶𝜶, 𝜷𝜷, 𝜸𝜸 e i livelli di Valence.
Si noti che il lobo temporale e occipitale codificano le informazioni audio-visive di basso
livello, responsabili dell’induzione di emozioni. La possibilità che l’attività muscolare facciale,
evidente alle alte frequenze, influenzi le correlazioni osservate tra Valence/Arousal e MEG,
è minima, in quanto l’attività facciale si presenta sia per stimoli positivi che per
stimoli negativi.
Infine, alcune correlazioni negative sono state osservate nel loro parietale e alcune
correlazioni positive nel lobo occipitale tra Dominance e 𝜷𝜷, 𝜸𝜸.
MUSICA VS VIDEO
Correlazioni più grandi e significative si sono osservate per i videoclip, in confronto ai video
con musica, il che suggerisce che le emozioni sono più forti e consistenti se evocate con stimoli
visivi. Tuttavia, un numero maggiore di correlazioni è stato osservato su tutte le bande di
Arousal per quanto riguarda i video con musica.
Tratto e tradotto dall'omonimo documento IEEE
7. PROCESSO DI CLASSIFICAZIONE E DISCUSSIONE DEI
RISULTATI
Sulla base di ogni utente, si è tentato di riconoscere i parametri di Valence (V), Arousal (A),
Dominance (D) per i test di musica/video come alti/bassi in base alle risposte dei test MEG.
Data l’elevata soggettività nelle risposte dei soggetti, sono state usate delle
etichette specifiche per ogni utente per ogni stimolo. Tuttavia, dato che l’etichetta
relativo a uno stimolo dovrebbe rappresentare la percezione della popolazione dei
soggetti piuttosto che quella del singolo individuo, si è ripetuta la classificazione sia
per una classificazione Population-Based (PB) che Subject-Based (SB).
Sotto l’etichettatura PB, ogni stimolo ha ricevuto un’etichetta high/low (V/A/D) in base al
fatto se il test avesse restituito un valore più alto o più basso dell’autovalutazione
della popolazione per lo stimolo proposto. Allo stesso modo, l’etichetta SB per ogni
stimolo denota se il test avesse restituito un valore maggiore o minore della media
delle autovalutazioni del soggetto.
Sempre con etichetta PB, la proporzione tra classi positive e negative è abbastanza
sbilanciata per musica e video Arousal, mentre con etichetta SB si ottiene un bilanciamento
migliore per video Valence e musica Arousal. Per dimostrare quanto la maggiore risoluzione
spaziale del MEG vada a beneficio del riconoscimento emotivo, si presentano i risultati
raggiunti con caratteristiche estratte esclusivamente da ciascun lobo cerebrale
singolarmente e poi una concatenazione delle caratteristiche da tutti i lobi.
I risultati ottenuti dimostrano chiaramente l’assunto di cui sopra. Per tutte le condizioni,
nelle prestazioni di classificazione ottenute con le caratteristiche MEG con almeno uno dei
lobi cerebrali, i risultati sono simili o migliori rispetto a quando le caratteristiche di ogni
lobo sono poste insieme. I migliori punteggi Arousal di musica e video si sono ottenuti con
il lobo temporale destro, mentre questo, insieme al lobo temporale sinistro, codifica meglio
l’informazione di Valence di musica e video. Migliori prestazioni di dominanza si sono
ottenute nel lobo frontale destro per i video e nel lobo parietale sinistro per la musica.
Un’altra osservazione saliente è che, nonostante la soggettività nella percezione ed
espressione emotiva, il riconoscimento delle emozioni diventa più semplice e con
più probabilità di riuscita, dopo aver associato le risposte fisiologiche per ogni
utente con una etichetta relativa a uno stimolo assegnata dalla popolazione.
In buona sostanza, i tag delle emozioni sono assegnati ai video o alle musiche in
base alla percezione del general audience, non sulla percezione individuale.
Tratto e tradotto dall'omonimo documento IEEE
I risultati ottenuti puntano anche alla complementarietà di segnali differenti per la codifica
delle emozioni. I segnali MEG, si è visto, vanno effettivamente a codificare i valori di Arousal
e Dominance, mentre i segnali fisiologici periferici codificano efficientemente il valore di
Valence. Si è visto che anche le espressioni facciali codificano Valence, mentre le
caratteristiche audio-visive hanno lo stesso scopo con i valori di Arousal.
Questa complementarietà è stata evidente nel momento di trovare le migliori informazioni
per riconoscere Valence e Arousal.
Tratto e tradotto dall'omonimo documento IEEE

More Related Content

Similar to DECAF - Database per scoprire le risposte fisiologiche emotive

Le codifiche audio percettive
Le codifiche audio percettiveLe codifiche audio percettive
Le codifiche audio percettiveDavide Cilano
 
Eye movement integration therapy Italiano (Kazanxhi)
Eye movement integration therapy Italiano  (Kazanxhi)Eye movement integration therapy Italiano  (Kazanxhi)
Eye movement integration therapy Italiano (Kazanxhi)Elton Kazanxhi
 
Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...
 Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari... Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...
Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...MerqurioEditore_redazione
 
5 c 2009 organi di senso cap24
5 c 2009  organi di senso cap245 c 2009  organi di senso cap24
5 c 2009 organi di senso cap24leodolcevita
 
Easy perception lab - work in progress a Gennaio 2014
Easy perception lab - work in progress a Gennaio 2014Easy perception lab - work in progress a Gennaio 2014
Easy perception lab - work in progress a Gennaio 2014Apulian ICT Living Labs
 
Thesis for bachelor's degree (italian)
Thesis for bachelor's degree (italian)Thesis for bachelor's degree (italian)
Thesis for bachelor's degree (italian)Walter Papetti
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeimartini
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeimartini
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeiva martini
 
Tesi di laurea di Josip Mihovilović
Tesi di laurea di Josip MihovilovićTesi di laurea di Josip Mihovilović
Tesi di laurea di Josip MihovilovićJosip Mihovilovic
 
Il sistema visivo umano
Il sistema visivo umanoIl sistema visivo umano
Il sistema visivo umanoAntonio Tandoi
 
Percezione sensazione
Percezione sensazionePercezione sensazione
Percezione sensazioneimartini
 

Similar to DECAF - Database per scoprire le risposte fisiologiche emotive (15)

Le codifiche audio percettive
Le codifiche audio percettiveLe codifiche audio percettive
Le codifiche audio percettive
 
Poster meeting ita
Poster meeting itaPoster meeting ita
Poster meeting ita
 
Eye movement integration therapy Italiano (Kazanxhi)
Eye movement integration therapy Italiano  (Kazanxhi)Eye movement integration therapy Italiano  (Kazanxhi)
Eye movement integration therapy Italiano (Kazanxhi)
 
Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...
 Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari... Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...
Monitoraggio intraoperatorio del nervo facciale negli interventi otorinolari...
 
5 c 2009 organi di senso cap24
5 c 2009  organi di senso cap245 c 2009  organi di senso cap24
5 c 2009 organi di senso cap24
 
Easy perception lab - work in progress a Gennaio 2014
Easy perception lab - work in progress a Gennaio 2014Easy perception lab - work in progress a Gennaio 2014
Easy perception lab - work in progress a Gennaio 2014
 
Thesis for bachelor's degree (italian)
Thesis for bachelor's degree (italian)Thesis for bachelor's degree (italian)
Thesis for bachelor's degree (italian)
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociative
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociative
 
Lezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociativeLezione 7 8 somatosensoriale, motorio, aree asociative
Lezione 7 8 somatosensoriale, motorio, aree asociative
 
Tesi di laurea di Josip Mihovilović
Tesi di laurea di Josip MihovilovićTesi di laurea di Josip Mihovilović
Tesi di laurea di Josip Mihovilović
 
Il sistema visivo umano
Il sistema visivo umanoIl sistema visivo umano
Il sistema visivo umano
 
bagni
bagnibagni
bagni
 
Percezione sensazione
Percezione sensazionePercezione sensazione
Percezione sensazione
 
Macchina2 g
Macchina2 gMacchina2 g
Macchina2 g
 

More from Antonio Tandoi

Cibi omonimi a personaggi storici
Cibi omonimi a personaggi storiciCibi omonimi a personaggi storici
Cibi omonimi a personaggi storiciAntonio Tandoi
 
La Rosa Bianca, i ragazzi che si opposero a Hitler
La Rosa Bianca, i ragazzi che si opposero a HitlerLa Rosa Bianca, i ragazzi che si opposero a Hitler
La Rosa Bianca, i ragazzi che si opposero a HitlerAntonio Tandoi
 
Dante in veste di medico - La medicina nella Divina Commedia
Dante in veste di medico - La medicina nella Divina CommediaDante in veste di medico - La medicina nella Divina Commedia
Dante in veste di medico - La medicina nella Divina CommediaAntonio Tandoi
 
La seconda guerra punica - Storia completa
La seconda guerra punica - Storia completaLa seconda guerra punica - Storia completa
La seconda guerra punica - Storia completaAntonio Tandoi
 
Grecia contro Cartagine: la battaglia di Hymera
Grecia contro Cartagine: la battaglia di HymeraGrecia contro Cartagine: la battaglia di Hymera
Grecia contro Cartagine: la battaglia di HymeraAntonio Tandoi
 
Storia dei simboli matematici
Storia dei simboli matematiciStoria dei simboli matematici
Storia dei simboli matematiciAntonio Tandoi
 
Situazione politica del Venezuela
Situazione politica del VenezuelaSituazione politica del Venezuela
Situazione politica del VenezuelaAntonio Tandoi
 
Dispensa di Cyber Security
Dispensa di Cyber SecurityDispensa di Cyber Security
Dispensa di Cyber SecurityAntonio Tandoi
 
Il modello standard della materia
Il modello standard della materiaIl modello standard della materia
Il modello standard della materiaAntonio Tandoi
 
Funzionamento della Scala Richter
Funzionamento della Scala RichterFunzionamento della Scala Richter
Funzionamento della Scala RichterAntonio Tandoi
 
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...Un sistema di video streaming per contenuti streaming immersivi e riduzione d...
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...Antonio Tandoi
 
Tcp Westwood - Stima della banda
Tcp Westwood - Stima della bandaTcp Westwood - Stima della banda
Tcp Westwood - Stima della bandaAntonio Tandoi
 
Tcp - Congestion avoidance and control
Tcp - Congestion avoidance and controlTcp - Congestion avoidance and control
Tcp - Congestion avoidance and controlAntonio Tandoi
 
Page ranking - Portare ordine sul web
Page ranking - Portare ordine sul webPage ranking - Portare ordine sul web
Page ranking - Portare ordine sul webAntonio Tandoi
 
Ingegneria della conoscenza
Ingegneria della conoscenzaIngegneria della conoscenza
Ingegneria della conoscenzaAntonio Tandoi
 

More from Antonio Tandoi (20)

Cibi omonimi a personaggi storici
Cibi omonimi a personaggi storiciCibi omonimi a personaggi storici
Cibi omonimi a personaggi storici
 
La Rosa Bianca, i ragazzi che si opposero a Hitler
La Rosa Bianca, i ragazzi che si opposero a HitlerLa Rosa Bianca, i ragazzi che si opposero a Hitler
La Rosa Bianca, i ragazzi che si opposero a Hitler
 
Dante in veste di medico - La medicina nella Divina Commedia
Dante in veste di medico - La medicina nella Divina CommediaDante in veste di medico - La medicina nella Divina Commedia
Dante in veste di medico - La medicina nella Divina Commedia
 
La corsa al Polo Sud
La corsa al Polo SudLa corsa al Polo Sud
La corsa al Polo Sud
 
La seconda guerra punica - Storia completa
La seconda guerra punica - Storia completaLa seconda guerra punica - Storia completa
La seconda guerra punica - Storia completa
 
Grecia contro Cartagine: la battaglia di Hymera
Grecia contro Cartagine: la battaglia di HymeraGrecia contro Cartagine: la battaglia di Hymera
Grecia contro Cartagine: la battaglia di Hymera
 
Storia dei simboli matematici
Storia dei simboli matematiciStoria dei simboli matematici
Storia dei simboli matematici
 
Situazione politica del Venezuela
Situazione politica del VenezuelaSituazione politica del Venezuela
Situazione politica del Venezuela
 
Dispensa di Cyber Security
Dispensa di Cyber SecurityDispensa di Cyber Security
Dispensa di Cyber Security
 
Dispensa di PL-SQL
Dispensa di PL-SQLDispensa di PL-SQL
Dispensa di PL-SQL
 
Il modello standard della materia
Il modello standard della materiaIl modello standard della materia
Il modello standard della materia
 
Funzionamento della Scala Richter
Funzionamento della Scala RichterFunzionamento della Scala Richter
Funzionamento della Scala Richter
 
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...Un sistema di video streaming per contenuti streaming immersivi e riduzione d...
Un sistema di video streaming per contenuti streaming immersivi e riduzione d...
 
Tcp Westwood - Stima della banda
Tcp Westwood - Stima della bandaTcp Westwood - Stima della banda
Tcp Westwood - Stima della banda
 
Tcp - Congestion avoidance and control
Tcp - Congestion avoidance and controlTcp - Congestion avoidance and control
Tcp - Congestion avoidance and control
 
QR Code Security
QR Code SecurityQR Code Security
QR Code Security
 
Page ranking - Portare ordine sul web
Page ranking - Portare ordine sul webPage ranking - Portare ordine sul web
Page ranking - Portare ordine sul web
 
Descrizione di NO-SQL
Descrizione di NO-SQLDescrizione di NO-SQL
Descrizione di NO-SQL
 
Ingegneria della conoscenza
Ingegneria della conoscenzaIngegneria della conoscenza
Ingegneria della conoscenza
 
Funzionamento di LTE
Funzionamento di LTEFunzionamento di LTE
Funzionamento di LTE
 

DECAF - Database per scoprire le risposte fisiologiche emotive

  • 1. DECAF: Database per scoprire le risposte fisiologiche emotive 1. INTRODUZIONE Il riconoscimento delle emozioni è una necessità nell’interazione uomo-macchina. Gli utenti richiedono che possano essere implicitamente riconosciuti dal loro stato emotivo e i sistemi che effettivamente possono farlo possono farlo possono nettamente migliorare l’esperienza dell’utente. Tuttavia, il riconoscimento delle emozioni è complicato in quanto le emozioni possono manifestarsi sia esplicitamente (intonazione della voce o espressioni facciali) sia attraverso risposte fisiologiche originate dal sistema nervoso centra e periferico. Dato che la maggior parte dei contenuti multimediali è creato con l’obiettivo di suscitare un’emozione, rappresentare, misurare e predire il “contenuto emozionale” di un contenuto multimediale diventa un importante valore aggiunto di quest’ultimi. Gli approcci per predire il contenuto emotivo di un contenuto multimediale possono essere categorizzati in: • content-centric: vengono usate delle caratteristiche audio-video primitive che, tuttavia, non riescono a caratterizzare adeguatamente l’emozione percepita dall’utente • user-centric: utilizzano espressioni facciali e intonazione della voce che denotano una manifestazione emotiva conscia e contestualizzata Recentemente, gli approcci cognition-based, che utilizzano strumenti come risonanze magnetiche (fMRI) e elettro-encefalogrammi (EEG) per mappare i segnali cerebrali in presenza dell’emozione indotta, hanno acquisito importanza: la lettura dei segnali cerebrali, coniugata ai segnali fisiologici periferici, migliorano nettamente il riconoscimento emotivo in approcci user-centric. Tuttavia, l’acquisizione di segnali cerebrali affidabili è difficile e richiede laboratori specializzati con dozzine di elettrodi posizionati sullo scalpo, i quali impediscono una risposta naturale. Il magneto-encefalogramma (MEG) è una tecnologia non invasiva per captare l’attività cerebrale, richiedendo solo un minimo contatto con l’utente e assicurando, di conseguenza, una risposta più naturale e significativa, non affetta da stress.
  • 2. In questo documento si presenta DECAF, un database basato su MEG per DECodificare le risposte AFfettive degli utenti. DECAF si compone delle risposte di 30 soggetti date a 30 videoclip di 80 secondi e 40 video sonori di 1 minuto. Inoltre, DECAF contiene anche video registrati in NIR (segnali vicini all’infrarosso) delle espressioni facciali, elettro- oculogramma orizzontale (hEOG), elettro-cardiogramma (ECG) e trapezio- elettromiogramma (tEMG). 2. SELEZIONE DEGLI STIMOLI I videoclip sono stati inizialmente mostrati a 42 volontari che si sono assegnati uno stato emozionale in base a quello che doveva fornire il video: in questo modo, si sono forniti due parametri ossia il Valence Level (da molto negativo a molto positivo) e l’Arousal Level (da molto calmo a molto agitato). La combinazione di questi valori, fornisce un tag che descrive lo stato emozionale. Il primo indica il tipo di emozione, il secondo indica l’intensità dell’emozione. Infine, il parametro di Dominance misura il grado di controllo sulle emozioni provate. I 36 video selezionati sono quelli evidenziati in verde. Quelli in blu sono due video introduttivi. Una descrizione più completa delle clip è presente nella tabella seguente. Le emozioni considerate, sono dunque: amusing (spassoso), funny (divertente), happy (felice), exciting (entusiasmante), angry (arrabbiato), disgusting (disgustoso), fear (pauroso), sad (triste), shock (scioccante), per un totale di 9 stati emotivi. Tratto e tradotto dall'omonimo documento IEEE
  • 3. Tratto e tradotto dall'omonimo documento IEEE
  • 4. 3. SETUP SPERIMENTALE Vengono di seguito descritti i vari segnali registrati. MEG: la tecnologia MEG fornisce una registrazione non-invasiva dell’attività cerebrale ed è basata su dispositivi che permettono la registrazione di campi magnetici molto bassi. Infatti, i campi magnetici prodotti dal cervello umano sono dell’ordine del femtotesla (𝑓𝑓𝑓𝑓 = 10−15 𝑇𝑇) e dato che i dispositivi sono sensibili al rumore, la strumentazione MEG è stata posta in una stanza schermata magneticamente e isolata da altre installazioni elettriche. I sensori MEG non toccano direttamente la testa del soggetto, quindi il partecipante può potenzialmente muovere la testa durante i test. Tuttavia, per via dell’alta risoluzione spaziale, anche piccoli movimenti della testa causeranno una perdita del focus del sensore, che capterà segnali da un’area diversa. Per compensare, dunque, inavvertiti movimenti, si sono utilizzati degli Head Position Indicator (HPI) per determinare accuratamente la posizione della testa del soggetto. ECG: l’ECG è ben noto per la sua rilevanza nel riconoscimento emotivo. Due elettrodi sono stati posti sui polsi a un terzo è stato posto sulla parte ossea del braccio (ulna). Questa configurazione permette una rilevazione precisa del battito cardiaco quindi della frequenza cardiaca (HR – Heart Rate) e della sua variazione (HRV – Heart Rate Variability). hEOG: l’elettro-oculografia misura i movimenti degli occhi e i suoi battiti. Nel caso di tale dataset, si è misurato solo il movimento orizzontale. Inoltre, l’attività muscolare degli zigomi produci forti variazioni nei segnali EOG dunque questa analisi registra anche i movimenti dei muscoli facciali zigomatici. tEMG: persone diverse mostrano movimenti muscolari diversi di fronte a stimoli emotivi. Tuttavia, alcuni movimenti sono involontari. Il trapezio-elettromiocardiogramma viene effettuato per correlare tali movimenti con il livello di stress del soggetto. NIR Facial Videos: dato che la strumentazione MEG ha bisogno di essere elettricamente schermata, le videocamere tradizionali non possono essere usate per registrare l’attività facciale ed è per questo motivo che sono state usate delle telecamere a infrarossi. Vengono di seguito descritti le condizioni operative dei soggetti. Sono stati considerati 30 studenti universitari laureati, con un’età media di 27 anni. L’acquisizione dei dati per ogni partecipante è stata suddivisa in due sessioni – i videoclip sono stati presentati nell’una, i video con audio nell’altra. Durante ciascuna sessione, ogni contenuto multimediale è stato mostrato in ordine casuale in modo tale che due clip con lo stesso “contenuto emotivo” non fossero sequenziali. Tratto e tradotto dall'omonimo documento IEEE
  • 5. Durante ogni prova, è stata per prima mostrata una croce fissa per 4 secondi, per preparare il soggetto e valutare il suo stato di veglia. Una volta mostrato il contenuto, il soggetto aveva a disposizione un massimo di 15 secondi per valutare il suo stato emotivo, attraverso un microfono. Sono stati registrati valori di Arousal (Eccitazione) (“Quanto inteso è il tuo stato emotivo dopo aver riguardato questa clip?”) con valori da 0 (molto calmo) a 4 (molto entusiasmato), valori di Valence (Valenza) (“Come ti senti dopo aver visto questa clip?”), con una scala da -2 (molto poco piacevole) a 2 (molto piacevole) e valori di Dominance, con una scala da 0 (nessun controllo) a 4 (pieno controllo). 4. RATING ANALYSIS Dato che le autovalutazioni sono un riflesso conscio dello stato emotivo del soggetto dinanzi allo stimolo, non ci si aspetterebbe nessuna differenza tra le valutazioni per la musica e le valutazioni per i videoclip. La figura mostra la distribuzione delle autovalutazioni AV fornite dai 30 soggetti. Blu, viola, nero e rosso rappresentano, rispettivamente: • HAHV – High Arousal – High Valence • LAHV – Low Arousal – High Valence • LALV – Low Arousal – Low Valence • HALV – High Arousal – Low Valence Sono anche stati condotti dei test per verificare se la caratteristica di Arousal relativa a musica e videoclip, influenzi la caratteristica di Valence. I test hanno mostrato che i valori di Valence si distaccano sensibilmente dai valori di HA relativi alla musica e ai videoclip e dai valori di LA relativi ai videoclip, mentre valori più vicini sono stati trovati coi valori di LA relativi ai videoclip. Analogamente, risultati simili sono stati osservati confrontando i valori di Arousal con quelli di HV relativi a musica e videoclip, così come quelli LV. Tratto e tradotto dall'omonimo documento IEEE
  • 6. 5. ESTRAZIONE DEI VALORI CARATTERISTICHE hEOG Il segnale hEOG ha informazioni relative ai movimenti oculari, punto di messa a fuoco e battito di ciglia. L’attività dei muscoli facciali e dei battiti appare sotto forma di componenti ad alta frequenza all’interno del segnale. Movimento degli occhi: Per estrarre l’informazione relativa al movimento degli occhi, è stato applicato un filtro passa-basso sul segnale e poi ne è stata estratta la densità spettrale di potenza (PSD) in una fascia da [0;2]Hz con risoluzione frequenziale di 0.2Hz e risoluzione temporale di 50ms. Quindi, per ogni secondo, è stata calcolata la media dei PSD nei range di frequenza: [0, 0.1) [0.1, 0.2) [0.2, 0.3) [0.3, 0.4) [0.4, 0.6) [0.6, 1.0) [1.0, 1.5) [1.5, 2) Attività dei muscoli facciali: L’attività dei muscoli facciali si relaziona principalmente con i muscoli zigomatici. In questo caso, si è limitato il segnale alla banda [105;145]Hz e se ne estratta la PSD, calcolandone la media per ogni secondo all’interno degli intervalli frequenziali: . [105, 115) [115, 130]) [130, 145) Dato che esistono molti muscoli che controllano l’attività facciale, si sono usate tre bande per poter rifinire l’informazione associata alle attività muscolari; dunque, per ogni secondo, si sono ottenuti tre valori di attività zigomatica. CARATTERISTICHE ECG Battito cardiaco: Si sono rilevati i battiti cardiaci attraverso dei picchi nel segnale ECG. Dopo la rimozione delle componenti a bassa frequenza, i picchi sono stati rilevati come picchi in ampiezza. Conseguentemente, sono stati calcolati gli intervalli tra battiti (IBI – inter- beat-itervals), la frequenza cardiaca (HR – Hear Rate) e la variazione di frequenza cardiaca (HRV – Heart Rate Variability). Sono state calcolate due caratteristiche al secondo da cui sono state ottenute misure su IBI, HR e HRV durante i 50 secondi di ciascuna prova utilizzata per il riconoscimento dell’emozione. Densità spettrale di potenza: l’ECG è stato registrato alla frequenza di campionamento di 1KHz e poi ne è stata estratta la frequenza in una banda di [0;5]Hz. Quindi, all’interno Tratto e tradotto dall'omonimo documento IEEE
  • 7. dei seguenti intervalli, è stata calcolata la PSD media e usata come caratteristica del segnale, avendo, dunque, a disposizione 11 valori al secondo. (0, 0.1] (0.1, 0.2] (0.2, 0.3] (0.3, 0.4] (0.4, 0.5] (0.5, 0.6] (0.6, 1] (1, 1.5] (1.5, 2] (2, 2.5] (2.5, 5.0] Infine, si è sottocampionato il PSD da 1KHz a 256Hz e rimosso i frequency drift (un offset arbitrario di un’oscillazione dalla sua frequenza nominale) e si è effettuata una stima del PSD in una finestra di 15sr (sr = signal sampling rate). Si è usata la media nelle bande: [0, 0.1) [0.1, 0.2) [0.2, 0.3) [0.3, 0.4) CARATTERISTICHE tEMG L’EMG riesce a captare lo stress mentale del soggetto. Dato che sono stati piazzati degli elettrodi per l’EMG, al di sopra del trapezio, sono stati osservati degli artefatti nel segnale relativo al cuore e dunque, l’EMG si struttura di due componenti: • attività cardiaca come il battito che può essere generalmente posizionato nella banda [0;45]Hz • il tEMG che può essere ottenuto dalle bande [55;95)Hz, [105;145)Hz Attività cardiaca: Si è filtrato in modo passa-basso il segnale all’interno dei 45Hz e poi estratto il PSD con una risoluzione temporale di 0.2Hz e 50ms. Per ogni secondo e per ogni prova, si è calcolato il PSD medio all’interno delle seguenti bande in modo da descrivere l’attività cardiaca nel momento in cui il segnale ECG non fosse stato disponibile: [0, 0.5) [0.5, 1.5) [1.5, 2.5) [2.5, 3.5) [3.5, 5) [5, 10) [10, 15) [15, 25) [25, 45) Attività muscolare: Si è filtrato in modo passa-basso il segnale all’interno dei 55- 145Hz e poi estratto il PSD con una risoluzione temporale di 1Hz e 500ms. Per ogni secondo e per ogni prova, si è calcolato il PSD medio all’interno delle seguenti bande in modo da caratterizzare l’attività del muscolo trapezioidale. [55, 95) [105, 145]) Tratto e tradotto dall'omonimo documento IEEE
  • 8. 6. CORRELAZIONE TRA MEG E AUTOVALUTAZIONI Siano definite le seguenti bande: ⎩ ⎨ ⎧ 𝜃𝜃 = [3 − 8]𝐻𝐻𝐻𝐻 𝛼𝛼 = [8 − 14]𝐻𝐻𝐻𝐻 𝛽𝛽 = [14 − 30]𝐻𝐻𝐻𝐻 𝛾𝛾 = [30 − 45]𝐻𝐻𝐻𝐻 OSSERVAZIONI Si è calcolata una correlazione tra i valori di PSD precedentemente estratti e le autovalutazioni dei partecipanti ai test. Conseguentemente, per ogni soggetto, prova, emozione e banda di frequenze, si è calcolata la correlazione in modo da ottenere 102 tipi di output diversi. Per entrambi gli stimoli visivi e musicali, si è osservata una correlazione negativa tra 𝜶𝜶, 𝜷𝜷, 𝜸𝜸 e i livelli di Arousal sul lobo parietale e occipitale (ossia la sezione centrale superiore del cervello e la sezione posteriore). Invece, sul lobo temporale e occipitale (ossia la sezione centrale inferiore del cervello e la sezione posteriore) si è osservata una correlazione positiva tra 𝜶𝜶, 𝜷𝜷, 𝜸𝜸 e i livelli di Valence. Si noti che il lobo temporale e occipitale codificano le informazioni audio-visive di basso livello, responsabili dell’induzione di emozioni. La possibilità che l’attività muscolare facciale, evidente alle alte frequenze, influenzi le correlazioni osservate tra Valence/Arousal e MEG, è minima, in quanto l’attività facciale si presenta sia per stimoli positivi che per stimoli negativi. Infine, alcune correlazioni negative sono state osservate nel loro parietale e alcune correlazioni positive nel lobo occipitale tra Dominance e 𝜷𝜷, 𝜸𝜸. MUSICA VS VIDEO Correlazioni più grandi e significative si sono osservate per i videoclip, in confronto ai video con musica, il che suggerisce che le emozioni sono più forti e consistenti se evocate con stimoli visivi. Tuttavia, un numero maggiore di correlazioni è stato osservato su tutte le bande di Arousal per quanto riguarda i video con musica. Tratto e tradotto dall'omonimo documento IEEE
  • 9. 7. PROCESSO DI CLASSIFICAZIONE E DISCUSSIONE DEI RISULTATI Sulla base di ogni utente, si è tentato di riconoscere i parametri di Valence (V), Arousal (A), Dominance (D) per i test di musica/video come alti/bassi in base alle risposte dei test MEG. Data l’elevata soggettività nelle risposte dei soggetti, sono state usate delle etichette specifiche per ogni utente per ogni stimolo. Tuttavia, dato che l’etichetta relativo a uno stimolo dovrebbe rappresentare la percezione della popolazione dei soggetti piuttosto che quella del singolo individuo, si è ripetuta la classificazione sia per una classificazione Population-Based (PB) che Subject-Based (SB). Sotto l’etichettatura PB, ogni stimolo ha ricevuto un’etichetta high/low (V/A/D) in base al fatto se il test avesse restituito un valore più alto o più basso dell’autovalutazione della popolazione per lo stimolo proposto. Allo stesso modo, l’etichetta SB per ogni stimolo denota se il test avesse restituito un valore maggiore o minore della media delle autovalutazioni del soggetto. Sempre con etichetta PB, la proporzione tra classi positive e negative è abbastanza sbilanciata per musica e video Arousal, mentre con etichetta SB si ottiene un bilanciamento migliore per video Valence e musica Arousal. Per dimostrare quanto la maggiore risoluzione spaziale del MEG vada a beneficio del riconoscimento emotivo, si presentano i risultati raggiunti con caratteristiche estratte esclusivamente da ciascun lobo cerebrale singolarmente e poi una concatenazione delle caratteristiche da tutti i lobi. I risultati ottenuti dimostrano chiaramente l’assunto di cui sopra. Per tutte le condizioni, nelle prestazioni di classificazione ottenute con le caratteristiche MEG con almeno uno dei lobi cerebrali, i risultati sono simili o migliori rispetto a quando le caratteristiche di ogni lobo sono poste insieme. I migliori punteggi Arousal di musica e video si sono ottenuti con il lobo temporale destro, mentre questo, insieme al lobo temporale sinistro, codifica meglio l’informazione di Valence di musica e video. Migliori prestazioni di dominanza si sono ottenute nel lobo frontale destro per i video e nel lobo parietale sinistro per la musica. Un’altra osservazione saliente è che, nonostante la soggettività nella percezione ed espressione emotiva, il riconoscimento delle emozioni diventa più semplice e con più probabilità di riuscita, dopo aver associato le risposte fisiologiche per ogni utente con una etichetta relativa a uno stimolo assegnata dalla popolazione. In buona sostanza, i tag delle emozioni sono assegnati ai video o alle musiche in base alla percezione del general audience, non sulla percezione individuale. Tratto e tradotto dall'omonimo documento IEEE
  • 10. I risultati ottenuti puntano anche alla complementarietà di segnali differenti per la codifica delle emozioni. I segnali MEG, si è visto, vanno effettivamente a codificare i valori di Arousal e Dominance, mentre i segnali fisiologici periferici codificano efficientemente il valore di Valence. Si è visto che anche le espressioni facciali codificano Valence, mentre le caratteristiche audio-visive hanno lo stesso scopo con i valori di Arousal. Questa complementarietà è stata evidente nel momento di trovare le migliori informazioni per riconoscere Valence e Arousal. Tratto e tradotto dall'omonimo documento IEEE