Good Stuff Happens in 1:1 Meetings: Why you need them and how to do them well
Predisposizione di un dataset per applicazioni di natural language generation nel dominio della critica artistica
1. Predisposizione di un dataset per
applicazioni di Natural Language
Generation nel dominio della
critica artistica
Laureando:
Stefano FURLAN
Relatore:
prof. Eric MEDVET
2. Natural Language Generation (NLG)
Trasformazione di dati in un testo in linguaggio naturale
Il testo deve essere comprensibile e attinente ai dati iniziali
Diversi metodi di implementazione
Regole o templates
Machine learning, reti neurali Tecniche supervisionate
2
3. Applicazioni dell’NLG
Redazione di riassunti sintetici a partire da un testo ampio
Revisioni automatiche di articoli scientifici
Recensioni automatiche di ristoranti
Commenti ad opere d’arte
….
3
9. Sistema di NLG
Apprendimento supervisionato
Necessità di esempi
Coppie di input – output desiderati (immagine – testo)
9
10. «Buon» esempio di coppia
opera - critica
“Widely heralded as one of the most
influential painters working today,
Luc Tuymans uses deceptively
straightforward imagery to plumb
the complexities of politics, culture,
and memory. His large-scale oil
painting Dad’s Heat, which depicts a
space heater given to him by his
father, beautifully showcases the
artist’s alchemy, transforming a
banal object into a mesmerizing
composition.”Luc Tuymans, Dad’s Heat, 2013, Oil on canvas
10
11. «Cattivo» esempio di coppia
opera-critica
“The painting illustrates a scene
from Shakespeare's The Tempest.”
Prospero and Ariel, 1797, Oil on canvas
11
12. Ricerca della sorgenti dati
Necessità di MOLTI esempi
Nell’esempio delle recensioni a ristoranti gli esempi erano circa 2.000.000
Scelta di due sorgenti di dati
Opere «contemporanee»
Opere «moderne»
Tate online collection
The web gallery of art
12
13. Sorgenti dati
Sorgente dati opere «contemporanee»
Periodo storico compreso tra il 19° e il 21° secolo
Dimensione media di una critica ~ 100 parole
Sorgente dati opere «moderne»
Periodo compreso tra l’8° e il 19° secolo
Dimensione media di una critica ~ 75 parole
13
14. Raccolta dati
Raccolta manuale per le opere «contemporanee»
Sono state raccolte ~ 1000 coppie immagine-critica
Raccolta automatizzata per le opere «moderne»
Utilizzo di uno script in Java
Sono state raccolte ~ 25.000 coppie immagine-critica
14
16. Pre-elaborazione delle immagini
Estrazione di informazioni di alto livello dalle immagini
Descrizione, colori dominanti, tag, …
Utilizzo dell’API Artificial vision di Microsoft Azure
Applicazione dell’API in maniera automatizzata a tutte le immagini del
dataset
Script in Java
16
17. «Buon» esempio pre-elaborazione
immagine
• Description { "tags": [ "person", "indoor", "man", "sitting", "front",
"woman", "playing", "window", "holding", "table", "room", "living", "young",
"laptop", "people", "standing", "phone", "computer", "video", "group", "wii" ],
"captions": [ { "text": "a man and a woman standing in front of a window",
"confidence": 0.706796467 } ] }
• Tag [ { "name": "person", "confidence": 0.975730956 } ]
• Format "Jpeg"
• Height 1078
• Width 1536
• Is BW false
• Is Adult Content false
• Adult Score 0.0500234924
• Is Racy Content false
• Racy Score 0.0279251579
• Categories [ { "name": "abstract_", "score": 0.0078125 } ]
• Faces [ { "age": 23, "gender": "Female", "faceRectangle": { "top": 262,
"left": 535, "width": 68, "height": 68 } } ]
• Dominant Color Background "Grey"
• Dominant Color Foreground "Grey"
• Dominant Color #644540
17
18. «Cattivo» esempio pre-elaborazione
immagine
• Description { "tags": [ "building", "person", "man", "old",
"holding", "front", "sitting", "standing", "wearing", "stone", "black", "door",
"suit", "glass", "cat", "blue", "white", "brick" ], "captions": [ { "text": "a man
standing in front of a building", "confidence": 0.590537548 } ] }
• Tag [ { "name": "person", "confidence": 0.916289 }, { "name":
"building", "confidence": 0.840875268 }, { "name": "old", "confidence":
0.446174175 }, { "name": "building material", "confidence": 0.374418557 }, {
"name": "stone", "confidence": 0.2538755 } ]
• Format "Jpeg"
• Height 1536
• Width 1270
• Is BW false
• Is Adult Content false
• Adult Score 0.0705073848
• Is Racy Content false
• Racy Score 0.113356553
• Categories [ { "name": "abstract_nonphoto", "score": 0.26171875 } ]
• Faces []
• Dominant Color Background "Grey"
• Dominant Color Foreground "Grey"
• Dominant Color #374C5B 18
19. Dataset finale
Organizzazione del dataset in un unico file .csv
Una riga per ogni opera
In colonna le informazioni di alto livello
19
20. Conclusioni
Contesto della generazione automatica di critiche ad opere d’arte
Raccolta coppie di esempi immagine-critica
Pre-elaborazione delle immagini
Estrazione di informazioni di alto livello
Dataset pronto per essere utilizzato per allenare un sistema di NLG
20