1. Παύλος Αυγουστινάκης - 8111
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
Υπό την επίβλεψη των
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο
από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς
μάθησης
Θεσσαλονίκη, Μάρτιος 2020
κ. Γιώργο Κορδοπάτη-Ζήλο
Υποψήφιος Διδάκτωρ
ΙΠΤΗΛ ΕΚΕΤΑ
κ. Ανδρέα Λ. Συμεωνίδη
Αναπληρωτής Καθηγητής
ΑΠΘ
κ. Συμεών Παπαδόπουλο
Ερευνητής
ΙΠΤΗΛ ΕΚΕΤΑ
2. Κίνητρο
Περιορισμένη έρευνα πάνω στο πρόβλημα της ανάκτησης βίντεο με
βάση το ηχητικό περιεχόμενο.
Μη ύπαρξη ερευνών που να εξετάζουν τη χρήση βαθιάς μάθησης.
Σε προβλήματα ανάκτησης με βάση τον ήχο, η μεταφορά μάθησης έχει
εξεταστεί ελάχιστα, λόγω της μη ύπαρξης συνόλου δεδομένων
μεγάλης κλίμακας, μέχρι πρόσφατα.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
2
3. Κίνητρο
Προκύπτει το ερώτημα:
Μπορούν οι τεχνικές βαθιάς μάθησης και μεταφοράς μάθησης, που
χρησιμοποιούνται σε προβλήματα ανάκτησης με βάση το οπτικό
περιεχόμενο, να εφαρμοστούν ικανοποιητικά στην ανάκτηση βίντεο με
βάση το ηχητικό περιεχόμενο;
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
3
4. Συμβολή της διπλωματικής
εργασίας
Δημιουργία ενός συστήματος ανάκτησης βίντεο με βάση το ηχητικό
περιεχόμενο, με χρήση τεχνικών βαθιάς μάθησης.
Μεταφορά μάθησης από ένα συνελικτικό νευρωνικό δίκτυο, εκπαιδευμένο σε
ένα μεγάλης κλίμακας σύνολο δεδομένων ηχητικών γεγονότων.
Προσαρμογή πάνω στο ηχητικό περιεχόμενο, των βασικών στοιχείων της
μεθόδου ViSiL, η οποία είναι state of the art στην ανάκτηση βίντεο με βάση το
οπτικό περιεχόμενο.
* Η μέθοδος που προτείνεται στην εργασία, ονομάζεται ViSiLaudio .
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
4
5. Γνώσεις που αποκτήθηκαν
Αλγόριθμοι Βαθιάς Μάθησης
Επεξεργασία δεδομένων στην Python
Βιβλιοθήκη βαθιάς μάθησης TensorFlow
Τεχνικές επεξεργασίας ήχου
Ερευνητική Διαδικασία
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
5
6. Μεθοδολογία
Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου
Υπολογισμός ομοιότητας μεταξύ των βίντεο
Πίνακας ομοιότητας
ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
Εκπαίδευση
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
6
7. Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
Δημιουργία φασματογραφήματος του ηχητικού σήματος.
Διαχωρισμός του φασματογραφήματος σε χρονικά παράθυρα μεγέθους 2
sec με επικάλυψη 1 sec.
Εξαγωγή χαρακτηριστικών από τα ενδιάμεσα συνελικτικά επίπεδα ενός
ΣΝΔ, που έχει εκπαιδευτεί σε σύνολο δεδομένων ηχητικών γεγονότων
μεγάλης κλίμακας.
Για κάθε χρονικό παράθυρο προκύπτει χαρακτηριστικό διάνυσμα 2528
στοιχείων.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
7
8. Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
Εφαρμογή PCA whitening.
Αποσυσχέτιση των στοιχείων του χαρακτηριστικού διανύσματος.
Εφαρμογή Μηχανισμού Προσοχής.
Βαροδότηση κάθε χαρακτηριστικού διανύσματος, ανάλογα με τη
σημαντικότητά του στον υπολογισμό της ομοιότητας.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
8
9. Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
9
10. Πίνακας ομοιότητας
Σύγκριση δύο εξεταζόμενων βίντεο.
Υπολογισμός σκορ ομοιότητας κάθε χρονικού παραθύρου του ενός
βίντεο με κάθε χρονικό παράθυρο του άλλου.
Εφαρμογή εσωτερικού γινομένου μεταξύ των χαρακτηριστικών
διανυσμάτων.
Προκύπτει πίνακας ομοιότητας διάστασης NxM, όπου N, Μ τα πλήθη
των χρονικών παραθύρων των συγκρινόμενων βίντεο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
10
11. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
Ο πίνακας ομοιότητας προωθείται σε ένα ΣΝΔ 6 επιπέδων, ικανό να
αναγνωρίσει χρονικά μοτίβα μεταξύ των βίντεο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
11
12. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
Στην έξοδο του δικτύου εφαρμόζεται η συνάρτηση ενεργοποίησης Htanh,
με σκοπό τον περιορισμό των τιμών στο εύρος [-1, 1].
Το τελικό σκορ ομοιότητας μεταξύ δύο βίντεο, προκύπτει σύμφωνα με τη
συνάρτηση Chamfer Similarity.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
12
13. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
Παράδειγμα εισόδου και εξόδου του ΣΝΔ.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
13
14. Εκπαίδευση
Συνάρτηση κόστους τριπλετών (triplet loss)
Αυξάνει το σκορ ομοιότητας μεταξύ σχετικών βίντεο και τη μειώνει μεταξύ
άσχετων.
Η χρήση της συνάρτησης κόστους τριπλετών προϋποθέτει την οργάνωση του
συνόλου εκπαίδευσης σε τριπλέτες από βίντεο, που περιέχουν το βασικό
βίντεο, ένα σχετικό και ένα άσχετο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
14
15. Εκπαίδευση
Συνάρτηση ομαλοποίησης ομοιότητας (regularization)
Θέτει ποινή για τιμές εκτός του ορίου [-1, 1] της εξόδου του ΣΝΔ ομοιότητας
βίντεο-σε-βίντεο.
Ολική συνάρτηση κόστους
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
15
16. Σύνοψη του συνολικού δικτύου
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
16
17. Αποτελέσματα
Σύνολο εκπαίδευσης: VCDB (video copy database)
• Παραγωγή ̴5.8M τριπλετών βίντεο.
Σύνολα αξιολόγησης:
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο:
Προσθήκη σχολιασμών (annotation) που αφορούν τις ηχητικές σχέσεις μεταξύ των βίντεο,
στο σύνολο δεδομένων FIVR-200K. Έτσι, προκύπτει το πρόβλημα Ανάκτησης Βίντεο
Διπλότυπου Ήχου (Duplicate Audio Video Retrieval – DAVR).
o Για τη γρήγορη αξιολόγηση διάφορων μοντέλων του δικτύου, χρησιμοποιήθηκε ένα υποσύνολο του
παραπάνω συνόλου, που αποτελείται από 50 βίντεο ερωτήματα, το 35% των βίντεο με διπλότυπο
ήχο και 5000 άσχετα βίντεο.
Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο:
FIVR-200K (Fine-grained Incident Video Retrieval)
EVVE (EVent VidEo)
SVD (short video dataset)
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
17
18. Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
18
Εξέταση εκδοχών εκπαίδευσης του δικτύου, ανάλογα με την ενημέρωση
του δικτύου εξαγωγής χαρακτηριστικών κατά την εκπαίδευση.
Σύγκριση απόδοσης των εκδοχών εκπαίδευσης, πάνω σε υποσύνολο
δεδομένων του FIVR-200K, στο πρόβλημα ανάκτησης βίντεο με βάση το ηχητικό
περιεχόμενο
35%
78%
19. Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
19
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο.
Σύγκριση ViSiLaudio με υλοποιήσεις state of the art μεθόδων,
πάνω στο πρόβλημα DAVR του FIVR-200K
14%
34%
20. Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
20
Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο.
FIVR-200K
EVVE
SVD
21. Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
21
Συνδυασμός με την οπτική μέθοδο ViSiL, σε επίπεδο του σκορ ομοιότητας.
FIVR-200K
EVVE
22. Συμπεράσματα
Η εφαρμογή των τεχνικών βαθιάς μάθησης και μεταφοράς μάθησης
έχουν ικανοποιητικά αποτελέσματα στην ανάκτηση βίντεο με βάση το
ηχητικό περιεχόμενο.
Η προτεινόμενη μέθοδος ξεπερνάει σημαντικά σε απόδοση τις state of
the art στις περισσότερες περιπτώσεις.
Ο συνδυασμός του προτεινόμενου δικτύου με την οπτική μέθοδο ViSiL,
ενισχύει μεν τα αποτελέσματα, αλλά σε πολύ μικρό βαθμό.
Η περαιτέρω εκπαίδευση του δικτύου εξαγωγής χαρακτηριστικών οδηγεί
σε υπερεκπαίδευση.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
22
23. Μελλοντική Έρευνα
Εξέταση εξαγωγής χαρακτηριστικών που χρησιμοποιούνται ευρέως στην
επεξεργασία ήχου (MFCC, spectral centroid κτλ).
Εξέταση της προτεινόμενης μεθοδολογίας πάνω στο πρόβλημα της
ανίχνευσης διασκευών τραγουδιών. Εκπαίδευση του δικτύου πάνω σε
κατάλληλο σύνολο δεδομένων.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
23
24. Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές
μεγάλης κλίμακας, με χρήση βαθιάς μάθησης
24
Ευχαριστώ για την προσοχή σας!