Pavlos Avgoustinakis: Video retrieval based on audio content from large scale collections using deep learning

Παύλος Αυγουστινάκης - 8111
ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ
ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ
ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ
ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ
Υπό την επίβλεψη των
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο
από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς
μάθησης
Θεσσαλονίκη, Μάρτιος 2020
κ. Γιώργο Κορδοπάτη-Ζήλο
Υποψήφιος Διδάκτωρ
ΙΠΤΗΛ ΕΚΕΤΑ
κ. Ανδρέα Λ. Συμεωνίδη
Αναπληρωτής Καθηγητής
ΑΠΘ
κ. Συμεών Παπαδόπουλο
Ερευνητής
ΙΠΤΗΛ ΕΚΕΤΑ
Κίνητρο
 Περιορισμένη έρευνα πάνω στο πρόβλημα της ανάκτησης βίντεο με
βάση το ηχητικό περιεχόμενο.
 Μη ύπαρξη ερευνών που να εξετάζουν τη χρήση βαθιάς μάθησης.
 Σε προβλήματα ανάκτησης με βάση τον ήχο, η μεταφορά μάθησης έχει
εξεταστεί ελάχιστα, λόγω της μη ύπαρξης συνόλου δεδομένων
μεγάλης κλίμακας, μέχρι πρόσφατα.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
2
Κίνητρο
Προκύπτει το ερώτημα:
 Μπορούν οι τεχνικές βαθιάς μάθησης και μεταφοράς μάθησης, που
χρησιμοποιούνται σε προβλήματα ανάκτησης με βάση το οπτικό
περιεχόμενο, να εφαρμοστούν ικανοποιητικά στην ανάκτηση βίντεο με
βάση το ηχητικό περιεχόμενο;
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
3
Συμβολή της διπλωματικής
εργασίας
 Δημιουργία ενός συστήματος ανάκτησης βίντεο με βάση το ηχητικό
περιεχόμενο, με χρήση τεχνικών βαθιάς μάθησης.
 Μεταφορά μάθησης από ένα συνελικτικό νευρωνικό δίκτυο, εκπαιδευμένο σε
ένα μεγάλης κλίμακας σύνολο δεδομένων ηχητικών γεγονότων.
 Προσαρμογή πάνω στο ηχητικό περιεχόμενο, των βασικών στοιχείων της
μεθόδου ViSiL, η οποία είναι state of the art στην ανάκτηση βίντεο με βάση το
οπτικό περιεχόμενο.
* Η μέθοδος που προτείνεται στην εργασία, ονομάζεται ViSiLaudio .
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
4
Γνώσεις που αποκτήθηκαν
 Αλγόριθμοι Βαθιάς Μάθησης
 Επεξεργασία δεδομένων στην Python
 Βιβλιοθήκη βαθιάς μάθησης TensorFlow
 Τεχνικές επεξεργασίας ήχου
 Ερευνητική Διαδικασία
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
5
Μεθοδολογία
 Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου
 Υπολογισμός ομοιότητας μεταξύ των βίντεο
 Πίνακας ομοιότητας
 ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
 Εκπαίδευση
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
6
Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
 Δημιουργία φασματογραφήματος του ηχητικού σήματος.
 Διαχωρισμός του φασματογραφήματος σε χρονικά παράθυρα μεγέθους 2
sec με επικάλυψη 1 sec.
 Εξαγωγή χαρακτηριστικών από τα ενδιάμεσα συνελικτικά επίπεδα ενός
ΣΝΔ, που έχει εκπαιδευτεί σε σύνολο δεδομένων ηχητικών γεγονότων
μεγάλης κλίμακας.
 Για κάθε χρονικό παράθυρο προκύπτει χαρακτηριστικό διάνυσμα 2528
στοιχείων.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
7
Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
 Εφαρμογή PCA whitening.
 Αποσυσχέτιση των στοιχείων του χαρακτηριστικού διανύσματος.
 Εφαρμογή Μηχανισμού Προσοχής.
 Βαροδότηση κάθε χαρακτηριστικού διανύσματος, ανάλογα με τη
σημαντικότητά του στον υπολογισμό της ομοιότητας.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
8
Εξαγωγή χαρακτηριστικών από το
κανάλι του ήχου
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
9
Πίνακας ομοιότητας
 Σύγκριση δύο εξεταζόμενων βίντεο.
 Υπολογισμός σκορ ομοιότητας κάθε χρονικού παραθύρου του ενός
βίντεο με κάθε χρονικό παράθυρο του άλλου.
 Εφαρμογή εσωτερικού γινομένου μεταξύ των χαρακτηριστικών
διανυσμάτων.
 Προκύπτει πίνακας ομοιότητας διάστασης NxM, όπου N, Μ τα πλήθη
των χρονικών παραθύρων των συγκρινόμενων βίντεο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
10
ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
 Ο πίνακας ομοιότητας προωθείται σε ένα ΣΝΔ 6 επιπέδων, ικανό να
αναγνωρίσει χρονικά μοτίβα μεταξύ των βίντεο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
11
ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
 Στην έξοδο του δικτύου εφαρμόζεται η συνάρτηση ενεργοποίησης Htanh,
με σκοπό τον περιορισμό των τιμών στο εύρος [-1, 1].
 Το τελικό σκορ ομοιότητας μεταξύ δύο βίντεο, προκύπτει σύμφωνα με τη
συνάρτηση Chamfer Similarity.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
12
ΣΝΔ ομοιότητας βίντεο-σε-βίντεο
 Παράδειγμα εισόδου και εξόδου του ΣΝΔ.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
13
Εκπαίδευση
 Συνάρτηση κόστους τριπλετών (triplet loss)
 Αυξάνει το σκορ ομοιότητας μεταξύ σχετικών βίντεο και τη μειώνει μεταξύ
άσχετων.
 Η χρήση της συνάρτησης κόστους τριπλετών προϋποθέτει την οργάνωση του
συνόλου εκπαίδευσης σε τριπλέτες από βίντεο, που περιέχουν το βασικό
βίντεο, ένα σχετικό και ένα άσχετο.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
14
Εκπαίδευση
 Συνάρτηση ομαλοποίησης ομοιότητας (regularization)
 Θέτει ποινή για τιμές εκτός του ορίου [-1, 1] της εξόδου του ΣΝΔ ομοιότητας
βίντεο-σε-βίντεο.
 Ολική συνάρτηση κόστους
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
15
Σύνοψη του συνολικού δικτύου
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
16
Αποτελέσματα
 Σύνολο εκπαίδευσης: VCDB (video copy database)
• Παραγωγή ̴5.8M τριπλετών βίντεο.
 Σύνολα αξιολόγησης:
 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο:
 Προσθήκη σχολιασμών (annotation) που αφορούν τις ηχητικές σχέσεις μεταξύ των βίντεο,
στο σύνολο δεδομένων FIVR-200K. Έτσι, προκύπτει το πρόβλημα Ανάκτησης Βίντεο
Διπλότυπου Ήχου (Duplicate Audio Video Retrieval – DAVR).
o Για τη γρήγορη αξιολόγηση διάφορων μοντέλων του δικτύου, χρησιμοποιήθηκε ένα υποσύνολο του
παραπάνω συνόλου, που αποτελείται από 50 βίντεο ερωτήματα, το 35% των βίντεο με διπλότυπο
ήχο και 5000 άσχετα βίντεο.
 Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο:
 FIVR-200K (Fine-grained Incident Video Retrieval)
 EVVE (EVent VidEo)
 SVD (short video dataset)
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
17
Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
18
 Εξέταση εκδοχών εκπαίδευσης του δικτύου, ανάλογα με την ενημέρωση
του δικτύου εξαγωγής χαρακτηριστικών κατά την εκπαίδευση.
Σύγκριση απόδοσης των εκδοχών εκπαίδευσης, πάνω σε υποσύνολο
δεδομένων του FIVR-200K, στο πρόβλημα ανάκτησης βίντεο με βάση το ηχητικό
περιεχόμενο
35%
78%
Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
19
 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο.
Σύγκριση ViSiLaudio με υλοποιήσεις state of the art μεθόδων,
πάνω στο πρόβλημα DAVR του FIVR-200K
14%
34%
Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
20
 Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο.
FIVR-200K
EVVE
SVD
Αποτελέσματα
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
21
 Συνδυασμός με την οπτική μέθοδο ViSiL, σε επίπεδο του σκορ ομοιότητας.
FIVR-200K
EVVE
Συμπεράσματα
 Η εφαρμογή των τεχνικών βαθιάς μάθησης και μεταφοράς μάθησης
έχουν ικανοποιητικά αποτελέσματα στην ανάκτηση βίντεο με βάση το
ηχητικό περιεχόμενο.
 Η προτεινόμενη μέθοδος ξεπερνάει σημαντικά σε απόδοση τις state of
the art στις περισσότερες περιπτώσεις.
 Ο συνδυασμός του προτεινόμενου δικτύου με την οπτική μέθοδο ViSiL,
ενισχύει μεν τα αποτελέσματα, αλλά σε πολύ μικρό βαθμό.
 Η περαιτέρω εκπαίδευση του δικτύου εξαγωγής χαρακτηριστικών οδηγεί
σε υπερεκπαίδευση.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
22
Μελλοντική Έρευνα
 Εξέταση εξαγωγής χαρακτηριστικών που χρησιμοποιούνται ευρέως στην
επεξεργασία ήχου (MFCC, spectral centroid κτλ).
 Εξέταση της προτεινόμενης μεθοδολογίας πάνω στο πρόβλημα της
ανίχνευσης διασκευών τραγουδιών. Εκπαίδευση του δικτύου πάνω σε
κατάλληλο σύνολο δεδομένων.
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης
κλίμακας, με χρήση βαθιάς μάθησης
23
Μάρτιος 2020
Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές
μεγάλης κλίμακας, με χρήση βαθιάς μάθησης
24
Ευχαριστώ για την προσοχή σας!
1 of 24

Recommended

Optical discs Presentation by
Optical discs PresentationOptical discs Presentation
Optical discs Presentationstd05197
372 views24 slides
11ο ΚΕΦΑΛΑΙΟ-ΠΟΛΥΜΕΣΑ - Α Λυκείου by
11ο ΚΕΦΑΛΑΙΟ-ΠΟΛΥΜΕΣΑ - Α Λυκείου11ο ΚΕΦΑΛΑΙΟ-ΠΟΛΥΜΕΣΑ - Α Λυκείου
11ο ΚΕΦΑΛΑΙΟ-ΠΟΛΥΜΕΣΑ - Α ΛυκείουΔημήτρης Ναστούλας
872 views30 slides
Επεξεργασία βίντεο by
Επεξεργασία βίντεοΕπεξεργασία βίντεο
Επεξεργασία βίντεοTheresa Giakoumatou
1.8K views19 slides
δημιουργια μαθησιακου υλικου πολυμεσων και υπερμεσων by
δημιουργια μαθησιακου υλικου πολυμεσων και υπερμεσωνδημιουργια μαθησιακου υλικου πολυμεσων και υπερμεσων
δημιουργια μαθησιακου υλικου πολυμεσων και υπερμεσωνguest94c5bf8
776 views19 slides
Creating an Open Archival Information System compliant archive for CERN by
Creating an Open Archival Information System compliant archive for CERNCreating an Open Archival Information System compliant archive for CERN
Creating an Open Archival Information System compliant archive for CERNISSEL
6 views35 slides
Δημιουργία ενός Ανοιχτού Αρχειακού Πληροφοριακού Συστήματος για το CERN by
Δημιουργία ενός Ανοιχτού Αρχειακού Πληροφοριακού Συστήματος για το CERNΔημιουργία ενός Ανοιχτού Αρχειακού Πληροφοριακού Συστήματος για το CERN
Δημιουργία ενός Ανοιχτού Αρχειακού Πληροφοριακού Συστήματος για το CERNISSEL
11 views35 slides

More Related Content

Similar to Pavlos Avgoustinakis: Video retrieval based on audio content from large scale collections using deep learning

Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur... by
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Manos Tsardoulias
26 views25 slides
Sem by
SemSem
Semlamiareport
258 views33 slides
Sem by
SemSem
Semlamiareport
377 views33 slides
Sem by
SemSem
Semlamiareport
284 views33 slides
Sem by
SemSem
Semlamiareport
202 views33 slides
πώς να φτιάξετε μια καλή παρουσίαση για τη by
πώς να φτιάξετε μια καλή παρουσίαση για τηπώς να φτιάξετε μια καλή παρουσίαση για τη
πώς να φτιάξετε μια καλή παρουσίαση για τηgeorgefyttas
9.5K views28 slides

Similar to Pavlos Avgoustinakis: Video retrieval based on audio content from large scale collections using deep learning(6)

Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur... by Manos Tsardoulias
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
Despoina Touska: Video Forgery Detection using Autoencoder and Recurrent Neur...
πώς να φτιάξετε μια καλή παρουσίαση για τη by georgefyttas
πώς να φτιάξετε μια καλή παρουσίαση για τηπώς να φτιάξετε μια καλή παρουσίαση για τη
πώς να φτιάξετε μια καλή παρουσίαση για τη
georgefyttas9.5K views

More from Manos Tsardoulias

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας by
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςManos Tsardoulias
41 views14 slides
Alexandros Delitzas: Understanding website aesthetics using deep learning by
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learningManos Tsardoulias
44 views34 slides
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών... by
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Manos Tsardoulias
87 views31 slides
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu... by
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Manos Tsardoulias
37 views32 slides
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ... by
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Manos Tsardoulias
74 views22 slides
Pantelidou Eirini: Design and development of a system for incremental static ... by
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...Manos Tsardoulias
70 views26 slides

More from Manos Tsardoulias(13)

Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας by Manos Tsardoulias
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος ΗλίαςΕυρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Ευρωστία νευρωνικών δικτύων βαθειάς μάθησης - Ακανθόπουλος Ηλίας
Alexandros Delitzas: Understanding website aesthetics using deep learning by Manos Tsardoulias
Alexandros Delitzas: Understanding website aesthetics using deep learningAlexandros Delitzas: Understanding website aesthetics using deep learning
Alexandros Delitzas: Understanding website aesthetics using deep learning
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών... by Manos Tsardoulias
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Giannopoulos Nikolaos: Ανάπτυξη Τεχνικών Εξατομίκευσης Διαφημιστικών Προβολών...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu... by Manos Tsardoulias
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Evangelos Papathomas: Semantic Code Search in Software Repositories using Neu...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ... by Manos Tsardoulias
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Charis Eleftheriadis. Towards evaluating Deep Neural Networks’ Robustness to ...
Pantelidou Eirini: Design and development of a system for incremental static ... by Manos Tsardoulias
Pantelidou Eirini: Design and development of a system for incremental static ...Pantelidou Eirini: Design and development of a system for incremental static ...
Pantelidou Eirini: Design and development of a system for incremental static ...
Gougousis Dimitris: Development of an automated machine learning system for p... by Manos Tsardoulias
Gougousis Dimitris: Development of an automated machine learning system for p...Gougousis Dimitris: Development of an automated machine learning system for p...
Gougousis Dimitris: Development of an automated machine learning system for p...
Theofilos Georgiadis: Library recommendation system for the reuse of software... by Manos Tsardoulias
Theofilos Georgiadis: Library recommendation system for the reuse of software...Theofilos Georgiadis: Library recommendation system for the reuse of software...
Theofilos Georgiadis: Library recommendation system for the reuse of software...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn... by Manos Tsardoulias
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Kelesakis Dimitrios thesis: Enhancing the conversion rate of e-shops with dyn...
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH by Manos Tsardoulias
Pandora Robotics Team - 2007 to 2015 - ECE, AUTHPandora Robotics Team - 2007 to 2015 - ECE, AUTH
Pandora Robotics Team - 2007 to 2015 - ECE, AUTH
Manos Tsardoulias1.3K views
Full coverage of a priori known map from multiple robotic agents by Manos Tsardoulias
Full coverage of a priori known map from multiple robotic agentsFull coverage of a priori known map from multiple robotic agents
Full coverage of a priori known map from multiple robotic agents

Pavlos Avgoustinakis: Video retrieval based on audio content from large scale collections using deep learning

  • 1. Παύλος Αυγουστινάκης - 8111 ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ Υπό την επίβλεψη των Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης Θεσσαλονίκη, Μάρτιος 2020 κ. Γιώργο Κορδοπάτη-Ζήλο Υποψήφιος Διδάκτωρ ΙΠΤΗΛ ΕΚΕΤΑ κ. Ανδρέα Λ. Συμεωνίδη Αναπληρωτής Καθηγητής ΑΠΘ κ. Συμεών Παπαδόπουλο Ερευνητής ΙΠΤΗΛ ΕΚΕΤΑ
  • 2. Κίνητρο  Περιορισμένη έρευνα πάνω στο πρόβλημα της ανάκτησης βίντεο με βάση το ηχητικό περιεχόμενο.  Μη ύπαρξη ερευνών που να εξετάζουν τη χρήση βαθιάς μάθησης.  Σε προβλήματα ανάκτησης με βάση τον ήχο, η μεταφορά μάθησης έχει εξεταστεί ελάχιστα, λόγω της μη ύπαρξης συνόλου δεδομένων μεγάλης κλίμακας, μέχρι πρόσφατα. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 2
  • 3. Κίνητρο Προκύπτει το ερώτημα:  Μπορούν οι τεχνικές βαθιάς μάθησης και μεταφοράς μάθησης, που χρησιμοποιούνται σε προβλήματα ανάκτησης με βάση το οπτικό περιεχόμενο, να εφαρμοστούν ικανοποιητικά στην ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο; Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 3
  • 4. Συμβολή της διπλωματικής εργασίας  Δημιουργία ενός συστήματος ανάκτησης βίντεο με βάση το ηχητικό περιεχόμενο, με χρήση τεχνικών βαθιάς μάθησης.  Μεταφορά μάθησης από ένα συνελικτικό νευρωνικό δίκτυο, εκπαιδευμένο σε ένα μεγάλης κλίμακας σύνολο δεδομένων ηχητικών γεγονότων.  Προσαρμογή πάνω στο ηχητικό περιεχόμενο, των βασικών στοιχείων της μεθόδου ViSiL, η οποία είναι state of the art στην ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο. * Η μέθοδος που προτείνεται στην εργασία, ονομάζεται ViSiLaudio . Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 4
  • 5. Γνώσεις που αποκτήθηκαν  Αλγόριθμοι Βαθιάς Μάθησης  Επεξεργασία δεδομένων στην Python  Βιβλιοθήκη βαθιάς μάθησης TensorFlow  Τεχνικές επεξεργασίας ήχου  Ερευνητική Διαδικασία Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 5
  • 6. Μεθοδολογία  Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου  Υπολογισμός ομοιότητας μεταξύ των βίντεο  Πίνακας ομοιότητας  ΣΝΔ ομοιότητας βίντεο-σε-βίντεο  Εκπαίδευση Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 6
  • 7. Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου  Δημιουργία φασματογραφήματος του ηχητικού σήματος.  Διαχωρισμός του φασματογραφήματος σε χρονικά παράθυρα μεγέθους 2 sec με επικάλυψη 1 sec.  Εξαγωγή χαρακτηριστικών από τα ενδιάμεσα συνελικτικά επίπεδα ενός ΣΝΔ, που έχει εκπαιδευτεί σε σύνολο δεδομένων ηχητικών γεγονότων μεγάλης κλίμακας.  Για κάθε χρονικό παράθυρο προκύπτει χαρακτηριστικό διάνυσμα 2528 στοιχείων. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 7
  • 8. Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου  Εφαρμογή PCA whitening.  Αποσυσχέτιση των στοιχείων του χαρακτηριστικού διανύσματος.  Εφαρμογή Μηχανισμού Προσοχής.  Βαροδότηση κάθε χαρακτηριστικού διανύσματος, ανάλογα με τη σημαντικότητά του στον υπολογισμό της ομοιότητας. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 8
  • 9. Εξαγωγή χαρακτηριστικών από το κανάλι του ήχου Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 9
  • 10. Πίνακας ομοιότητας  Σύγκριση δύο εξεταζόμενων βίντεο.  Υπολογισμός σκορ ομοιότητας κάθε χρονικού παραθύρου του ενός βίντεο με κάθε χρονικό παράθυρο του άλλου.  Εφαρμογή εσωτερικού γινομένου μεταξύ των χαρακτηριστικών διανυσμάτων.  Προκύπτει πίνακας ομοιότητας διάστασης NxM, όπου N, Μ τα πλήθη των χρονικών παραθύρων των συγκρινόμενων βίντεο. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 10
  • 11. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο  Ο πίνακας ομοιότητας προωθείται σε ένα ΣΝΔ 6 επιπέδων, ικανό να αναγνωρίσει χρονικά μοτίβα μεταξύ των βίντεο. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 11
  • 12. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο  Στην έξοδο του δικτύου εφαρμόζεται η συνάρτηση ενεργοποίησης Htanh, με σκοπό τον περιορισμό των τιμών στο εύρος [-1, 1].  Το τελικό σκορ ομοιότητας μεταξύ δύο βίντεο, προκύπτει σύμφωνα με τη συνάρτηση Chamfer Similarity. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 12
  • 13. ΣΝΔ ομοιότητας βίντεο-σε-βίντεο  Παράδειγμα εισόδου και εξόδου του ΣΝΔ. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 13
  • 14. Εκπαίδευση  Συνάρτηση κόστους τριπλετών (triplet loss)  Αυξάνει το σκορ ομοιότητας μεταξύ σχετικών βίντεο και τη μειώνει μεταξύ άσχετων.  Η χρήση της συνάρτησης κόστους τριπλετών προϋποθέτει την οργάνωση του συνόλου εκπαίδευσης σε τριπλέτες από βίντεο, που περιέχουν το βασικό βίντεο, ένα σχετικό και ένα άσχετο. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 14
  • 15. Εκπαίδευση  Συνάρτηση ομαλοποίησης ομοιότητας (regularization)  Θέτει ποινή για τιμές εκτός του ορίου [-1, 1] της εξόδου του ΣΝΔ ομοιότητας βίντεο-σε-βίντεο.  Ολική συνάρτηση κόστους Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 15
  • 16. Σύνοψη του συνολικού δικτύου Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 16
  • 17. Αποτελέσματα  Σύνολο εκπαίδευσης: VCDB (video copy database) • Παραγωγή ̴5.8M τριπλετών βίντεο.  Σύνολα αξιολόγησης:  Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο:  Προσθήκη σχολιασμών (annotation) που αφορούν τις ηχητικές σχέσεις μεταξύ των βίντεο, στο σύνολο δεδομένων FIVR-200K. Έτσι, προκύπτει το πρόβλημα Ανάκτησης Βίντεο Διπλότυπου Ήχου (Duplicate Audio Video Retrieval – DAVR). o Για τη γρήγορη αξιολόγηση διάφορων μοντέλων του δικτύου, χρησιμοποιήθηκε ένα υποσύνολο του παραπάνω συνόλου, που αποτελείται από 50 βίντεο ερωτήματα, το 35% των βίντεο με διπλότυπο ήχο και 5000 άσχετα βίντεο.  Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο:  FIVR-200K (Fine-grained Incident Video Retrieval)  EVVE (EVent VidEo)  SVD (short video dataset) Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 17
  • 18. Αποτελέσματα Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 18  Εξέταση εκδοχών εκπαίδευσης του δικτύου, ανάλογα με την ενημέρωση του δικτύου εξαγωγής χαρακτηριστικών κατά την εκπαίδευση. Σύγκριση απόδοσης των εκδοχών εκπαίδευσης, πάνω σε υποσύνολο δεδομένων του FIVR-200K, στο πρόβλημα ανάκτησης βίντεο με βάση το ηχητικό περιεχόμενο 35% 78%
  • 19. Αποτελέσματα Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 19  Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο. Σύγκριση ViSiLaudio με υλοποιήσεις state of the art μεθόδων, πάνω στο πρόβλημα DAVR του FIVR-200K 14% 34%
  • 20. Αποτελέσματα Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 20  Ανάκτηση βίντεο με βάση το οπτικό περιεχόμενο. FIVR-200K EVVE SVD
  • 21. Αποτελέσματα Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 21  Συνδυασμός με την οπτική μέθοδο ViSiL, σε επίπεδο του σκορ ομοιότητας. FIVR-200K EVVE
  • 22. Συμπεράσματα  Η εφαρμογή των τεχνικών βαθιάς μάθησης και μεταφοράς μάθησης έχουν ικανοποιητικά αποτελέσματα στην ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο.  Η προτεινόμενη μέθοδος ξεπερνάει σημαντικά σε απόδοση τις state of the art στις περισσότερες περιπτώσεις.  Ο συνδυασμός του προτεινόμενου δικτύου με την οπτική μέθοδο ViSiL, ενισχύει μεν τα αποτελέσματα, αλλά σε πολύ μικρό βαθμό.  Η περαιτέρω εκπαίδευση του δικτύου εξαγωγής χαρακτηριστικών οδηγεί σε υπερεκπαίδευση. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 22
  • 23. Μελλοντική Έρευνα  Εξέταση εξαγωγής χαρακτηριστικών που χρησιμοποιούνται ευρέως στην επεξεργασία ήχου (MFCC, spectral centroid κτλ).  Εξέταση της προτεινόμενης μεθοδολογίας πάνω στο πρόβλημα της ανίχνευσης διασκευών τραγουδιών. Εκπαίδευση του δικτύου πάνω σε κατάλληλο σύνολο δεδομένων. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 23
  • 24. Μάρτιος 2020 Ανάκτηση βίντεο με βάση το ηχητικό περιεχόμενο από συλλογές μεγάλης κλίμακας, με χρήση βαθιάς μάθησης 24 Ευχαριστώ για την προσοχή σας!