To image inpainting είναι η διαδικασία επιδιόρθωσης μιας αλλοιωμένης ή/και κατεστραμμένης περιοχής σε μια εικόνα από την οποία απουσιάζει μέρος νοηματικής πληροφορίας και κατά συνέπεια παρουσιάζεται έλλειψη νοηματικής συνέχειας. Σχεδιάστηκε αρχικά με σκοπό την αποτελεσματική επιδιόρθωση κατ εστραμμένων περιοχών σε εικόνες. Γρήγορα, όμως, χρησιμοποιήθηκε με σκοπό την πλαστογράφηση και την παραπλάνηση. Τα τελευταία χρόνια, οι μέθοδοι που εφαρμόζουν inpainting σε εικόνες χρησι μοποιώντας μοντέλα τεχνητής νοημοσύνης, πετυχαίνουν όλο και ποιοτικότερα αποτελέσματα παρά γοντας εικόνες όπου η αλλοίωση τους, σε ορισμένες περιπτώσεις, είναι αδύνατον να εντοπιστεί με το ανθρώπινο μάτι. Κρίνεται αναγκαία λοιπόν η δημιουργία ενός μηχανισμού, που θα εντοπίζει αυτές ακριβώς τις αλλοιώσεις. Για το λόγο αυτό, η παρούσα διπλωματική εργασία εστιάζει στη μελέτη των μεθόδων εντοπισμού του inpainting σε εικόνες, αλλά και στην υλοποίηση ενός δικτύου τεχνητής νοημοσύνης ικανού να ανιχνεύει τις περιοχές όπου μια εικόνα έχει αλλοιωθεί μέσω inpainting. Εκ παιδεύτηκαν και έλεγχθηκαν συνολικά οχτώ δίκτυα, βασισμένα σε δύο αρχιτεκτονικές συνελικτικών νευρωνικών δικτύων, προτεινόμενες από σχετική βιβλιογραφία. Η εκπαίδευση πραγματοποιήθηκε με δύο διαφορετικά σύνολα ρυθμίσεων, για 10 και 50 εποχές αντίστοιχα και ως συνάρτηση κόστους χρησι μοποιήθηκε η Binary Cross Entropy (BCE). Επίσης, μελετήθηκε το κατά πόσο η χρήση ενός συνόλου δεδομένων αποτελούμενο από εικόνες που έχουν υποστεί inpainting σε σημασιολογικές περιοχές, βο ηθάει περισσότερο από ένα αντίστοιχο με εικόνες που έχουν υποστεί inpainting σε τυχαίες περιοχές στη διαδικασία του εντοπισμού του. Για το λόγο αυτό, δημιουργήθηκαν δύο σύνολα εκπαίδευσης (train set) από τα οποία το πρώτο αποτελείται από εικόνες με τυχαίες μάσκες inpainting, ενώ το δεύτερο απο εικόνες με μάσκες σημασιολογικής μορφής. Ο έλεγχος έγινε με τη χρήση ενός συνόλου ελέγχου (test set) αποτελούμενο και από τις 2 μορφές μασκών για να δοθεί μια αντικειμενική ερμηνεία των αποτε λεσμάτων. Σε κάθε ένα από τα εκπαιδευμένα δίκτυα, δόθηκε ως είσοδος μία έγχρωμη RGB είκονα I με σκοπό να παράξει στην έξοδο του την προβλεμόμενη μάσκα Mo. Τέλος, δεδομένης της πραγματικής μάσκας Mg πραγματοποιήθηκε 1-1 σύγκριση των αντίστοιχων εικονοστοιχείων και υπολογίστηκαν οι τιμές των μετρικών απόδοσης AUC και ΙοU. Αποδείχθηκε πως η εκπαίδευση με εικόνες που έχουν αλλοιωθεί σε τυχαίες περιοχές τους (τυχαίες μάσκες) οδηγεί σε καλύτερα αποτελέσματα εντοπισμού του inpainting, από ότι η εκπαίδευση με εικόνες που έχουν αλλοιωθεί σε σημασιολογικές περιοχές (αντικείμενα).
Design and implementation of an automation mechanism to automatically develop...
Εντοπισμός του Image Inpainting με Μεθόδους Τεχνητής Νοημοσύνης
1. Εντοπισμός της διαδικασίας inpainting
σε εικόνες με μεθόδους τεχνητής
νοημοσύνης
Aριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών
Παπαδόπουλος Σταύρος 8697
Επιβλέπων: Αν. Καθηγητής Ανδρέας Λ. Συμεωνίδης
Συνεπιβλέποντες: Δρ. Συμεών Παπαδόπουλος, Δρ. Γεώργιος Κορδοπάτης-Ζήλος
Ημερομηνία: 12/11/2021
9. Διαχωρισμός των συνόλων δεδομένων σε
εκπαίδευσης, επικύρωσης και ελέγχου.
• Πηγές δεδομένων: DEFACTO Object Removal Dataset (25k εικόνες), Diverse Inpainting Dataset (DID) (10Κ εικόνες)
• Περίπτωση Α: Σύνολο εκπαίδευσης και επικύρωσης από DEFACTO
• 90% από το DEFACTO (συν. 24Κ εικόνες)
• Το 90% (21.600 εικόνες) χρησιμοποιήθηκε ως σύνολο εκπαίδευσης
• Το 10% (2.400 εικόνες) χρησιμοποιήθηκε ως σύνολο επικύρωσης
• Περίπτωση Β: Σύνολο εκπαίδευσης και επικύρωσης από το DID
• 90% από το DID (συν. 9Κ εικόνες)
• Το 90% (8.100 εικόνες) χρησιμοποιήθηκε ως σύνολο εκπαίδευσης
• Το 10% (900 εικόνες) χρησιμοποιήθηκε ως σύνολο επικύρωσης
• Σύνολο ελέγχου: 2000 εικόνες από DEFACTO και DID
• 1000 από DEFACTO
• 1000 από DID
10. Προτεινόμενες Αρχιτεκτονικές
• ΗP-FCN
• Τμήμα προ-επεξεργασίας με ΗP φίλτρα
• Τμήμα εξαγωγής χαρακτηριστικών
• Τμήμα πρόβλεψης κλάσης σε επίπεδο εικονοστοιχείων
• ΗRNet
• Tμήμα προ-επεξεργασίας
• Τμήμα παράλληλων συνελίξεων πολλαπλών αναλύσεων
• Τμήμα επαναλαμβανόμενων συγχωνεύσεων πολλαπλών αναλύσεων
• Τμήμα τελικής αναπαράστασης
11. Εκπαίδευση Μοντέλων
• Υλοποίηση και εκπαίδευση 8 δικτύων βασισμένα σε 2 state-of-the-art αρχιτεκτονικές.
• 2 σύνολα ρυθμίσεων εκπαίδευσης
• Περίπτωση Α
• 10 εποχές (Epochs)
• Ρυθμός εκπαίδευσης (learning rate) μειώνεται στο μίσο μετά από κάθε εποχή
• Adam optimizer
• Binary Cross Entropy (BCE) ως συνάρτηση απώλειας (loss function)
• Περίπτωση B
• 50 εποχές (Epochs)
• Ρυθμός εκπαίδευσης (learning rate) μειώνεται στο μίσο μετά από κάθε εποχή (για εποχή >30)
• Adam optimizer
• Binary Cross Entropy (BCE) ως συνάρτηση απώλειας (loss function)
12. Πειράματα & Αποτελέσματα
• Έλεγχος 8 δικτύων βασισμένα σε 2 state-of-the-art αρχιτεκτονικές
• Σύνολο ελέγχου: Mεικτό σύνολο (2000 εικόνες από DID & DEFACTO)
• Μετρικές απόδοσης: ΑUC και ΙoU
• Εντοπισμός Ιnpainting
• Eίσοδος: Έγχρωμη εικόνα I από σύνολο ελέγχου (mxnx3)
• Έξοδος: Μάσκα πρόβλεψης (mxnx1) Mo.
• Τιμή κατωφλιού: Χρησιμοποιήθηκαν τρεις διαφορετικές τιμές κατωφλιού (0.5, 0.65, 0.7).
15. Ποσοτική μέτρηση της απόδοσης των
μοντέλων κατά τη διαδικασία του ελέγχου
Aρχιτεκτονική Train Set Epochs AUC IoU 50 IoU 65 IoU 70
HP-FCN DID 10 72.30% 8.79% 61.59% 70.29%
HP-FCN DEFACTO 10 67.72% 8.79% 70.24% 70.22%
HRNET DID 10 66.46% 47.34% 58.44% 61.97%
HRNET DEFACTO 10 62.80% 69.88% 69.88% 69.89%
HP-FCN DID 50 77.5% 9.89% 54.18% 61.59%
HP-FCN DEFACTO 50 70.83% 8.80% 70.99% 70.87%
HRNET DID 50 66.41% 43.50% 50.54% 53.32%
HRNET DEFACTO 50 65.45% 70.40% 70.39% 70.38%
16. Συμπεράσματα
• Εκπαίδευση με τυχαίες ή σημασιολογικές μασκες; Τυχαιες
• Σύγκριση με βάση τη μετρική AUC
• Εξήγηση: Τυχαίες μάσκες μπορούν να αποτελέσουν βασικά δομικά τμήματα των σημασιολογικών
μασκών
•
Aρχιτεκτονική Train Set Epochs AUC
HP-FCN DID 10 72.30%
HP-FCN DEFACTO 10 67.72%
Aρχιτεκτονική Train Set Epochs AUC
HP-FCN DID 50 77.5%
HP-FCN DEFACTO 50 70.83%
Aρχιτεκτονική Train Set Epochs AUC
HRNET DID 10 66.46%
HRNET DEFACTO 10 62.80%
Aρχιτεκτονική Train Set Epochs AUC
HRNET DID 50 66.41%
HRNET DEFACTO 50 65.45%
17. Συμπεράσματα
• Το ΗP-FCN έχει καλύτερη επίδοση απο το HRNet όταν προσαρμόζεται καταλλήλως το threshold
• Εξήγηση: Οφείλεται στο pre-processing που κάνει στην εικόνα
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DID 10 72.30% 61.59% 70.29%
HRNET DID 10 66.46% 58.44% 61.97%
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DEFACTO 10 67.72% 70.24% 70.22%
HRNET DEFACTO 10 62.80% 69.88% 69.89
18. Συμπεράσματα
• Το ΗP-FCN έχει καλύτερη επίδοση απο το HRNet όταν προσαρμόζεται καταλλήλως το threshold
• Εξήγηση: Οφείλεται στο pre-processing που κάνει στην εικόνα
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DID 50 77.5% 54.18% 61.59%
HRNET DID 50 66.41% 50.54% 53.32%
Aρχιτεκτονικ Train Set Epochs AUC IoU 65 IoU 70
HP-FCN DEFACTO 50 70.83% 70.99% 70.87%
HRNET DEFACTO 50 65.45% 70.39% 70.38%
19. Συμπεράσματα
• Το 2ο σύνολο ρυθμίσεων βελτίωσε τα αποτελέσματα
• Εξήγηση: Περισσότερες εποχές -> ποιοτικότερη εκμάθηση των χαρακτηριστικών των μασκών.
Aρχιτεκτονικ Train Set Epochs AUC
HP-FCN DID 10 72.30%
HP-FCN DID 50 77.5%
Aρχιτεκτονικ Train Set Epochs AUC
HP-FCN DEFACTO 10 67.72%
HP-FCN DEFACTO 50 70.83%
Aρχιτεκτονικ Train Set Epochs AUC
HRNET DID 10 66.46%
HRNET DID 50 66.41%
Aρχιτεκτονικ Train Set Epochs AUC
HRNET DEFACTO 10 62.80%
HRNET DEFACTO 50 65.45%
20. Μελλοντική Εργασία
• Η δημιουργία ενός ποιοτικότερου συνόλου δεδομένων
• Ικανού Μεγέθους
• Διάφορες τεχνικές inpainting
• Ποικιλία μασκών
• Χρήση ισχυρότερου υπολογιστικού συστήματος
• Μεγαλύτερο batch size
• Αποφυγή rescaling
• Μείωση χρόνου εκπαίδευσης
• Ρύθμιση υπερπαραμέτρων δικτύου