Πρόλογος
Το πρόβλημα τηςαντιστοίχισης εικόνων είναι ένα από τα σημαντικότερα στο πεδίο της υ-
πολογιστικής όρασης, αφού η ευθυγράμμιση δύο ή περισσότερων εικόνων χρησιμοποιείται
τουλάχιστον σαν στάδιο προεπεξεργασίας σε ένα μεγάλο αριθμό εφαρμογών. Στην εργα-
σία αυτή μας απασχόλησε το πρόβλημα της στοίχισης εικόνων στις οποίες οι φωτομετρικές
παραμορφώσεις είναι τοπικές και δεν μπορούν να μοντελοποιηθούν με το γενικό σφαιρικό
μοντέλο της αντίθεσης και της φωτεινότητας, ή/και τμήματα των προς στοίχιση εικόνων είναι
αποκλεισμένα από τη μια από αυτές.
Για την αντιμετώπιση των παραπάνω προβλημάτων, η αντιστοίχηση των εικόνων προσεγ-
γίστηκε μέσω της σταθμισμένης ελαχιστοποίησης μετρικών σφάλματος που βασίζονται στο
τετραγωνικό σφάλμα. Συγκεκριμένα, εκμεταλλευόμαστε την αμεταβλητότητα της κανονικο-
ποιημένης κλίσης μιας εικόνας σε τοπικές φωτομετρικές παραμορφώσεις και τη δυνατότητα
στοίχισης κάθε ζεύγους αντίστοιχων εικονοστοιχείων των υπό στοίχιση εικόνων με την με-
γιστοποίηση της μεταξύ τους συσχέτισης. ΄Ετσι πετυχαίνουμε την αποσύνδεση του αρχικού
προβλήματος σε δύο υποπροβλήματα η λύση των οποίων καταλήγει σε δύο υπερκαθορισμένα
συστήματα γραμμικών εξισώσεων, καθένα εκ των οποίων έχει ως αγνώστους τις ανά κατεύ-
θυνση παράμετρες του μετασχηματισμού που αναζητούμε για την εξάλειψη της γεωμετρικής
παραμόρφωσης και ως δεξιό μέλος τις τιμές των φωτομετρικών παραμορφώσεων. Τελικά, με
την επιλογή δύο κατάλληλων υποσυνόλων των προαναφερθέντων γραμμικών εξισώσεων, που
εξασφαλίζουν την εφικτότητα των επιμέρους λύσεων οδηγούμαστε στον προσδιορισμό των
βέλτιστων παραμέτρων.
Η προτεινόμενη τεχνική δοκιμάστηκε στη βάση προσώπων Yale Β που έχει χρησιμοποιη-
θεί από άλλες τεχνικές αντιστοίχισης που είναι ειδικά προσαρμοσμένες για την αντιστοίχιση
προσώπων. Η απόδοση της προτεινόμενης τεχνικής είναι πολύ καλή και υπερτερεί και στα
ποσοστά σύγκλισης αλλά και στην ακρίβεια των λύσεων από την απόδοση των άλλων τεχνι-
κών τόσο στη στοίχιση εικόνων που έχουν υποστεί γεωμετρικές παραμορφώσεις (από πολύ
μικρές μέχρι και πολύ έντονες) όσο και σε εικόνες με διαφορετικές έντονες φωτομετρικές
παραμορφώσεις. Επίσης, η προτεινόμενη τεχνική δοκιμάστηκε στις βάσεις του Affine Covari-
ance Regions του University of Oxford στις οποίες το περιεχόμενο των εικόνων είναι γενικό
και οι ειδικού σκοπού τεχνικές αποτυγχάνουν, με εξίσου πολύ καλή απόδοση.
9.
Abstract
The image registrationproblem is one of the most important problems in the field of
computer vision, since the process of aligning two or more images is used, at least as a
preprocessing step, in many applications. In this work, we employed the problem of image
alignment in which the photometric deformations are local and can not be modeled with
the general spherical model of contrast and brightness, and / or portions of images to
align are occluded.
To address these problems, the image registration was approached by minimizing the
weighted error metric based on squared error. In particular, we exploit the invariance of
the normalized image gradient in local photometric deformations so we can align each pair
of corresponding pixels in the images by maximizing the correlation between them. Thus,
we achieve to dissolve the original problem into two subproblems the solution of which
leads to two over-determined systems of linear equations, each of which has the direction
parameters of the transformation we seek to estimate as unknowns and as right member
the values of photometric deformations. Ultimately, the choice of two suitable subsets of
the above linear equations, ensuring the feasibility of individual solutions we are lead to
the identification of best parameters.
The proposed technique was tested in Yale B face database which has been used by other
mapping techniques adapted to matching persons. The performance of the proposed tech-
nique is very good and superior at the convergence rates and the accuracy of the solutions
to the performance of other techniques concerning both images that have undergone ge-
ometrical deformation (from very small to very intense) and images in different intense
photometric deformations. Also, the proposed technique was tested on database of Affine
Covariance Regions of the University of Oxford in which the content of the images is
general and special-purpose techniques fail, with equally good performance.
11.
Κεφάλαιο 1
Εισαγωγή
Η όρασηείναι η διαδικασία όπου βλέπουμε ενώ ταυτόχρονα κατανοούμε. ΄Οταν βλέπουμε
πράγματα τα μάτια μας (η αισθητήρια συσκευή) συλλαμβάνουν την εικόνα και στη συνέχεια
στέλνουν την πληροφορία στο μυαλό (η συσκευή ερμηνείας) που την ερμηνεύει και δίνει νόημα
σε αυτά που βλέπουμε. Στην υπολογιστική όραση η κάμερα είναι η αισθητήρια συσκευή και
ο υπολογιστής λειτουργεί ως συσκευή ερμηνείας[16].
1.1 Υπολογιστική ΄Οραση
Η Υπολογιστική ΄Οραση είναι μια από τους μεγαλύτερους και συνεχώς εξελισσόμενους τομείς
της επιστήμης των υπολογιστών και έχει ως στόχο τη δημιουργία συστημάτων που θα μπορούν
να εξάγουν πληροφορίες από εικόνες. Πολλές από τις σύγχρονες εφαρμογές της όπως η
πλοήγηση ρομπότ, οι δορυφορικοί χάρτες, τα συστήματα ιατρικής διάγνωσης από ακολουθίες
εικόνων μαγνητικής τομογραφίας ή ακτινογραφίες και χρησιμοποιούν τεχνικές αντιστοίχισης
εικόνων.
Η υπολογιστική όραση είναι ένας τομέας που αφορά την επεξεργασία, ανάλυση και κατανόηση
των εικόνων με σκοπό την παραγωγή αριθμητικών ή συμβολικών πληροφοριών, για παράδειγ-
μα με τη μορφή αποφάσεων. ΄Ενας στόχος της ανάπτυξης του τομέα αυτού είναι να μπορέσει
να αντιγράψει τις δυνατότητες της ανθρώπινης όρασης στην αντίληψη και κατανόηση των
εικόνων.
1
12.
ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ
Σχήμα 1.1:Σχέση ανάμεσα στην Υπολογιστική ΄Οραση και άλλα επιστημονικά πεδία
΄Οπως μπορούμε να δούμε στο Σχήμα 1 είναι προφανής η στενή σχέση της υπολογιστικής
όρασης με το πεδίο της επεξεργασίας εικόνας και της μηχανικής όρασης, όμως και πολλά άλλα
επιστημονικά πεδία χρησιμοποιούν τεχνικές της, όπως για παράδειγμα η τεχνητή νοημοσύνη
στην αναγνώριση προτύπων και η νευροβιολογία στη μελέτη του βιολογικού συστήματος
όρασης.
1.2 Ευθυγράμμιση Εικόνων
΄Ενα από τα σημαντικότερα προβλήματα της υπολογιστικής όρασης είναι η αντιστοίχιση εικό-
νων, δηλαδή η διαδικασία ‘ευθυγράμμισης’ δυο ή περισσότερων εικόνων, η οποία χρησιμοποιεί-
ται, τουλάχιστον στο στάδιο προεπεξεργασίας, στις περισσότερες εφαρμογές υπολογιστικής
όρασης.
΄Ενα αρκετά απαιτητικό πρόβλημα της αντιστοίχισης εικόνων είναι η ευθυγράμμιση προσώπων,
ιδιαίτερα όταν αυτή αφορά σε πραγματικές εικόνες. Η δυσκολία προκύπτει κυρίως από τις
πολλές διαφορετικές συνθήκες που μπορεί να επικρατούν κατά την λήψη της εικόνας, όπως
ισχυρές παραμορφώσεις, έντονα διαφορετικές συνθήκες φωτισμού, τις διαφορετικές εκφράσεις
που μπορεί να πάρει ένα πρόσωπο όπως και η χρήση αντικειμένων που μπορεί να κρύβουν
μέρος του όπως γυαλιά ηλίου ή φουλάρια, όπως μπορούμε να δούμε στο Σχήμα 2.
Σχήμα 1.2: Εικόνες με παραμορφώσεις που οφείλονται σε διαφορετικούς παράγοντες
Το πρόβλημα αυτό είναι υπαρκτό και σε εικόνες που δεν έχουν το πρόσωπο ως βασικό τους
2
13.
ΚΕΦΑΛΑΙΟ 1:ΕΙΣΑΓΩΓΗ
περιεχόμενο, ανσε αυτές βρίσκουμε παραμορφώσεις ή επικαλύψεις βασικών χαρακτηριστικών
της σκηνής, σημείων ή αντικειμένων που θα βοηθούσαν στην ευθυγράμμιση. Εφαρμογές της
ευθυγράμμισης αντικειμένων είναι η ιχνηλάτιση, η αναγνώριση και στην περίπτωση εικόνων
με πρόσωπα μοντελοποίηση προσώπου και η αλληλεπίδραση ανθρώπου υπολογιστή.
1.3 Οργάνωση
Στη συνέχεια η εργασία οργανώνεται ως εξής: Στο 2ο Κεφάλαιο παρουσιάζονται οι δι-
σδιάστατοι μετασχηματισμοί εικόνων, ορίζεται το πρόβλημα της αντιστοίχισης εικόνων και
προσδιορίζονται οι διαφορές ανάμεσα στις διαφορετικές κατηγορίες αντιστοίχισης. Στο 3ο
Κεφάλαιο παρουσιάζονται τα Active Μοντέλα Σχήματος και τα Active Appearance Μοντέλα
που χρησιμοποιούνται για τον εντοπισμό και την αναγνώριση προσώπων. Στο 4ο Κεφάλαιο
αναλύεται ο αλγόριθμος Lucas-Kanade, όπως και οι παραλλαγές του με βάρη και με χρήση
του μετασχηματισμού Fourier. Στο 5ο Κεφάλαιο παρουσιάζονται αλγόριθμοι βασισμένοι στο
κριτήριο της συσχέτισης, ο ECC (Enhanced Correlation Coefficient) και ένας αλγόριθμος
αναγνώρισης προσώπων. Τέλος στο 6ο Κεφάλαιο παρουσιάζεται ο προτεινόμενος αλγόριθμος
στοίχισης εικόνων και αποτιμάται η απόδοσή του από την εφαρμογή του σε βάσεις εικόνων
γενικού και ειδικού περιεχομένου.
3
14.
Κεφάλαιο 2
Αντιστοίχιση Εικόνων
Τοπρόβλημα της αντιστοίχισης εικόνων το συναντάμε σε πολλές σύγχρονες εφαρμογές της
υπολογιστικής όρασης και της επεξεργασίας εικόνας, που όπως βλέπουμε και στην Εικόνα
(2.1) αγγίζουν διαφορετικές πτυχές του προβλήματος αφού έχουν να κάνουν με διαχείριση
ποικίλων τύπων εικόνων (υψηλής ανάλυσης, έγχρωμες, grayscale) και στοχεύουν σε διαφο-
ρετικό αποτέλεσμα.
Η αντιστοίχιση εικόνων έχει ως στόχο την εύρεση αντίστοιχων σημείων σε δυο ή περι-
σσότερες εικόνες, τα οποία αποτελούν προβολές του ίδιου σημείου της σκηνής. Δηλαδή η
αντιστοίχιση εικόνων είναι η διαδικασία μετατροπής δυο διαφορετικών συνόλων δεδομένων
στο ίδιο σύστημα συντεταγμένων.
Σχήμα 2.1: Εφαρμογές της αντιστοίχισης εικόνων στις οποίες έμμεσα ή άμεσα πρέπει να
λυθεί το πρόβλημα της αντιστοίχισης εικόνων
4
15.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
Η αντιστοίχιση εικόνων είναι βασικό κομμάτι σε όλα σχεδόν τα μεγάλα συστήματα που διαχει-
ρίζονται εικόνες, τα οποία χρησιμοποιούν την αντιστοίχιση ή μια σχετική διαδικασία σαν εν-
διάμεσο βήμα επεξεργασίας. Αποτελεί προαπαιτούμενο για τη διαδικασία του remote sensing
για την παρακολούθηση του περιβάλλοντος, στη δημιουργία πανοραμικών εικόνων, ανάλυση
κίνησης και αναγνώριση αντικειμένων. Χρησιμοποιείται ακόμα στο medical imaging για το
συνδυασμό δεδομένων από διαφορετικές πηγές (π.χ CT - Computed Tomography και MRI
- Magnetic Resonance Imaging) ώστε να υπάρχει πιο πλήρης πληροφορία που θα οδηγεί
σε ασφαλέστερη διάγνωση. Πολλές τεχνικές αντιστοίχισης μπορούν επίσης να τρέξουν σε
πραγματικό χρόνο σε ενσωματωμένες συσκευές σε κάμερες ή σε κινητά με κάμερα.
΄Ενας αλγόριθμος αντιστοίχισης που έχει σχεδιαστεί για μια εφαρμογή μπορεί να μην δουλεύει
ή να είναι αναποτελεσματικός σε κάποια άλλη εφαρμογή. Εξαιτίας της μεγάλης ποικιλίας των
εικόνων και του διαφορετικού τύπου υποβαθμίσεων που αυτές υφίστανται, είναι αδύνατος
ο σχεδιασμός μιας τεχνικής που να είναι βέλτιστη σε όλες τις περιπτώσεις. Κάθε τεχνική
πρέπει να λαμβάνει υπόψη, εκτός από τον τύπο της παραμόρφωσης, το είδος της εικόνας, την
ύπαρξη θορύβου, την επιθυμητή ακρίβεια της αντιστοίχισης καθώς και άλλα χαρακτηριστικά
που εξαρτώνται από το είδος της εφαρμογής. Ακόμα και σε αυτή την περίπτωση οι αλγόριθμοι
έχουν περιορισμούς ως προς το μέγεθος των μετατοπίσεων ή τη γωνία της περιστροφής που
μπορούν να χειριστούν. Η έρευνα της Brown[1] αναφέρει πολλές διαφορετικές τεχνικές που
βασίζονται σε συνδυασμούς των ακόλουθων βασικών στοιχείων/συστατικών:
1. Το χώρο των χαρακτηριστικών, που περιλαμβάνει τα στοιχεία της εικόνας που θα
χρησιμοποιηθούν για την αντιστοίχιση.
2. Το χώρο αναζήτησης, που καθορίζει τους επιτρεπτούς μετασχηματισμούς μεταξύ των
εικόνων.
3. Τη στρατηγική αναζήτησης, που ορίζει τη μέθοδο με την οποία θα αναζητήσουμε
ανάμεσα στους μετασχηματισμούς ώστε να βρούμε τον κατάλληλο, και
4. Το μέτρο ομοιότητας, που θα χρησιμοποιήσουμε για να υπολογίσουμε την καταλληλό-
τητα της κάθε πιθανής λύσης.
Η πλειοψηφία των τεχνικών αντιστοίχισης χωρίζονται σε δυο μεγάλες κατηγορίες, τις feature-
based και τις area-based τεχνικές.
Οι feature-based τεχνικές εντοπίζουν σημεία ‘ενδιαφέροντος’ όπως γωνίες, τομή ευθειών
κτλ και στη συνέχεια τα χρησιμοποιούν για να υπολογίσουν μια προσέγγιση του μετασχη-
ματισμού. Οι area-based τεχνικές χειρίζονται το πρόβλημα αντιμετωπίζοντας την εικόνα ως
σύνολο και προσπαθούν να συσχετίσουν τις εικόνες υπολογίζοντας καθολικούς περιγραφείς
ή χρησιμοποιώντας την ένταση των εικονοστοιχείων (pixels) (intensity-based method).
5
16.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
2.1 Παραμετρικά μοντέλα γεωμετρικών μετασχηματισμών
Οι δισδιάστατοι γεωμετρικοί μετασχηματισμοί μπορούν γενικά να κατηγοριοποιηθούν όπως
φαίνεται στον Πίνακα ;;
Μετασχηματισμός Βαθμοί ελευθερίας Διατηρούνται
Μετατόπιση 2 Προσανατολισμός
Ευκλείδειος
(Μετατόπιση + Περιστροφή)
3 Μήκος, Εμβαδόν
Ομοιότητας
(Μετατόπιση + Περιστροφή +
Κλίμακα)
4 Αναλογία μηκών,
Γωνίες
Συγγένειας 6 Παραλληλία ευθειών,
Αναλογία περιοχών
Προβολής 8 Ευθείες γραμμές
Πίνακας 2.1: Δισδιάστατοι γεωμετρικοί μετασχηματισμοί
Το μοντέλο που θα επιλέξουμε να χρησιμοποιήσουμε σε μια εφαρμογή εξαρτάται από το
είδος της εφαρμογής. Για παράδειγμα στην περίπτωση που εξετάζουμε μια ακολουθία εικόνων
βίντεο, η οποία έχει προκύψει από υψηλή δειγματοληψία και υποθέτοντας ότι υπάρχει κίνηση
ενός αντικειμένου στη σκηνή, ένα μοντέλο μετατόπισης αρκεί για να περιγράψουμε την κίνηση
ανάμεσα σε δυο διαδοχικές εικόνες. Στις περιπτώσεις αντιστοίχισης πραγματικών εικόνων
συνήθως θεωρούμε ότι έχουμε μετασχηματισμό συγγένειας (affine), ο οποίος καλύπτει και
τις περιπτώσεις των πιο απλών μετασχηματισμών.
Στην επόμενη παράγραφο παρουσιάζονται αναλυτικά οι παραπάνω μετασχηματισμοί. Σε ότι
ακολουθεί με x = [x,y]t συμβολίζουμε το εικονοστοιχείο της αρχικής εικόνας και x = [x ,y ]t
το αντίστοιχο εικονοστοιχείο της εικόνας όπου έχουμε εφαρμόσει το μετασχηματισμό, οι
παραπάνω μετασχηματισμοί παρουσιάζονται αναλυτικά.
Σχήμα 2.2: Παράδειγμα μετασχηματισμών
6
17.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
2.1.1 Μετατόπιση
Το πιο απλό μοντέλο, η μετατόπιση ορίζεται ως εξής:
x = x+t (2.1)
όπου t = [tx,ty]t. Ο μετασχηματισμός αυτός διατηρεί όλα τα χαρακτηριστικά της εικόνας
εκτός από τη θέση της.
Σχήμα 2.3: Μετασχηματισμός μετατόπισης
2.1.2 Ευκλείδειος Μετασχηματισμός
Ο μετασχηματισμός αυτός περιλαμβάνει εκτός από μετατόπιση και περιστροφή και ορίζεται
ως:
x = Rx+t (2.2)
όπου το R το ακόλουθο μητρώο περιστροφής είναι
R =
cos(θ) −sin(θ)
sin(θ) cos(θ)
(2.3)
για το οποίο ισχύει RRT = I, είναι δηλαδή ορθοκανονικό και |R| = 1, ενώ το R−1 = RT
δηλώνει περιστροφή κατά γωνία −θ. Ο μετασχηματισμός αυτός διατηρεί τα μήκη των ευθειών
και το εμβαδόν του σχήματος.
7
18.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
Σχήμα 2.4: Ευκλείδειος μετασχηματισμός
2.1.3 Μετασχηματισμός ομοιότητας
Ο μετασχηματισμός προσθέτει στον ευκλείδειο τη δυνατότητα κλιμάκωσης της εικόνας και
ορίζεται ως:
x = sRx+t (2.4)
όπου s ένας οποιοσδήποτε αριθμός που δείχνει την κλιμάκωση. Υπάρχει η δυνατότητα να
έχουμε διαφορετική κλιμάκωση σε κάθε άξονα. Στην περίπτωση αυτή ο παράγοντας κλιμά-
κωσης αντικαθίσταται από ένα μητρώο κλιμάκωσης
S =
sx 0
0 sy
(2.5)
Ο μετασχηματισμός αυτός διατηρεί τις αναλογίες των μηκών και τις γωνίες του σχήματος,
όπως μπορούμε να δούμε στο σχήμα που ακολουθεί.
8
19.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
Σχήμα 2.5: Μετασχηματισμός ομοιότητας
2.1.4 Μετασχηματισμός συγγένειας
Ο μετασχηματισμός συγγένειας (affine transformation) ορίζεται από τη σχέση:
x = Ax+t (2.6)
όπου τα στοιχεία του 2×2 πίνακα A μπορούν να πάρουν οποιαδήποτε τιμή. Οι προηγούμε-
νοι μετασχηματισμοί αποτελούν ειδικές περιπτώσεις του affine μετασχηματισμού. Λόγω της
στρέβλωσης ο μετασχηματισμός αυτός διατηρεί μόνο την παραλληλία των ευθειών καθώς και
την αναλογία μεταξύ των περιοχών.
Σχήμα 2.6: Μετασχηματισμός συγγένειας
9
20.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
2.1.5 Μετασχηματισμός προβολής
Αντίθετα από όλους τους προηγούμενους μετασχηματισμούς που είναι γραμμικοί, ο μετασχη-
ματισμός προβολής είναι ένας μη γραμμικός μετασχηματισμός που ορίζεται ως εξής:
ˆx = Hˆx (2.7)
όπου ˆx = [ˆx/ ˆw, ˆy/ ˆw,1]t και ˆx = [x,y,1]t οι ομογενείς συντεταγμένες και H ένα 3×3 μητρώο
με h33 = 1. Στην περίπτωση που έχουμε h31 = h32 = 0 τότε έχουμε έναν affine μετασχημα-
τισμό.
Ο μετασχηματισμός προβολής διατηρεί μόνο τις ευθείες γραμμές δηλαδή όσες γραμμές ή-
ταν ευθείες παραμένουν έτσι και μετά το μετασχηματισμό, ενώ συχνά αναφέρεται και ως
ομογραφία (homography).
Σχήμα 2.7: Μετασχηματισμός προβολής
2.2 Ορισμός του προβλήματος Αντιστοίχισης
Η αντιστοίχιση εικόνων (image registration) είναι η διαδικασία κατά την οποία δημιουργούμε
ευθυγράμμιση (alignment) δυο διαφορετικών λήψεων της ίδιας σκηνής, μεταφέροντας τα
δεδομένα τους σε κοινό σύστημα συντεταγμένων. Οι λήψεις μπορεί να έχουν γίνει από
διαφορετικούς αισθητήρες, σε διαφορετικές χρονικές στιγμές, από διαφορετικές θέσεις ή
σε διαφορετικές συνθήκες φωτισμού. Η ευθυγράμμιση έχει την έννοια της αποκατάστασης
των γεωμετρικών και φωτομετρικών παραμορφώσεων που μπορεί να υπάρχουν ανάμεσα στις
συγκεκριμένες εικόνες.
Η αντιστοίχιση μπορεί να οριστεί ως η διαδικασία αναζήτησης αντίστοιχων σημείων σε δυο
εικόνες που αποτελούν προβολές της ίδιας σκηνής. ΄Εχουμε μια εικόνα T(x,y), η οποία
10
21.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
χρησιμοποιείται ως πρότυπο (template) με το οποίο συγκρίνονται οι υπόλοιπες εικόνες (ob-
servations), I(x,y) και η αντιστοίχιση στοχεύει στην ‘ευθυγράμμισή’ τους απαντώντας στο
ερώτημα
• Ποιο σημείο της I(x,y) αντιστοιχεί στο σημείο T(xi,yi)
Διαφορετικά μπορούμε να ορίσουμε την αντιστοίχιση ως την αναζήτηση της σχέσης του συ-
στήματος συντεταγμένων της μιας εικόνας με αυτό της άλλης, δηλαδή την αναζήτηση του
γεωμετρικού μετασχηματισμού τον οποίο αν εφαρμόσουμε στη μια εικόνα θα έχουμε ως α-
ποτέλεσμα μια προσέγγιση της άλλης. Ο μετασχηματισμός αυτός δεν εφαρμόζεται στις τιμές
έντασης των εικόνων, αλλά μόνο στις συντεταγμένες των εικονοστοιχείων, με αποτέλεσμα το
πρόβλημα να είναι εξορισμού μη γραμμικό, αφού δεν υπάρχει συσχέτιση των συντεταγμένων
των εικονοστοιχείων και των τιμών έντασης που αυτά εμφανίζουν. Στις περισσότερες περι-
πτώσεις δεν χρειάζεται καν η αντιστοίχιση και στις τιμές έντασης, εκτός αν για παράδειγμα
αλλάζει ο τύπος του αισθητήρα.
Το πρόβλημα της αντιστοίχισης απαιτεί την εκτίμηση της σχέσης των ανεξάρτητων μετα-
βλητών κάνοντας χρήση της πληροφορίας που παίρνουμε από τις εξαρτημένες μεταβλητές.
Στην περίπτωση των εικόνων η εξαρτημένη μεταβλητή είναι η τιμή της φωτεινότητας των
εικονοστοιχείων. ΄Αρα ο μόνος τρόπος για να πάρουμε χρήσιμες πληροφορίες για την αντι-
στοίχιση μέσω της φωτεινότητας είναι να συσχετίσουμε τις παρατηρήσεις με το γεωμετρικό
μετασχηματισμό. Για να είναι αυτό δυνατό θα πρέπει να ισχύει μια υπόθεση που είναι γνωστή
ως υπόθεση σταθερής φωτεινότητας (brightness constancy assumption). Θεωρούμε δηλαδή
ότι το κάθε εικονοστοιχείο έχει την ίδια ένταση φωτεινότητας και στις δυο εικόνες. Αν το
εικονοστοιχείο (x0,y0) του πρότυπου εμφανίζεται μετατοπισμένο κατά ∆x και ∆y στους ά-
ξονες x και y αντίστοιχα στην εικόνα παρατήρησης τότε σύμφωνα με την παραπάνω υπόθεση
ισχύει:
T(x0,y0) = I(x0 +∆x,y0 +∆y) (2.8)
Γενικά η υπόθεση αυτή ισχύει σε ελάχιστες, πολύ ειδικές περιπτώσεις.
΄Εχουμε ορίσει τις εικόνες ως δυο δισδιάστατους πίνακες T(x,y) και I(x,y) το πρότυπο και
την παρατήρηση αντίστοιχα, όπου σε κάθε κελί υπάρχει ένας πίνακας με την ένταση του κάθε
χρώματος στην περίπτωση της έγχρωμης εικόνας, την ένταση του γκρι στην περίπτωση της
grayscale εικόνας και 0 ή 1 στην περίπτωση της δυαδικής εικόνας. Η σχέση μεταξύ των
εικόνων περιγράφεται από τη σχέση:
I(ˆx, ˆy) = f(T(x,y)) (2.9)
όπου f() συνάρτηση η οποία παραμορφώνει φωτομετρικά την αρχική εικόνα ώστε να έχουμε
σαν αποτέλεσμα την παρατήρηση. Αναζητούμε τις περιοχές T=(x,y) του προτύπου και τις
11
22.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
παραμέτρους μιας διανυσματικής συνάρτησης μετασχηματισμού συντεταγμένων w(x,y;p) :
R2 → R2, όπου p = [p1,p2,...,pn]t το διάνυσμα των παραμέτρων του μετασχηματισμού, για
την οποία ελαχιστοποιείται κάποια μετρική απόστασης
(T,p) = argmin
p
Φr[T(x,y)]−Φt{I[w(x,y;p)]} (2.10)
με τον επιπλέον περιορισμό ότι η περιοχή T μεγιστοποιείται. Θεωρούμε ότι οι εικόνες έχουν
υποστεί κάποια παραμόρφωση των εντάσεων του κάθε εικονοστοιχείου τους που είναι ανε-
ξάρτητη από τις συντεταγμένες του. Οι πραγματικές συναρτήσεις Φr και Φt είναι αυτές που
αντιστρέφουν την παραμόρφωση αυτή με αποτέλεσμα οι εντάσεις των εικονοστοιχείων στις
προκύπτουσες εικόνες να ακολουθούν όμοια κατανομή.
Η αντιστοίχιση αφορά είτε σε ολόκληρες εικόνες είτε σε σύνολα σημείων στην περίπτωση
όπου έχουμε shape matching, object recognition κτλ.
Στην περίπτωση όπου έχουμε σύνολα σημείων πρέπει να προσδιορίσουμε το μετασχηματισμό
που έχουν υποστεί τα σημεία του αντικειμένου, ώστε εφαρμόζοντάς τον αντίστροφα να έ-
χουμε την αρχική απεικόνιση. Υπάρχουν περιπτώσεις, όπως για παράδειγμα η αναγνώριση
χειρόγραφων ψηφίων, όπου τα σημεία του σχήματος δεν έχουν υποστεί όλα τον ίδιο μετασχη-
ματισμό και άρα η αντιστοίχιση εκτιμά έναν μετασχηματισμό που ελαχιστοποιεί την παραπάνω
μετρική.
Αν έχουμε εικόνες τότε συχνά η μια εικόνα είναι δυνατό να περιλαμβάνει περιοχές που δεν
υπάρχουν στην άλλη. Για να ικανοποιείται η Σχέση (2.10) θα πρέπει φυσικά να υπάρχουν
οι κοινές περιοχές T και να περιλαμβάνουν αρκετά μεγάλες περιοχές των εικόνων. Το μέ-
γεθος της κοινής περιοχής μπορεί να θεωρηθεί μια μετρική της κοινής πληροφορίας των δυο
εικόνων και, όπως είναι αναμενόμενο, όσο μεγαλύτερη είναι αυτή η μετρική τόσο εγκυρότερα
αποτελέσματα λαμβάνουμε.
΄Οπως αναφέρθηκε ο κάθε αλγόριθμος είναι προσανατολισμένος στη λύση συγκεκριμένου
τύπου προβλήματος αντιστοίχισης, για διαφορετικό είδος και ποιότητα εικόνων.
2.3 Feature-based Τεχνικές
Η αντιστοίχιση με βάση τα χαρακτηριστικά (feature-based) προσπαθεί να προσδιορίσει το
μετασχηματισμό με βάση τα χαρακτηριστικά που είναι κατανεμημένα στην εικόνα, χωρίς να
λαμβάνει υπόψη τις εντάσεις φωτεινότητας των εικονοστοιχείων.
Στις feature-based τεχνικές οι αντιστοιχίσεις οδηγούν στην εκτίμηση του παραμετρικού μο-
ντέλου. Πλεονέκτημα των τεχνικών αυτών είναι ότι είναι πιο εύρωστες σε πολλούς διαφορετι-
κούς τύπους μετασχηματισμών και παραμορφώσεων. Επίσης λόγω του ότι η σύγκριση γίνεται
12
23.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
συνήθως ανάμεσα σε διανύσματα μικρού μήκους, σε σχέση με το μέγεθος της εικόνας, το κό-
στος αυτών των τεχνικών είναι μικρό. ΄Ομως το πρόβλημα εντοπισμού των χαρακτηριστικών
είναι πολύπλοκο και συνήθως η απόδοση των τεχνικών αυτών εξαρτάται άμεσα από την ποιό-
τητα των χαρακτηριστικών και του αλγορίθμου εξαγωγής τους. Σε συγκεκριμένες εφαρμογές
μπορούν να χρησιμοποιηθούν σαν στάδιο αρχικοποίησης μιας area-based τεχνικής.
Σχήμα 2.8: Εξαγωγή χαρακτηριστικών σε εικόνα
Το πρώτο και πιο σημαντικό βήμα σε μια feature-based τεχνική είναι η ανίχνευση των χα-
ρακτηριστικών που θα χρησιμοποιηθούν για την αντιστοίχιση, κάνοντας χρήση ενός τελεστή
αναγνώρισης χαρακτηριστικών. Τα χαρακτηριστικά πρέπει να δίνουν επαρκή πληροφορία για
την εικόνα, για αυτό επιλέγονται αντιπροσωπευτικά σημεία όπως ακμές, γωνίες, τοπικά ακρό-
τατα της έντασης φωτεινότητας ή σε κάποιες εφαρμογές και ολόκληρες περιοχές της εικόνας.
Επίσης πρέπει να είναι ομοιόμορφα κατανεμημένα, να είναι ευδιάκριτα και στις δυο συγκρι-
νόμενες εικόνες και να παραμένουν ανεπηρέαστα από το μετασχηματισμό που έχει επιδράσει
στην παρατήρηση [1].
Αφού έχουν προσδιοριστεί τα χαρακτηριστικά, το δεύτερο βήμα αφορά στην αντιστοίχιση
αυτών ή/και των περιοχών γύρω από αυτά, η εκτίμηση δηλαδή του μετασχηματισμού με χρήση
κάποιου κριτηρίου ομοιότητας. ΄Ενα ευρέως χρησιμοποιούμενο κριτήριο είναι το άθροισμα των
τετραγωνικών διαφορών (Sum of Squared Differences - SSD).
2.4 Area-based τεχνικές
Οι τεχνικές αντιστοίχισης περιοχής (area-based), που αναφέρονται και ως απευθείας μέθοδοι
χρησιμοποιούν την πληροφορία που περιέχει ολόκληρη η εικόνα, ή πιο σωστά η περιοχή εν-
διαφέροντος (ROI), προκειμένου να εκτιμήσουν τις παραμέτρους του μετασχηματισμού. Στις
τεχνικές αυτές πρέπει αρχικά να ορίσουμε μια συνάρτηση κόστους μεταξύ της εικόνας προτύ-
που και της εικόνας παρατήρησης. ΄Ετσι η αναζήτηση των παραμέτρων του μετασχηματισμού
13
24.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
ανάγεται σε πρόβλημα βελτιστοποίησης της συνάρτησης κόστους ως προς τις παραμέτρους.
΄Αρα η τιμή των παραμέτρων εξαρτάται από το κριτήριο ομοιότητας που θα χρησιμοποιηθεί,
αλλά και από τον τρόπο που θα εκτιμηθούν.
Η μέθοδος που χρησιμοποιείται για την εκτίμηση των παραμέτρων διαχωρίζει τους αλγορίθ-
μους αναζήτησης, σε αλγορίθμους πλήρους ή εξαντλητικής αναζήτησης (exhaustive search)
και αλγορίθμους διαφορικής αντιστοίχισης που βασίζονται στην πληροφορία της παραγώγου
της συνάρτησης έντασης φωτεινότητας των εικόνων (gradient-based).
΄Οπως και στην περίπτωση των feature-based τεχνικών, ένα ευρέως χρησιμοποιούμενο κριτή-
ριο ομοιότητας είναι το άθροισμα των τετραγωνικών διαφορών (Sum of Squared Differences
- SSD) που ορίζεται ως:
ESSD(u) =
K
i=1
[T(xi)−I(xi +u)]2
(2.11)
όπου u = [u,v]t το διάνυσμα μετατοπίσεων στους δυο άξονες και K ο αριθμός των εικονο-
στοιχείων της ROI. Σε αυτή την περίπτωση η εκτίμηση των παραμέτρων δίνεται από τη λύση
του προβλήματος ελαχιστοποίησης:
min
u
ESSD(u) (2.12)
Ο προφανής τρόπος επίλυσης του προβλήματος είναι η εξαντλητική αναζήτηση, δηλαδή ο
υπολογισμός της τιμής της συνάρτησης κόστους για κάθε δυνατό διάνυσμα u και επιλογή
του διανύσματος που ελαχιστοποιεί τη συνάρτηση. Αν η ακρίβεια που απαιτείται είναι μικρό-
τερη του εικονοστοιχείου τότε θα πρέπει να ληφθούν υπόψη και μη ακέραιες τιμές του u.
Αυτός ο τρόπος αναζήτησης μπορεί να χρησιμοποιηθεί στην περίπτωση που στόχος είναι η
εκτίμηση μετασχηματισμού μετατόπισης, που όπως είδαμε είναι ο απλούστερος γεωμετρικός
μετασχηματισμός, οι δυνατές τιμές του u είναι λίγες και δεν απαιτείται μεγάλη ακρίβεια στις
εκτιμήσεις. Στην αντίθετη περίπτωση το κόστος υπολογισμού είναι απαγορευτικό. Βασικό
πλεονέκτημα της εξαντλητικής αναζήτησης είναι το ότι μπορεί να εκτιμήσει οσοδήποτε με-
γάλες μετατοπίσεις, αφού δεν υπάρχει περιορισμός της περιοχής αναζήτησης των τιμών τους
[2].
14
25.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
Σχήμα 2.9: Σάρωση εικόνας με παράθυρο
Οι αλγόριθμοι διαφορικής αντιστοίχισης είναι επαναληπτικοί αλγόριθμοι, αν και μπορεί να
είναι αποδοτικοί λειτουργώντας μια φορά[3]. Οι επαναλήψεις έχουν ως στόχο την καλύτερη
ακρίβεια των εκτιμήσεων. Η χρήση των αλγορίθμων αυτών ενδείκνυται στις περιπτώσεις
όπου η μετατόπιση είναι μικρή, ενώ η ακρίβεια των εκτιμήσεων είναι της τάξης του (eps)
της μηχανής που χρησιμοποιείται. Βασικό χαρακτηριστικό τους είναι η γραμμικοποίηση μέ-
σω αναπτύγματος Taylor γύρω από μια αρχική τιμή u0, ώστε η είσοδος να γίνει γραμμικά
εξαρτημένη από τις παραμέτρους, όπως φαίνεται στη Σχέση (2.13):
I(x+u0 +∆u) = I(x+u0)+ xI(x+u0)t
∆u+e(u0,x,∆u) (2.13)
όπου xI(x + u0) = [∂I(x+u0)
∂x , ∂I(x+u0)
∂y ]t το διάνυσμα κλίσης (gradient) της εικόνας στη
θέση x+u0, ∆u το διάνυσμα διορθώσεων και e(u0,x,∆u) οι όροι υψηλής τάξης.
Οι πρώτοι που κάνουν χρήση του αναπτύγματος Taylor στη συνάρτηση κόστους είναι οι
Lucas και Kanade[4]. Λαμβάνοντας υπόψη μόνο τον πρώτης τάξης όρο του αναπτύγματος η
συνάρτηση κόστους είναι:
ELK(∆u) =
K
i=1
[T(xi)−I(x+u0)+ xI(x+u0)t
∆u]2
(2.14)
Μηδενίζοντας τις μερικές παραγώγους της συνάρτησης κόστους ως προς τα στοιχεία του
διανύσματος ∆u καταλήγουμε στις εξισώσεις:
A∆u = b (2.15)
όπου A η Hessian και b το διάνυσμα των σταθερών όρων. Η Hessian εξαρτάται μόνο από
15
26.
ΚΕΦΑΛΑΙΟ 2: ΑΝΤΙΣΤΟΙΧΙΣΗΕΙΚΟΝΩΝ
τις χωρικές παραγώγους ενώ το διάνυσμα σταθερών όρων εξαρτάται και από τη διαφορά των
εικόνων.
Αν χρησιμοποιείται επαναληπτική διαδικασία τότε σε κάθε επανάληψη οι παράμετροι ενημε-
ρώνονται με τον κανόνα u1 = u0 +∆u ώστε να δημιουργηθεί μια νέα εκτίμηση της εικόνας
εισόδου. Τα βήματα αυτά επαναλαμβάνονται για έναν ορισμένο αριθμό επαναλήψεων ή ώσπου
το σφάλμα της εκτίμησης να γίνει σχεδόν μηδενικό.
Με βάση τον αλγόριθμο των Lucas-Kanade έχουν προταθεί πολλοί αλγόριθμοι προσανατολι-
σμένοι στο πρόβλημα της ευθυγράμμισης εικόνων [++], που θα παρουσιαστούν στα Κεφάλαια
4 και 5 .
Η χρήση του αναπτύγματος Taylor ενδείκνυται για μετατοπίσεις μικρότερες του ενός εικο-
νοστοιχείου ή σε περίπτωση επαναληπτικής διαδικασίας λίγο μεγαλύτερες. Σημαντικό ρόλο
στο μέγεθος της μετατόπισης που είναι δυνατό να εκτιμηθεί παίζει και ο αριθμός των ει-
κονοστοιχείων της περιοχής προς αντιστοίχιση. Στις περιπτώσεις όπου η ROI είναι αρκετά
μεγάλη, για παράδειγμα ολόκληρη η εικόνα, τότε μπορούν να εκτιμηθούν, μέσω αρκετών
επαναλήψεων, μεγαλύτερες μετατοπίσεις. Στην περίπτωση μεγάλων μετατοπίσεων υπάρχει ο
κίνδυνος εγκλωβισμού του αλγορίθμου σε τοπικό ακρότατο, μακριά από το ολικό ακρότατο
που αναζητάμε.
16
27.
Κεφάλαιο 3
Μοντέλα ActiveAppearance
Η πλειοψηφία των προβλημάτων της υπολογιστικής όρασης που αφορούν πραγματικές εφαρ-
μογές παρουσιάζουν δυσκολίες που έχουν να κάνουν με το γεγονός ότι απαιτείται από το
σύστημα να ‘καταλάβει’ τις εικόνες που χειρίζεται, δηλαδή να ανακτήσει τη δομή της εικονας
και να μάθει τι σημαίνει αυτή. Πολλές φορές η δομή αυτή μπορεί να είναι ιδιαίτερα σύνθετη
και μεταβλητή, όπως στην αναγνώριση προσώπων, ή να παρέχει δεδομένα ελλειπή και με
θόρυβο, όπως στις ιατρικές εικόνες.
Οι μέθοδοι που βασίζονται σε μοντέλα [6, 7, 8, 9, 20], χρησιμοποιούν ήδη υπάρχουσα γνώση
ώστε να λύσουν τα προβλήματα αυτά. Επειδή στις πραγματικές εφαρμογές εμφανίζονται
ομάδες αντικειμένων που δεν είναι ίδια, παράδειγμα τα πρόσωπα, τα μοντέλα είναι γενικά,
δηλαδή κρατούν τα βασικά χαρακτηριστικά της τάξης που αντιπροσωπεύουν αλλά μπορούν να
προσαρμοστούν ώστε να δημιουργήσουν οποιοδήποτε παράδειγμα της τάξης αυτής. Επίσης
είναι συγκεκριμένα, δηλαδή περιορίζονται στο να δημιουργούν έγκυρα παραδείγματα.
Οι μέθοδοι που βασίζονται σε μοντέλα χρησιμοποιούν ένα μοντέλο που καθορίζει τι αναμένε-
ται να βρεθεί στην εικόνα και αντιστοιχίζουν το μοντέλο αυτό στα δεδομένα της εικόνας. Τα
Active Μοντέλα Εμφάνισης (Active Appearance Models - AAM’s) είναι μη γραμμικά, γενι-
κευμένα, παραμετρικά μοντέλα για ένα συγκεκριμένο οπτικό φαινόμενο. Η πιο συνηθισμένη
χρήση του σήμερα είναι η μοντελοποίηση προσώπων, αν και μπορούν να χρησιμοποιηθούν και
σε διαφορετικές εφαρμογές.
Η προσαρμογή ενός μοντέλου σε μια εικόνα είναι ένα μη γραμμικό πρόβλημα βελτιστοποίησης,
όμως μπορεί να προσεγγιστεί με προσθετικό τρόπο υπολογίζοντας updates των παραμέτρων
ή με inverse compositional τρόπο.
17
28.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
3.1 Active Μοντέλα Σχήματος
3.1.1 Στατιστικά Μοντέλα Σχήματος
Για τη δημιουργία του μοντέλου επιλέγονται χαρακτηριστικά σημεία του σχήματος, δηλαδή,
όπως αναφέρθηκε και προηγούμενα, σημεία τομής ακμών, τα όρια του σχήματος ή σημεία
με μεγάλη κυρτότητα. ΄Ομως επειδή αυτά τα σημεία είναι συνήθως λίγα, συμπληρώνονται με
σημεία επάνω στο περίγραμμα, ώστε να δημιουργηθεί μια πλήρης περιγραφή του σχήματος.
΄Ενα δισδιάστατο σχήμα περιγράφεται από ένα διάνυσμα των σημείων {(xi,yi)}
s = (x1,...,xny1,...yn)t
Για j παραδείγματα δημιουργούνται j τέτοια διανύσματα sj , χρησιμοποιούνται για τη σύνθεση
του μοντέλου. Για τη μετατροπή των διανυσμάτων sn στο ίδιο σύστημα συντεταγμένων, η πιο
συνηθισμένη μέθοδος είναι η ανάλυση του Προκρούστη, που ελαχιστοποιεί το άθροισμα των
αποστάσεων από το μέσο D =
n
i=1
|si −¯s|2
και η οποία παρουσιάζεται αναλυτικά στο Παράρτη-
μα Α. Τα κανονικοποιημένα διανύσματα sj σχηματίζουν μια κατανομή στο 2n-διάστατο χώρο,
από όπου εξάγεται ένα παραμετρικό μοντέλο της μορφής s = M(b), όπου b ένα διάνυσμα
με τις παραμέτρους του μοντέλου, χρησιμοποιώντας PCA (Παράρτημα Β). Χρησιμοποιώντας
αυτό το γενικό μοντέλο μπορούμε να δημιουργήσουμε νέα παραδείγματα και να καθορίσουμε
κατά πόσο ένα σχήμα είναι κατάλληλο για χρήση ως παράδειγμα.
Αν V το μητρώο με τα ιδιοδιανύσματα που αντιστοιχούν στις k μεγαλύτερες ιδιοτιμές του
μητρώου του οποίου κάθε στήλη είναι ένα από τα παραδείγματα που έχουμε στη διάθεσή μας,
μπορούμε να προσεγγίσουμε το σύνολο των παραδειγμάτων x χρησιμοποιώντας την ακόλουθη
σχέση:
s ≈ ¯s+Vb (3.1)
ή ισοδύναμα:
s = ¯s+
k
i=1
bivi
όπου V = (v1 v2... vk) και b ένα k-διάστατο διάνυσμα που προκύπτει ως:
b = Vt
(s−¯s) (3.2)
και ορίζει τις παραμέτρους του μοντέλου παραμόρφωσης. Μεταβάλλοντας τα στοιχεία του
b μπορούμε να μεταβάλλουμε το σχήμα s χρησιμοποιώντας την Εξίσωση (3.1). Η μετα-
18
29.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
βολή της i-οστής παραμέτρου, bi, δίνεται από τη λi. Θέτοντας ως όριο στη μεταβολή το
±3
√
λi , εξασφαλίζουμε ότι το σχήμα που θα δημιουργηθεί είναι όμοιο με το αρχικό σύνολο
εκπαίδευσης.
Σχήμα 3.1: Παράδειγμα μοντέλων προσώπων με τροποποιημένες παραμέτρους κατά ±3 τυπική
απόκλιση
3.1.2 Στατιστικά Appearance Μοντέλα
Για να συνθέσουμε την πλήρη εικόνα ενός αντικειμένου, πρέπει να μοντελοποιήσουμε εκτός
από το σχήμα και την υφή του, δηλαδή την ένταση ή το χρώμα στο τμήμα της εικόνας που
εξετάζουμε.
Για να δημιουργήσουμε ένα στατιστικό μοντέλο υφής, μετασχηματίζουμε το κάθε παράδειγ-
μα, έτσι ώστε τα χαρακτηριστικά σημεία να ταιριάζουν με το μέσο σχήμα. Στη συνέχεια
δειγματοληπτούμε την πληροφορία της έντασης στην περιοχή που καλύπτει το μέσο σχήμα
ώστε να δημιουργηθεί ένα διάνυσμα υφής gim.
19
30.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
Σχήμα 3.2: Το κάθε παράδειγμα διαιρείται σε ένα σύνολο σημείων και ένα μοντέλο υφής
Για να ελαχιστοποιήσουμε την επίδραση της φωτεινότητας κανονικοποιούμε το διάνυσμα:
g = (gim −β1n)/α (3.3)
Οι τιμές των α και β επιλέγονται ώστε να προσαρμόσουν βέλτιστα το διάνυσμα στον κανο-
νικοποιημένο μέσο όρο. Αν ¯g ο μέσος των κανονικοποιημένων δεδομένων τότε:
α =< gim, ¯g >, β =
< gim,1n >
n
όπου 1n διάνυσμα με μονάδες με n τον αριθμό των στοιχείων του διανύσματος. Από την
εφαρμογή της PCA έχουμε ένα γραμμικό μοντέλο:
g = ¯g+Pgbg (3.4)
όπου ¯g το μέσο διάνυσμα έντασης, Pg ορθοκανονικό σύνολο διασπορών και bg παράμετροι
που ρυθμίζουν την ένταση. Η υφή της εικόνας μπορεί να παραχθεί από τις παραμέτρους υφής
και τις παραμέτρους κανονικοποίησης ως ακολούθως:
gim = α(¯g+Pgbg)+β1n (3.5)
20
31.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
Το σχήμα και η υφή κάθε παραδείγματος μπορεί να παρασταθεί συνδυασμένα από τις παρα-
μέτρους bs και bg. Για κάθε παράδειγμα έχουμε ένα διάνυσμα:
b =
Wsbs
bg
=
WsPt
s(x− ¯x)
Pt
g(g−¯g)
όπου Ws ένα διαγώνιο μητρώο βαρών για κάθε παράμετρο του σχήματος. Επειδή μπορεί
να υπάρχουν συσχετίσεις ανάμεσα στη διακύμανση του σχήματος και της υφής εφαρμόζουμε
ξανά PCA στα διανύσματα αυτά παίρνοντας το μοντέλο:
b = Pcc
όπου Pc τα ιδιοδιανύσματα και c το διάνυσμα των παραμέτρων εμφάνισης (appearance) που
ελέγχουν το σχήμα και την υφή του μοντέλου. Η γραμμικότητα του μοντέλου μας επιτρέπει
να εκφράσουμε άμεσα το σχήμα και τα επίπεδα φωτεινότητας συναρτήσει του c ως ακολούθως:
s = ¯s+PsW−1
s Pcsc
g = ¯g+PgPcgc (3.6)
όπου :
Pc =
Pcs
Pcg
ή ισοδύναμα:
s = ¯s+Qsc
g = ¯g+Qgc (3.7)
όπου:
Qs = PsW−1
s Pcs
Qg = PgPcg
Μπορούμε να συνθέσουμε μια εικόνα για δεδομένο c δημιουργώντας μια grayscale και ανεξάρ-
τητη από το σχήμα εικόνα χρησιμοποιώντας το g και παραμορφώνοντάς την χρησιμοποιώντας
21
32.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
τα σημεία που ορίζονται στο s.
(αʹ) (βʹ)
(γʹ)
Σχήμα 3.3: (α΄) Μεταβολή σχήματος (±3 τ.α), (β΄) Μεταβολή φωτεινότητας (±3 τ.α),
(γ΄) Μεταβολή appearance (±3 τ.α)
Για να ερμηνεύσουμε μια εικόνα χρησιμοποιώντας το μοντέλο, πρέπει να ορίσουμε το σύνολο
των παραμέτρων που αντιστοιχίζουν βέλτιστα το μοντέλο στην εικόνα. Το σύνολο αυτό ορίζει
το σχήμα, τη θέση και πιθανόν και την εμφάνιση του αντικειμένου μέσα στην εικόνα και μπορεί
να χρησιμοποιηθεί για επιπλέον επεξεργασία, όπως κάποιες μετρήσεις ή την ταξινόμηση του
αντικειμένου.
Η αντιστοίχιση ενός μοντέλου σε μια εικόνα μπορεί να γίνει μέσω της ελαχιστοποίησης μιας
συνάρτησης κόστους. Το ελάχιστο ορίζεται μόνο από την επιλογή της συνάρτησης κόστους,
το μοντέλο και την εικόνα και είναι ανεξάρτητο από τη μέθοδο βελτιστοποίησης που θα
χρησιμοποιηθεί.
3.1.3 Αναπαράσταση ακμών με χρήση προσανατολισμού
Τα appearance μοντέλα αναπαριστούν την περιοχή ενδιαφέροντος χρησιμοποιώντας γραμμικά
κανονικοποιημένες τιμές έντασης. ΄Ομως αυτή η αναπαράσταση είναι ευαίσθητη σε αλλαγές
22
33.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
του φωτισμού και σε διαφορές ανάμεσα στις κάμερες. Πιο σταθερή αναπαράσταση μπορεί να
είναι είτε τα gradients είτε η μετρική του προσανατολισμού ακμών[8].
Ο πιο απλός τρόπος για την αναπαράσταση του προσανατολισμού είναι μέσω των gradi-
ents gx και gy στο σημείο, όπου θ = tan−1(gx/gy). ΄Ομως επειδή υπάρχει ‘αναδίπλωση’
γωνιών, η θ δεν είναι χρήσιμη στην περίπτωση όπου θέλουμε να συγκρίνουμε δυο γωνίες.
Μια εναλλακτική αναπαράσταση της γωνίας είναι μέσω των τριγωνομετρικών συναρτήσεων
(cosθ,sinθ) = (gx/g,gy/g) όπου g = g2
x +g2
y, και έτσι η σύγκριση των γωνιών μπορεί να
γίνει απλά με τη χρήση της Ευκλείδειας απόστασης.
Ο προσανατολισμός μπορεί να παρασταθεί είτε modulo 2π είτε modulo π, για την περίπτωση
όπου η πολικότητα της γωνίας μπορεί να αλλάξει. Για κάθε εικονοστοιχείο x = [x,y]t η
διαδικασία είναι η ακόλουθη:
Εκτίμηση των τοπικών κλίσεων, gx, gy, του εικονοστοιχείου (x,y)t με χρήση κατάλληλου
φίλτρου
Υπολογισμός του μέτρου g = g2
x +g2
y
Εφαρμογή μιας μη γραμμικής συνάρτησης f(g) για την αναπαράσταση της κατεύθυνσης
και της δύναμης της ακμής, (gx,gy) = f(g)(gx/g,gy/g)
Η συνάρτηση κανονικοποίησης f(g) για την οποία ισχύει 0 ≤ f(g) ≤ 1 για κάθε g, επιλέγεται
ώστε να δίνει μεγάλο βάρος σε πιθανές ακμές και να καταστέλλει ακμές που η εμφάνισή τους
οφείλεται στο θόρυβο.
Μια αποτελεσματική συνάρτηση είναι η f(g) = |g|/(|g|+g0) όπου g0 η μέση τιμή ή ο median
της αναμενόμενης τιμής της g. Η συνάρτηση έχει την ιδιότητα ότι οι τιμές μικρότερες από
g0 τείνουν να κανονικοποιούνται στο 0 ενώ οι μεγαλύτερες από g0 , που είναι πιθανό να είναι
ακμές, κανονικοποιούνται στο 1.
Μια άλλη επιλογή είναι η f(g) = Pn(g), όπου η Pn(x) είναι η αθροιστική κατανομή πιθανό-
τητας των ακμών. Και πάλι οι τιμές της g που πιθανόν να οφείλονται στην επίδραση του
θορύβου κανονικοποιούνται προς το 0 ενώ οι ακμές τονίζονται.
Σε κάποιες περιπτώσεις είναι καλύτερα η αναπαράσταση του προσανατολισμού των ακμών
να γίνεται modulo π, ορίζοντας έτσι την κατεύθυνση του gradient αλλά όχι την πολικότητά
του, κάτι που είναι χρήσιμο αν δεν γνωρίζουμε από την αρχή αν το αντικείμενο είναι πιο
φωτεινό ή πιο σκοτεινό από την υπόλοιπη εικόνα. ΄Αρα αναπαριστούμε την κατεύθυνση σε
πολικές συντεταγμένες (gx,gy) → (g,θ) , επιστρέφουμε σε (hx,hy) = (gcos2θ,gsin2θ) =
(g2
x −g2
y,2gxgy) και εφαρμόζουμε μη γραμμική κανονικοποίηση (gx,gy) = f(g)(hx/g,hy/g) =
f(g)(g2
x −g2
y,2gxgy)/g2.
Για την κατασκευή του μοντέλου appearance, αντί για το διάνυσμα με τις τιμές φωτεινότητας,
χρησιμοποιείται ένα διάνυσμα με διπλάσιο μήκος που περιέχει τα gradients κανονικοποιημένα
23
34.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
με μια μη γραμμική συνάρτηση. Με αυτό τον τρόπο, περιοχές με θόρυβο εμφανίζονται με
σχεδόν μηδενικές τιμές και έτσι έχουν ελάχιστη επίδραση στη διαδικασία βελτιστοποίησης.
3.1.4 Εντοπισμός χαρακτηριστικών προσώπου
Η αυτόματη εύρεση χαρακτηριστικών προσώπου, όπως τα μάτια, οι γωνίες του στόματος κτλ
είναι σημαντικό κομμάτι αρκετών διαδικασιών όπως η αναγνώριση προσώπου. Ο αλγόριθμος
Επιλογής Template (Template Selection Tracker - TST)[9] αποτελείται από ένα μοντέλο
σχήματος και ένα σύνολο εκπαίδευσης με πιθανά templates χαρακτηριστικών σε εικόνες
όπου τα χαρακτηριστικά είναι ήδη σημειωμένα. Ο αλγόριθμος εκτελείται σε δυο βήματα, στο
πρώτο βήμα γίνεται η επιλογή του template και στο δεύτερο η αναζήτησή του με βάση το
σχήμα.
Το στατιστικό μοντέλο σχήματος μπορεί να δημιουργηθεί από το σύνολο εικόνων εκπαίδευ-
σης, όπως έχει περιγραφεί προηγουμένως και ορίζεται από τις ακόλουθες σχέσεις:
s = ¯s+Vb
b = Vt
(s−¯s)
Σχήμα 3.4: Ο αλγόριθμος TST
Σε κάθε εικόνα με προσημειωμένα features μπορεί να επιλεγεί ένα τμήμα γύρω από το κάθε
24
35.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
feature, που κανονικοποιείται για την περίπτωση που υπάρχει κλιμάκωση, και τα feature tem-
plates που υπολογίζονται αποθηκεύονται μαζί με το διάνυσμα παραμέτρων b του σχήματος.
Αν δοθεί μια καινούρια εικόνα και μια προσέγγιση των σημείων των features τότε μπορεί να
δημιουργηθεί ένα πιθανό σύνολο από feature templates. Το μοντέλο σχήματος αντιστοιχίζε-
ται στα σημεία και υπολογίζονται οι παράμετροι b του σχήματος. Οι παράμετροι συγκρίνονται
με τα αποθηκευμένα σχήματα και επιλέγονται τα K κοντινότερα σχήματα με χρήση της Ευ-
κλείδειας απόστασης. Στη συνέχεια αυτά συγκρίνονται με την υφή της τρέχουσας εικόνας
με χρήση της κανονικοποιημένης συσχέτισης και τα καλύτερα από αυτά χρησιμοποιούνται
για τη δημιουργία ανιχνευτών για κάθε feature του προσώπου. Στο Σχήμα (3.5) φαίνεται
η επιτυχής ανίχνευση χαρακτηριστικών σε πρόσωπο ακόμα και όταν αυτό περιστρέφεται σε
σχέση με την κάμερα.
Σχήμα 3.5: Στις εικόνες (α)-(δ) το κεφάλι περιστρέφεται σε σχέση με την κάμερα ενώ στις
(ε)-(η) η επιτυχημένη ανίχνευση χαρακτηριστικών στις προηγούμενες εικόνες.
Οι ανιχνευτές features που δημιουργήθηκαν με την παραπάνω διαδικασία εφαρμόζονται στην
εικόνα ώστε να υπολογιστούν οι αποκρίσεις τους. ΄Εστω (Xi,Yi) η θέση του i-οστού feature
σημείου και Ii(Xi,Yi) η απόκριση του i-οστού feature template σε αυτό το σημείο. Οι θέσεις
βρίσκονται στο διάνυσμα:
X = (X1,...,Xn,Y1,...Yn)t
όπου το X υπολογίζεται από τις παραμέτρους b του σχήματος και έναν μετασχηματισμό
ομοιότητας Tt που εφαρμόζεται στο μοντέλο σχήματος για να δημιουργηθεί η απόκριση,
δηλαδή:
X ≈ Tt(¯s+Vb) (3.8)
Μπορούμε να γράψουμε τις παραμέτρους σε ένα διάνυσμα p = (tt|bt) οπότε και το X γίνεται
συνάρτηση του p, δηλαδή X(p). Για κάποια αρχική τιμή του p η αναζήτηση γίνεται βελτιστο-
ποιώντας μια συνάρτηση f(p), των αποκρίσεων I και του στατιστικού μοντέλου σχήματος,
που είναι η:
25
36.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
f(p) =
n
i=1
Ii(Xi,Yi)+R
s
j=1
−b2
j
λj
(3.9)
Ο δεύτερος όρος είναι μια εκτίμηση της λογαριθμικής πιθανοφάνειας του σχήματος δεδομέ-
νων των παραμέτρων bj και των ιδιοτιμών λj, υποθέτοντας ότι τα bj είναι ανεξάρτητα και
ακολουθούν κανονική κατανομή. Το R είναι μια παράμετρος βάρους που η τιμή της μπορεί
να καθοριστεί από το λόγο των n
i=1 Ii(Xi,Yi) και s
j=1
−b2
j
λj
.
3.2 Active Appearence Μοντέλα
Υπάρχουν δύο είδη μοντέλων σχήματος και εμφάνισης. Τα μοντέλα που μοντελοποιούν
ξεχωριστά, σε διαφορετικό σύνολο παραμέτρων, το σχήμα από την εμφάνιση και ονομάζονται
ανεξάρτητα μοντέλα και τα μοντέλα που μοντελοποιούν σχήμα και εμφάνιση σε ένα κοινό
σύνολο γραμμικών παραμέτρων και ονομάζονται συνδυαστικά μοντέλα.
3.2.1 Ανεξάρτητα Μοντέλα
Σχήμα
Το σχήμα ορίζεται από ένα mesh και σημεία τοποθετημένα πάνω σε αυτό. Το σχήμα s
εκφράζεται με τη μορφή της Σχέσης (3.1) .
Σχήμα 3.6: Το γραμμικό μοντέλο σχήματος ενός ΑΑΜ. Το αρχικό μοντέλο s0 και τα τρία
πρώτα διανύσματα σχήματος s1, s2, s3
Εμφάνιση
Η εμφάνιση ενός ανεξάρτητου ΑΑΜ ορίζεται μέσα στο βασικό mesh s0, και έτσι είναι μια
εικόνα A(x) που ορίζεται στα pixels x ∈ s0. ΄Οπως το σχήμα έτσι και η εμφάνιση επιτρέπει
την γραμμική διαφοροποίηση, δηλαδή η A(x) μπορεί να εκφραστεί ως:
A(x) = A0(x)+
m
i=1
λiAi(x) ∀x ∈ s0 (3.10)
26
37.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
όπου A0(x) η βασική (ή μέση) εμφάνιση και Ai(x) διαφορετικές εικόνες εμφάνισης, που
προκύπτουν από την εφαρμογή της PCA στις κανονικοποιημένες ως προς το σχήμα εικόνες.
Σχήμα 3.7: Το γραμμικό μοντέλο εμφάνισης ενός ανεξάρτητου ΑΑΜ. Η βασική εμφάνιση
A0 και οι τρεις πρώτες εικόνες εμφάνισης A1, A2, A3
Οι εικόνες εκπαίδευσης είναι κανονικοποιημένες ως προς το σχήμα πριν εφαρμόσουμε PCA σε
αυτές, κάτι που οδηγεί σε ένα συμπαγή ιδιοχώρο από όπου εξάγονται οι ιδιοεικόνες εμφάνισης.
Δημιουργία μοντέλου
Από τις Σχέσεις (3.9) και (3.10) και έχοντας τις παραμέτρους σχήματος p και εμφάνισης
λ, μπορούμε να δημιουργήσουμε ένα παράδειγμα βασισμένο σε αυτό το μοντέλο, χρησιμο-
ποιώντας γραμμικούς συνδυασμούς των ιδιοσχημάτων και των ιδιοεικόνων εμφάνισης, όπως
φαίνεται στο παρακάτω Σχήμα:
Σχήμα 3.8: Δημιουργία παραδείγματος από το ανεξάρτητο ΑΑΜ μοντέλο.
Στο παραπάνω παράδειγμα υπολογίζεται ένας μετασχηματισμός παραμόρφωσης W(x;p) ο
οποίος εφαρμόζεται στην εικόνα εμφάνισης και στο σχήμα.
27
38.
ΚΕΦΑΛΑΙΟ 3: ΜΟΝΤΕΛΑACTIVE APPEARANCE
3.2.2 Συνδυαστικά μοντέλα
Στην περίπτωση των συνδυαστικών μοντέλων χρησιμοποιούμε ένα κοινό διάνυσμα παραμέ-
τρων c = [c1,c2,...,ck]t για να παραμετροποιήσουμε τόσο το σχήμα όσο και την εικόνα:
s = s0 +
k
i=1
cisi (3.11)
A(x) = A0(x)+
k
i=1
ciAi(x) (3.12)
Αυτός ο συνδυασμός έχει κάποια μειονεκτήματα, για παράδειγμα δεν μπορούμε πλέον να
υποθέσουμε ότι το σχήμα και η εμφάνιση είναι ορθοκανονικά, όπως επίσης περιορίζει την
επιλογή του αλγορίθμου αντιστοίχισης.
Από την άλλη αν θεωρήσουμε ότι c = [p1,p2,...,pn,λ1,λ2,..,λm]t η αναπαράσταση αυτή είναι
πιο γενική, ενώ πρακτικά συνήθως ισχύει ότι k ≤ m + n, δηλαδή ο αλγόριθμος είναι πιο
αποδοτικός.
Τα συνδυαστικά ΑΑΜ υπολογίζονται εφαρμόζοντας PCA σε ένα ανεξάρτητο ΑΑΜ και γραμ-
μικοποιώντας τις παραμέτρους σε σχέση με τα νέα ιδιοδιανύσματα.
΄Εχοντας το γενικό μοντέλο εμφάνισης πλέον μπορούμε να εφαρμόσουμε κάποιον αλγόριθμο
αντιστοίχισης από αυτούς που παρουσιάζονται στα επόμενα κεφάλαια για τον υπολογισμό του
γεωμετρικού μετασχηματισμού, στο σχήμα και την εμφάνιση, είτε ανεξάρτητα είτε συνδυα-
σμένα, του μοντέλου.
28
39.
Κεφάλαιο 4
Αλγόριθμοι βασισμένοιστο
Τετραγωνικό Σφάλμα
4.1 Αλγόριθμος Lucas-Kanade
Ο αλγόριθμος των Lucas-Kanade[4, 10] χρησιμοποιεί ως συνάρτηση κόστους το άθροισμα
τετραγωνικού σφάλματος μεταξύ των δυο εικόνων δηλαδή:
min
p
x
[I(w(x;p)−T(x))]2
(4.1)
όπου T(x) το template και I(w(x;p)) η παραμορφωμένη εικόνα στην οποία έχει εφαρμοστεί ο
μετασχηματισμός w(x;p). Η ελαχιστοποίηση της (4.1) είναι μη γραμμική διαδικασία, ακόμα
και αν ο w(x;p) είναι γραμμικός ως προς p. Ο αλγόριθμος υποθέτει ότι μια εκτίμηση
του p είναι γνωστή και λύνει επαναληπτικά για την εκτίμηση των διορθώσεων ∆p οπότε η
συνάρτηση κόστους γίνεται:
x
[I(w(x;p+∆p))−T(x)]2
(4.2)
και ελαχιστοποιείται ως προς ∆p, ενώ οι παράμετροι ενημερώνονται σύμφωνα με τον ακό-
λουθο προσθετικό κανόνα:
p ← p+∆p (4.3)
Τα βήματα αυτά επαναλαμβάνονται μέχρι να συγκλίνουν οι παράμετροι p, κάτι που συνήθως
ελέγχεται με το κριτήριο ∆p 2 ≤ , όπου ένα κατώφλι.
29
40.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
4.1.1 Γραμμικοποίηση
Για να μπορέσει να λυθεί το πρόβλημα, η μη γραμμική συνάρτηση I(w(x;p+∆p)) της (4.2)
γραμμικοποιείται ως προς τις παραμέτρους που περιέχονται στη συνάρτηση κόστους με χρήση
του αναπτύγματος Taylor πρώτης τάξης:
x
I(w(x;p))+ I
∂w
∂p
∆p−T(x)
2
(4.4)
όπου I = (∂I
∂x , ∂I
∂y ) η κλίση της I , που στη συνέχεια εφαρμόζεται σε αυτή ο τρέχων μετασχη-
ματισμός w(x;p), και ∂w
∂p η Jacobian του μετασχηματισμού. Αν w(x;p) = (wx(x;p),wy(x;p))t
τότε:
∂w
∂p
=
∂wx
∂p1
∂wx
∂p2
··· ∂wx
∂pn
∂wy
∂p1
∂wy
∂p2
···
∂wy
∂pn
Για παράδειγμα στην περίπτωση του affine μετασχηματισμού:
∂w
∂p
=
x 0 y 0 1 0
0 x 0 y 0 1
Η ελαχιστοποίηση της (4.4) ως προς τις παραμέτρους είναι πρόβλημα ελαχίστων τετραγώνων,
άρα υπάρχει και κλειστής μορφής λύση. Η μερική παράγωγος ως προς ∆p είναι:
2
x
I
∂w
∂p
t
I(w(x;p))+ I
∂w
∂p
∆p−T(x)
με ελάχιστο στο:
∆p = H−1
x
I
∂w
∂p
t
[T(x)−I(w(x;p))]
όπου H το n×n Hessian μητρώο:
H =
x
I
∂w
∂p
t
I
∂w
∂p
με μόνη προϋπόθεση οι μετασχηματισμοί να είναι παραγωγίσιμοι ως προς τις παραμέτρους p
ώστε να είναι δυνατό να υπολογιστεί η Jacobian ∂w
∂p .
30
41.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
Σχήμα 4.1: Σχηματικό διάγραμμα του αλγορίθμου των Lucas-Kanade
Το υπολογιστικό κόστος του αλγορίθμου ανά επανάληψη είναι O(n2N +n3), όπου n ο αριθ-
μός των παραμέτρων του μετασχηματισμού και N ο αριθμός των pixel.
4.1.2 Compositional και Inverse Compositional αλγόριθμοι
Για τη μείωση του υπολογιστικού κόστους, που όπως είδαμε είναι αρκετά μεγάλο, χρησιμο-
ποιούνται ο compositional και κυρίως ο inverse compositional αλγόριθμος.
Στην compositional προσέγγιση η συνάρτηση κόστους που ελαχιστοποιείται είναι:
x
[I(w(w(x;∆p);p))−T(x)]2
(4.5)
ως προς ∆p σε κάθε επανάληψη, ενώ ο κανόνας ενημέρωσης του μετασχηματισμού είναι:
w(x;p) ← w(x;p)◦w(x;∆p) (4.6)
όπου η σύνθεση ορίζεται ως:
w(x;p)◦w(x;∆p) ≡ w(w(x;∆p);p) (4.7)
31
42.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
Το ανάπτυγμα Taylor της συνάρτησης κόστους είναι:
x
I(w(w(x;0);p))+ I(w)
∂w
∂p
∆p−T(x)
2
(4.8)
το οποίο απλοποιείται περαιτέρω δεδομένου ότι w(x;0) = x. Σε σχέση με το αρχικό αλ-
γόριθμο το gradient της I αντικαθίσταται από το gradient της I(w). Επίσης η Jacobian
υπολογίζεται στο (x;0) και άρα είναι σταθερή και μπορεί να υπολογιστεί εκτός της επανα-
ληπτικής διαδικασίας. Η τελική λύση του ∆p είναι της ίδιας μορφής, παίρνοντας υπόψη τις
τρεις διαφορές που αναφέρθηκαν.
Το σύνολο των μετασχηματισμών θα πρέπει να περιέχει τον ταυτοτικό μετασχηματισμό και
να είναι κλειστό ως προς τη σύνθεση, ιδιότητες που ισχύουν για τα περισσότερα είδη μετα-
σχηματισμών. Το συνολικό υπολογιστικό κόστος ανά επανάληψη είναι της ίδιας τάξης, αφού
τα βήματα που αλλάζουν έχουν κόστος μικρότερης τάξης, ενώ το κόστος του βήματος εκτός
επαναλήψεων είναι O(nN).
Ο inverse compositional αλγόριθμος ελαχιστοποιεί τη συνάρτηση κόστους:
x
[T(w(x;∆p))−I(w(x;p))]2
(4.9)
ενώ η ενημέρωση του μετασχηματισμού γίνεται σύμφωνα με τον κανόνα:
w(x;p) ← w(x;p)◦w(x;∆p)−1
(4.10)
΄Οπως φαίνεται η διαφορά στον κανόνα ενημέρωσης είναι ότι ο προσθετικός μετασχηματισμός
w(x;∆p) αντιστρέφεται πριν τη σύνθεση με τον τρέχοντα μετασχηματισμό.
Χρησιμοποιώντας το ανάπτυγμα Taylor της συνάρτησης:
x
T(w(x;0))+ T
∂w
∂p
∆p−I(w(x;p))
2
(4.11)
και θεωρώντας πάλι ότι ο w(x;0) είναι ο ταυτοτικός μετασχηματισμός, η λύση είναι:
∆p = H−1
x
T
∂w
∂p
t
[I(w(x;p))−T(x)] (4.12)
όπου H το Hessian μητρώο, ίδιας μορφής με προηγούμενα, που παράγεται από την T αντί
για την I:
H =
x
T
∂w
∂p
t
T
∂w
∂p
32
43.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
Η Jacobian υπολογίζεται στο (x;0) και επομένως είναι σταθερή και μπορεί να υπολογιστεί
εκτός των επαναλήψεων, όπως και η Hessian που πλέον είναι ανεξάρτητη από το p.
Εκτός από τους περιορισμούς που αφορούν τους μετασχηματισμούς στην περίπτωση του
compositional αλγορίθμου, επιπλέον περιορισμός είναι ότι ο μετασχηματισμός w(x;∆p) θα
πρέπει να είναι αντιστρέψιμος. Στις περισσότερες περιπτώσεις μετασχηματισμών οι περιορι-
σμοί ικανοποιούνται, εκτός από τους τμηματικούς affine μετασχηματισμούς που συναντάμε
στα Active Appearance Μοντέλα.
Το υπολογιστικό κόστος ανά επανάληψη μειώνεται σημαντικά, αφού μεγάλης πολυπλοκότητας
βήματα υπολογίζονται πλέον μια φορά. Το κόστος αυτών των βημάτων είναι O(n2N) ενώ το
κόστος ανά επανάληψη γίνεται O(nN +n3).
4.2 Lucas-Kanade με βάρη
Μια γενίκευση του LK αλγορίθμου δίνεται με τη χρήση ως συνάρτησης κόστους της SSD με
βάρη, η οποία εκφράζεται από την ακόλουθη συνάρτηση κόστους:
x y
Q(x,y)[I(w(x;p))−T(x)][I(w(y;p))−T(y)] (4.13)
όπου Q(x,y) ένα συμμετρικό, θετικά ορισμένο τετραγωνικό μητρώο. Η συνάρτηση κόστους
της Σχέσης (4.9) είναι μια ειδική μορφή της Σχέσης (4.13) και προκύπτει αν θέσουμε Q(x,y)
τον μοναδιαίο πίνακα. Εφαρμόζοντας ανάπτυγμα Taylor πρώτου βαθμού και παραγωγίζοντας
ως προς ∆p και παίρνοντας υπόψη ότι το Q(x,y) είναι συμμετρικό καταλήγουμε στην ακό-
λουθη σχέση:
2
x y
Q(x,y) T(y)+ Ty
∂w
∂p
∆p−I(w(y;p)) Tx
∂w
∂p
t
(4.14)
με λύση:
∆p = H−1
Q
y x
Q(x,y) Tx
∂w
∂p
t
[I(w(y;p))−T(y)] (4.15)
όπου HQ το ακόλουθο σταθμισμένο Hessian μητρώο:
HQ =
x y
Q(x,y) Tx
∂w
∂p
t
Ty
∂w
∂p
(4.16)
Μια ειδική αλλά ενδιαφέρουσα περίπτωση συναντάται όταν το μητρώο βαρών Q(x,y) είναι
διαγώνιο, δηλαδή:
33
44.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
Q(x,y) = Q(x)δ(x−y)
όπου δ(x − y) η ακολουθία Kronecker. Στην περίπτωση αυτή η συνάρτηση κόστους (4.13)
απλοποιείται στην ακόλουθη:
x
Q(x)[I(w(x;p))−T(x)]2
(4.17)
και αντίστοιχα οι (4.15),(4.16) εκφράζονται ως ακολούθως:
∆p = H−1
Q
x
Q(x,y) T
∂w
∂p
t
[I(w(x;p))−T(x)] (4.18)
HQ =
x
Q(x,y) Tx
∂w
∂p
t
Tx
∂w
∂p
(4.19)
4.3 Fourier Lucas-Kanade
΄Οπως είδαμε, ο αρχικός αλγόριθμος Lucas-Kanade και οι παραλλαγές του, χρησιμοποιούν
συνάρτηση κόστους που βασίζεται στο άθροισμα των τετραγωνικών διαφορών (SSD). ΄Ενα
βασικό θέμα σχετικά με την παραπάνω μετρική είναι η κακή απόδοση της σε περιπτώσεις
όπου υπάρχουν διαφορές στην εμφάνιση, που οφείλονται σε φωτομετρικές κυρίως παραμορ-
φώσεις. Το θέμα αυτό αντιμετωπίζεται με τις τεχνικές των AAM, κάτι που προϋποθέτει
όπως είδαμε την ύπαρξη παραδειγμάτων που θα χρησιμοποιηθούν στη φάση της εκπαίδευσης
του συστήματος.
Μια λύση, που δίνει ανεξαρτησία σε περιπτώσεις ύπαρξης φωτομετρικών παραμορφώσεων,
προτείνεται με τον αλγόριθμο Fourier Lucas-Kanade[11], που λύνει το πρόβλημα της αντι-
στοιχίας μεταφέροντας τους αλγορίθμους LK στο πεδίο της δισδιάστατης συχνότητας με τη
βοήθεια του μετασχηματισμού Fourier.
Η χρήση τράπεζας φίλτρων χρησιμοποιείται στην προεπεξεργασία τεχνικών υπολογιστικής
όρασης και βασίζεται σε δυο κυρίως ιδιότητες της ανθρώπινης όρασης. Συγκεκριμένα στο
γεγονός
• ότι είναι ευαίσθητη κυρίως στις αντανακλάσεις και δεν επηρεάζεται τόσο από τις συν-
θήκες φωτισμού και ότι
• αντιδρά σε διαφορές της αντίθεσης και όχι στο συνολικό επίπεδο φωτεινότητας
34
45.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
΄Ενας τρόπος να αναπαρασταθεί η αντίθεση τοπικά είναι με χρήση μιας τράπεζας φίλτρων που
κωδικοποιούν την διαφορά φωτεινότητας τοπικά σε διάφορες κατευθύνσεις και κλιμακώσεις.
Τα δισδιάστατα φίλτρα Gabor [] είναι αυτά που χρησιμοποιούνται συχνότερα για αυτό το
σκοπό, αν και μπορούν να χρησιμοποιηθούν οποιαδήποτε φίλτρα έχουν τη δυνατότητα να
κωδικοποιήσουν τις διαφορές φωτεινότητας.
Παίρνοντας τον αλγόριθμο LK ως βάση μπορούμε να ορίσουμε τη συνάρτηση κόστους ως
ακολούθως:
M
i=1
gi ∗[I(w(x;p))−T(0)] 2
(4.20)
όπου gi το i-οστό από τα M φίλτρα και ο τελεστής ∗ συμβολίζει δισδιάστατη γραμμική
συνέλιξη. Εφαρμόζοντας μετασχηματισμό Fourier η συνάρτηση γίνεται:
x
S1/2
[IF (w(x;p))−TF (x)]
2
(4.21)
όπου :
S =
M
i=1
diag(gFi )H
diag(gFi ) (4.22)
και IF ,TF ,gF οι δισδιάστατοι μετασχηματισμοί Fourier των I,T,g, τα οποία έχουμε μετα-
τρέψει σε διανύσματα. Το μητρώο S είναι διαγώνιο που μπορεί να υπολογιστεί πριν τις
επαναλήψεις και είναι ανεξάρτητο από τον αριθμό των φίλτρων. Επίσης ο δισδιάστατος μετα-
σχηματισμός Fourier μπορεί να αντικατασταθεί από τον πολλαπλασιασμό ενός διανύσματος
μήκους n, με ένα n×n μητρώο F που περιέχει τα διανύσματα βάσης του Fourier. Επομένως
η (4.21) γίνεται:
x
S1/2
F[I(w(x;p))−T(x)]
2
(4.23)
και είναι αντίστοιχη με τη συνάρτηση κόστους του LK με βάρη (4.17) όπου Q(x) = FtSF .
Η γραμμικοποίηση του:
gi ∗T(∆p) ≈ gi ∗T(0)+
∂gi ∗T(0)
∂p
∆p (4.24)
όπου :
gi ∗
∂T(0)
∂p
=
∂w(x;0)
∂p
∂[gi ∗T(0)]
∂w(x;0)
(4.25)
35
46.
ΑΛΓΟΡΙΘΜΟΙ ΒΑΣΙΣΜΕΝΟΙ ΣΤΟΤΕΤΡΑΓΩΝΙΚΟ ΣΦΑΛΜΑ
με ∂w(x;0)
∂p τη Jacobian του μετασχηματισμού παραμόρφωσης. Πρακτικά η Jacobian του
template υπολογίζεται ως προς τα x και y ως:
∂[gi ∗T(0)]
∂w(x;0)
=
diag{gx ∗gi ∗T(0)}
diag{gy ∗gi ∗T(0)}
(4.26)
όπου gx,gy οι μερικές παράγωγοι των φίλτρων ως προς x και y αντίστοιχα.
Γενικά τα gx και gy είναι οριζόντια και κάθετα προσανατολισμένα φίλτρα, που σχεδόν σε
όλες τις περιπτώσεις μπορούμε να υποθέσουμε ότι είναι ζωνοδιαβατά. Κατά τη συνέλιξη δυο
ζωνοδιαβατών φίλτρων, πχ gx ∗ gi, μπορεί να προκύψει θέμα αναντιστοιχίας ζωνών. ΄Οταν
η τομή των ζωνών διάβασης των δύο φίλτρων είναι πολύ μικρή, τότε υπάρχει σημαντική
εξασθένιση όταν αυτά συνελίσσονται. Στην υπολογιστική όραση αυτό οδηγεί σε εξασθένιση
του gradient της εικόνας αφού μεγάλο μέρος της γραμμικοποίησης είναι άχρηστο. Για αυτό το
λόγο αποφεύγεται να χρησιμοποιηθεί ένα μόνο φίλτρο, αντίθετα χρησιμοποιείται τράπεζα M
φίλτρων με διαφορετικούς προσανατολισμούς και κλιμακώσεις, ή αλλιώς με ζώνες διάβασης
διαφορετικού μεγέθους και τοποθέτησης.
Σχήμα 4.2: Εκτίμηση γεωμετρικού μετασχηματισμού σε εικόνα με διαφορετικές φωτομετρικές
συνθήκες από το πρότυπο
36
47.
Κεφάλαιο 5
Αλγόριθμοι Συσχέτισης
5.1Αλγόριθμος ECC
Η συνάρτηση κόστους που προτείνεται από τον αλγόριθμο ECC (Enhanced Correlation
Coefficient) [13, 14] είναι η ακόλουθη:
EECC(p) =
¯ir
¯ir
−
¯iw(w(x;p))
¯iw(w(x;p))
2
(5.1)
όπου ir το διάνυσμα αναφοράς ir = [T(x1)...T(xn)]t που προκύπτει από το template, iw(w(x;p))
το αντίστοιχο διάνυσμα παρατήρησης iw(w(x;p)) = [Iw(w(x1;p))...Iw(w(xn;p))] που προ-
κύπτει από την warped εικόνα ως συνάρτηση των παραμέτρων του μετασχηματισμού και
¯ir, ¯iw(w(x;p)) οι zero-mean εκδοχές τους. Η συνάρτηση αυτή έχει δυο βασικές ιδιότητες.
Δεν εξαρτάται από σφαιρικές φωτομετρικές παραμορφώσεις που αφορούν τη φωτεινότητα και
την αντίθεση. Επίσης, αν και είναι μη γραμμική συνάρτηση των παραμέτρων, το πρόβλημα
βελτιστοποίησης που προκύπτει μετά τη γραμμικοποίηση της έχει λύση κλειστής μορφής και
άρα έχει μικρή πολυπλοκότητα.
Η ελαχιστοποίηση της συνάρτησης (5.1) είναι ισοδύναμη με τη μεγιστοποίηση της:
ρ(p) =
¯it
r
¯iw(w(x;p))
¯ir
¯iw(w(x;p))
= ˆir
¯iw(w(x;p))
¯iw(w(x;p))
(5.2)
όπου ˆir το κανονικοποιημένο διάνυσμα ¯ir. Σε κάθε στοιχείο Iw εφαρμόζουμε ανάπτυγμα
Taylor πρώτου βαθμού ως προς τις παραμέτρους:
Iw(w(x;p)) ≈ Iw(w(x;p))+ Iw(w(x;p))
∂w
∂p
∆p (5.3)
37
48.
ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΧΕΤΙΣΗΣ
και γιατο σύνολο των σημείων:
iw(w(x;p)) ≈ iw(w(x;p))+J(p)∆p (5.4)
όπου J(p) το n × p Jacobian μητρώο, με p τον αριθμό των παραμέτρων του μετασχηματι-
σμού. Αν ο μετασχηματισμός παραμόρφωσης είναι w(x;p) = [w1(x;p),w2(x;p)]t τότε το
(i,j) στοιχείο της Jacobian είναι:
J(p)i,j =
2
k=1
∂Iw(w(x;p))
∂wk(xi;p)
×
∂wk(xi;p)
∂pj
(5.5)
Αφού υπολογιστούν τα zero-mean διανύσματα και με χρήση του αναπτύγματος Taylor η (5.2)
γίνεται:
ρ(p) ≈ ρ(∆p|p) =ˆit
r
¯iw(w(x;p))+ ¯J(p)∆p
¯iw(w(x;p))+ ¯J(p)∆p
(5.6)
ή ισοδύναμα:
ρ(∆p|p) =
ˆit
r
¯iw +ˆit
r
¯J∆p
¯iw
2
+2 ¯iw
t ¯J∆p+∆p ¯Jt ¯J∆p
(5.7)
Αν και η συνάρτηση ρ(∆p|p) είναι μη γραμμική ως προς ∆p η μεγιστοποίησή της καταλήγει
όπως αναφέραμε σε κλειστής μορφής λύση ως συνέπεια του παρακάτω θεωρήματος.
Θεώρημα 1. ΄Εστω η συνάρτηση:
f(x) =
u+utx
v +2vtx+xtQx
(5.8)
όπου τα u,v είναι βαθμωτοί, τα u,v διανύσματα μήκους n και το Q ένα τετραγωνικό, συμ-
μετρικό θετικά ορισμένο μητρώο μεγέθους n, ενώ τα v,v,Q είναι τέτοια ώστε
v > vt
Q−1
v (5.9)
τότε έχουμε τις δυο ακόλουθες περιπτώσεις:
Περίπτωση u > utQ−1v : υπάρχει μέγιστο της f(x) που δίνεται από την ακόλουθη σχέση:
max
x
f(x) =
(u−utQ−1v)2
v −vtQ−1v
+utQ−1u (5.10)
38
49.
ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΧΕΤΙΣΗΣ
για :
x= Q−1 v −vtQ−1v
u−utQ−1v
u−v (5.11)
Περίπτωση u ≤ utQ−1v : Εδώ έχουμε ότι η συνάρτηση φράσσεται από πάνω δηλαδή:
sup
x
f(x) = utQ−1u (5.12)
που μπορεί να προσεγγιστεί επιλέγοντας:
x = Q−1
{λu−v} (5.13)
όπου λ θετικός αριθμός.
Με την εφαρμογή του θεωρήματος που η απόδειξή του δίνεται στο [13] καταλήγουμε στη
λύση, όταν ˆir
¯iw > ˆit
rG ¯iw, που δίνεται από :
∆p = ( ¯Jt ¯J)−1 ¯Jt
¯iw
2
− ¯iwG ¯iw
ˆir
¯iw − ˆit
rG ¯iw
ˆir − ¯iw
(5.14)
όπου G = ¯J( ¯Jt ¯J) ¯Jt, ένα ορθογώνιο μητρώο προβολής. ΄Οταν ˆir
¯iw ≤ ˆit
rG ¯iw τότε σύμφωνα
με την (5.13):
∆p = ( ¯Jt ¯J)−1 ¯Jt{λˆir − ¯iw} (5.15)
με προτεινόμενες τιμές για την παράμετρο λ τις ακόλουθες:
λ1 =
ˆit
rGˆir
¯it
wG ¯iw
, λ2 =
ˆit
rG ¯iw −ˆir
¯iw
ˆit
rGˆir
(5.16)
Επιλέγοντας λ ≥ max{λ1,λ2} είναι εύκολο να δούμε ότι εξασφαλίζουμε μια μεγαλύτερη τιμή
του συντελεστή συσχέτισης. Πράγματι για λ ≥ λ1 έχουμε ρ(∆p|p) > ρ(0|p) , για λ ≥ λ2
έχουμε ότι ρ(∆p|p) ≥ 0, ενώ για λ ≥ max{λ1,λ2} ισχύουν και οι δυο ανισότητες.
5.2 Ευθυγράμμιση Προσώπων
Η ευθυγράμμιση και ανάλυση προσώπων είναι μια ειδική κατηγορία της αντιστοίχισης και
ευθυγράμμισης αντικειμένων, με παραμορφώσεις που προκύπτουν συνήθως από κίνηση του
39
50.
ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΧΕΤΙΣΗΣ
κεφαλιού ήεκφράσεις του προσώπου. Η μεγιστοποίηση του προσανατολισμού των gradients
των εικόνων[15] χειρίζεται το πρόβλημα της ευθυγράμμισης προσώπων σε προβλήματα όπου
υπάρχουν occlusions ή μη ομοιόμορφες φωτομετρικές παραμορφώσεις.
Από τις δυο εικόνες Ii, i = 1,2 υπολογίζουμε τη μιγαδική αναπαράσταση των gradients που
συνδυάζει το μέτρο και τον προσανατολισμό ως Gi = Gi,x + jGi,y, τα οποία γράφουμε σε
μορφή διανυσμάτων gi = gi,x +jgi,y μήκους N, όπου N το πλήθος των σημείων της ROI. Ο
συντελεστής συσχέτισης των gradients ορίζεται ως:
s R{gH
1 g2} (5.17)
όπου R{} το πραγματικό μέρος της πράξης και gH
1 ο συζυγής ανάστροφος του g1. Ορίζοντας
ri(k) g2
i,x(k)+g2
i,y(k) και φi(k) arctan
gi,y(k)
gi,x(k) έχουμε:
s
k
r1(k)r2(k)cos[∆φ(k)] (5.18)
όπου ∆φ φ1 − φ2. Χρησιμοποιώντας τα κανονικοποιημένα gradients ¯gi = ¯gi,x + j¯gi,y ,
όπου ¯gi,x = gi,x/|gi(k)| και αντίστοιχα ¯gi,y = gi,y/|gi(k)|, ο συντελεστής συσχέτισης σε ένα
υποσύνολο P0, σημείων που είναι ασυσχέτιστα μεταξύ τους, και άρα θεωρούνται outliers,
είναι:
q0
k∈P0
cos[∆φ(k)]
Για αυτά τα σημεία μπορεί να γίνει η υπόθεση ότι, για κάθε k, η διαφορά ∆φ(k) μπορεί να
πάρει οποιαδήποτε τιμή στο διάστημα [0,2π), ακολουθεί δηλαδή την ομοιόμορφη κατανομή
U(0,2π). Με αυτό δεδομένο ισχύει:
q0 =
k∈P0
cos[∆φ(k)] 0
Η συνάρτηση κόστους που θέλουμε να μεγιστοποιήσουμε είναι:
q =
k
cos[∆φ(k)] (5.19)
ή με χρήση των κανονικοποιημένων gradients:
q =
k
(¯g1,x(k)¯g2,x(k)+ ¯g1,y(k)¯g2,y(k)) (5.20)
40
51.
ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΧΕΤΙΣΗΣ
Γνωρίζουμε ότι¯g2(k) = 1 και άρα η (5.20), σε μορφή διανυσμάτων είναι ισοδύναμη με:
q =
¯gt
1,x¯g2,x + ¯gt
1,y¯g2,y
¯gt
2,x¯g2,x + ¯gt
2,y¯g2,y
(5.21)
Η μεγιστοποίηση της συνάρτησης κόστους γίνεται ως προς ∆p όπου g2 ← g2[p + ∆p]. Ο
κανόνας ενημέρωσης των παραμέτρων του μετασχηματισμού είναι ο p ← p+∆p. Γνωρίζουμε
ότι ¯g2,x[p](k) ≡ cosφ2[p](k) και ¯g2,y[p](k) ≡ sinφ2[p](k) όπου:
φ2[p](k) = arctan
g2,y[p](k)
g2,x[p](k)
(5.22)
Εφαρμόζοντας ανάπτυγμα Taylor στο ¯g2,x[p+∆p] έχουμε:
¯g2,x[p+∆p](k) ≈ cosφ2[p](k)+
∂ cosφ2[p](k)
∂p
∆p (5.23)
όπου μετά από την εφαρμογή του κανόνα της αλυσίδας:
∂ cosφ2[p](k)
∂p
= −sinφ2[p](k)j[p](k) (5.24)
Το j[p](k) είναι ένα 1×n διάνυσμα που δίνεται από :
j[p](k) =
cosφ2[p](k)
∂g2,y[p](k)
∂p −sinφ2[p](k)
∂g2,x[p](k)
∂p
g2
2,x[p](k)+g2
2,y[p](k)
(5.25)
Από όλα τα παραπάνω μπορούμε να γράψουμε:
¯g2,x[p+∆p] ≈ cosφ2[p]−Sφ[p] J[p]∆p (5.26)
όπου Sφ το N ×n μητρώο που η k-οστή γραμμή του έχει n στοιχεία ίσα με sinφ2[p](k), J
το N ×n μητρώο με γραμμές τα j[p](k), και αντίστοιχα:
¯g2,y[p+∆p] ≈ sinφ2[p]+Cφ[p] J[p]∆p (5.27)
όπου Cφ[p] το N ×n μητρώο που η k-οστή γραμμή του έχει n στοιχεία ίσα με cosφ2[p](k).
Αν S∆φ[p] το N ×1 διάνυσμα που το k-οστό στοιχείο του είναι sin(φ1(k)−φ2[p](k)), τότε
η συνάρτηση κόστους της (5.21) με χρήση των (5.26),(5.27) γίνεται:
q(∆p) =
qp +St
∆φJ∆p
N +∆ptJtJ∆p
(5.28)
41
52.
ΑΛΓΟΡΙΘΜΟΙ ΣΥΣΧΕΤΙΣΗΣ
όπου qp= cosφt
1 cosφ2[p]+sinφt
1 sinφ2[p] η συσχέτιση των προσανατολισμών των gradients
μεταξύ των δυο εικόνων. Η μέγιστη τιμή της συνάρτησης κόστους δίνεται για :
∆p =
N
qp
(Jt
J)−1
Jt
S∆φ (5.29)
όπου qp/N η κανονικοποιημένη συσχέτιση, όπου ο λόγος N/qp λειτουργεί σαν βάρος, αφού
στις πρώτες επαναλήψεις έχει μικρή τιμή που μεγαλώνει στη συνέχεια.
5.2.1 Inverse-Compositional Αλγόριθμος
΄Οπως είδαμε και σε προηγούμενο κεφάλαιο, στην περίπτωση του inverse-compositional αλ-
γορίθμου η warped εικόνα δίνεται ως συνάρτηση των παραμέτρων του μετασχηματισμού p,
ενώ το template δίνεται ως συνάρτηση των παραμέτρων ενημέρωσης ∆p. ΄Ετσι η συνάρτηση
κόστους της (5.21) γίνεται:
q =
¯gt
2,x¯g1,x + ¯gt
2,y¯g1,y
¯gt
1,x¯g1,x + ¯gt
1,y¯g1,y
(5.30)
Ο κανόνας ενημέρωσης σε αυτή την περίπτωση είναι w(x;p) ← w(x;p)◦w(x;∆p)−1. Λόγω
της υπόθεσης w(x;0) = x, όλες οι εξισώσεις που είχαμε προηγούμενα απλοποιούνται, αφού το
ανάπτυγμα Taylor εφαρμόζεται με κέντρο το 0 και όχι το διάνυσμα p, και άρα η Jacobian είναι
σταθερή και μπορεί να υπολογιστεί μια φορά πριν το επαναληπτικό μέρος του αλγορίθμου.
Η συνάρτηση κόστους της (5.28) γίνεται:
q(∆p) =
qp +St
∆φJ∆p
N +∆ptJtJ∆p
(5.31)
με τη διαφορά ότι S∆φ[p] το N ×1 διάνυσμα που το k-οστό στοιχείο του είναι το sin(φ2[p](k)−
φ1(k)). Η λύση δίνεται από την (5.29), όπου η Jacobian και στις δυο εξισώσεις η Jacobian
είναι σταθερή και ανεξάρτητη του p.
΄Οπως και σε όλους τους αλγορίθμους όπου γίνεται χρήση της Jacobian, το βήμα με το
μεγαλύτερο υπολογιστικό κόστος είναι ο υπολογισμός της που απαιτεί O(n2N) πράξεις. Το
κόστος των υπόλοιπων βημάτων είναι το πολύ O(nN) , αφού N n. ΄Ετσι είναι φανερό ότι
η χρήση του inverse-compositional αλγορίθμου αντί του forward additive μειώνει την τάξη
του υπολογιστικού κόστους κατά O(n).
Τα αποτελέσματα της εφαρμογής της μεθόδου θα τα δούμε στο επόμενο Κεφάλαιο.
42
53.
Κεφάλαιο 6
Σταθμισμένη Αντιστοίχιση
Εικόνων
Οαλγόριθμος αντιστοίχισης που προτείνεται στο κεφάλαιο αυτό στοχεύει στην ευθυγράμμιση
εικόνων στις οποίες οι φωτομετρικές παραμορφώσεις είναι τοπικές και δεν μπορούν να μοντε-
λοποιηθούν με το γενικό σφαιρικό μοντέλο της αντίθεσης και τη φωτεινότητας που αναφέρ-
θηκε στο προηγούμενο κεφάλαιο, όπως επίσης και εικόνων στις οποίες υπάρχουν occlusions,
τα οποία και θα θεωρήσουμε ως ειδική περίπτωση έντονων φωτομετρικών παραμορφώσεων.
6.1 Αλγόριθμος P- ECC
΄Οπως αναφέραμε θεωρούμε ότι οι φωτομετρικές παραμορφώσεις είναι τοπικές, ακολουθούν
δηλαδή το παρακάτω μοντέλο:
qi = αiti +βi, i = 1,2,...,N (6.1)
όπου ti, qi οι τιμές έντασης στο εικονοστοιχείο i του template και της παραμορφωμένης
εικόνας αντίστοιχα και N το πλήθος των εικονοστοιχείων της εικόνας. ΄Οπως μπορούμε να
δούμε οι φωτομετρικές παραμορφώσεις μπορούν να είναι διαφορετικές για κάθε εικονοστοιχείο
και μοντελοποιούνται με τη χρήση ενός πολλαπλασιαστικού και ενός προσθετικού παράγοντα.
΄Ενας διαφορετικός τρόπος από αυτόν της αφαίρεσης μέσης τιμής για να εξαλείψουμε την
επίδραση του προσθετικού παράγοντα είναι να χρησιμοποιήσουμε τις μερικές παραγώγους
ως προς x και y, δηλαδή την κλίση της εικόνας στις αντίστοιχες θέσεις, τα διανύσματα
ti = [tx,ty]t, qi = [qx,qy]t.
Επειδή όμως συνεχίζει να υπάρχει η επίδραση του πολλαπλασιαστικού παράγοντα, κάτι που
μας εμποδίζει να αντιμετωπίσουμε ενιαία την αντιστοίχιση των εικόνων, θα χωρίσουμε το
43
54.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
πρόβλημασε N υποπροβλήματα και θα λύσουμε για κάθε ζεύγος αντίστοιχων εικονοστοιχεί-
ων ξεχωριστά. Η συνάρτηση κόστους που θα ελαχιστοποιήσουμε είναι αυτή των [13, 14] με
τη διαφορά ότι εφαρμόζεται σε κάθε ζεύγος εικονοστοιχείων. Δηλαδή:
i(p) =
ti
ti
−
qi(p)
qi(p)
2
, i = 1,2,...,N (6.2)
ή ισοδύναμα μεγιστοποίηση της :
ρi(p) = ˆti
qi(p)
qi(p)
, i = 1,2,...,N (6.3)
Υποθέτοντας το προσθετικό μοντέλο pn ← pn−1 +∆pn και εφαρμόζοντας ανάπτυγμα Taylor
ως προς τις παραμέτρους στο qi(p) παίρνουμε:
qi(pn) ≈ qi(pn−1)+Hi(I2 ⊗xt
i)∆pn (6.4)
όπου Hi το 2 × 2 Hessian μητρώο του εικονοστοιχείου i, xi το διάνυσμα ομογενών συντε-
ταγμένων του, I2 το μοναδιαίο 2×2 μητρώο και ⊗ συμβολίζει το γινόμενο Kronecker. ΄Οπως
παρατηρούμε το διάνυσμα παραμέτρων είναι μοναδικό και κοινό για όλα τα σημεία. Θέτοντας
:
zi = (I2 ⊗xt
i)∆pn (6.5)
η (6.4) μπορεί να γραφεί ισοδύναμα ως ακολούθως:
qi(pn) ≈ qi(pn−1)+Hizi (6.6)
Αντικαθιστώντας την (6.6) στην (6.3) καταλήγουμε στην τελική μορφή της συνάρτησης
κόστους:
ρi(∆p) =
ˆtt
iqi(pn−1)+ˆtt
iHizi
qi(pn−1) 2
2 +2qt
i(pn−1)Hizi +zt
iHt
i Hizi
(6.7)
και σκοπός μας είναι να μεγιστοποιήσουμε τη συνάρτηση της Σχέσης (6.7) ως προς zi.
6.1.1 Μεγιστοποίηση του μέτρου ομοιότητας
Για την εύρεση της κλειστής μορφής λύσης θα ακολουθήσουμε μια παρόμοια διαδικασία με
αυτή του Θεωρήματος 1 που παρουσιάστηκε στο προηγούμενο κεφάλαιο. Συγκεκριμένα
μπορούμε να αποδείξουμε το ακόλουθο Λήμμα:
44
55.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
Λήμμα1. ΄Εστω η συνάρτηση της Σχέσης (6.7) με Hi ένα τετραγωνικό, συμμετρικό και
θετικά ορισμένο μητρώο. Η συνάρτηση παίρνει τη μέγιστη δυνατή τιμή, δηλαδή ρi(zi) = 1,
που μπορεί να επιτευχθεί αν το διάνυσμα zi είναι της ακόλουθης μορφής:
zi = H−1
i (λˆti −qi(pn−1)) (6.8)
όπου λ θετικός αριθμός.
Απόδειξη. Η απόδειξη του λήμματος είναι απλή και ακολουθεί. Για το σκοπό αυτό θα ορί-
σουμε το 2×1 διάνυσμα:
x = Hizi +qi(p) (6.9)
Τότε η συνάρτηση ρi(∆p) μπορεί να γραφεί ως ακολούθως:
ρi(x) =
< ˆti,x >
x 2
(6.10)
και η οποία παίρνει τη μέγιστη δυνατή τιμή αν επιλέξουμε :
x∗
= λˆti (6.11)
όπου λ θετικός αριθμός.
Χρησιμοποιώντας την (6.9) η (6.11) δίνει:
zi = H−1
i λˆti −qi(pn−1) (6.12)
που ολοκληρώνει την απόδειξη του λήμματος.
Είναι εύκολο να διαπιστώσουμε ότι στην περίπτωσή μας η παράμετρος λi μοντελοποιεί την
φωτομετρική παραμόρφωση που υπάρχει στο εικονοστοιχείο i της παραμορφωμένης εικόνας.
Πρέπει να τονίσουμε στο σημείο αυτό ότι ο μόνος περιορισμός που τίθεται για την παράμετρο
αυτή είναι η θετικότητά της, όπως μπορούμε να δούμε από τη Σχέση (6.10) της απόδειξης
του Λήμματος.
Συνοψίζοντας, αν θέλουμε να εξαλείψουμε τοπικές φωτομετρικές παραμορφώσεις που υφί-
στανται σε δυο αντίστοιχα εικονοστοιχεία τότε μπορούμε να χρησιμοποιήσουμε τα gradients
των εικόνων στα αντίστοιχα εικονοστοιχεία και να μεγιστοποιήσουμε ως προς το διάνυσμα zi
που εξαρτάται από το ∆p και είναι συνδεδεμένο με τις γεωμετρικές παραμορφώσεις και τον
συντελεστή συσχέτισης των δυο κλίσεων.
45
56.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
Είναιφανερό ότι σκοπός μας στη επόμενη παράγραφο είναι να εφαρμόσουμε την Σχέση (6.12)
σε κάθε ζεύγος αντίστοιχων εικονοστοιχείων των δυο εικόνων.
6.2 Σταθμισμένη Αντιστοίχιση εικόνων
Ας διατυπώσουμε τώρα το πρόβλημα αντιστοίχισης χρησιμοποιώντας αυτά που είδαμε στις
προηγούμενες παραγράφους. Για το σκοπό αυτό θα ορίσουμε τα ακόλουθα σύνολα εικονο-
στοιχείων :
Pq = {ˆxi, i = 1,2,...,K}
Pt = {xi, i = 1,2,...,K :xi = w(ˆxi;p)}
της παραμορφωμένης εικόνας και του template αντίστοιχα, και w(ˆxi;p) να συμβολίζει ένα
γεωμετρικό μετασχηματισμό με παραμέτρους p.
Είναι φανερό ότι αν εφαρμόσουμε το Λήμμα 1 σε κάθε ζεύγος αντίστοιχων σημείων των παρα-
πάνω συνόλων καταλήγουμε στο ακόλουθο υπερκαθορισμένο γραμμικό σύστημα εξισώσεων:
I2 ⊗xt
i ∆p = H−1
i (λiti −qi), i = 1,2,...,K (6.13)
του οποίου τη λύση θα αναλύσουμε στις επόμενες παραγράφους.
6.2.1 Λύση βασισμένη στα Ελάχιστα Τετράγωνα
Χρησιμοποιώντας τη σχέση (6.13) καταστρώνουμε το ακόλουθο σύστημα εξισώσεων:
(I2 ⊗xt
1) −H−1
1
ˆt1 0 ··· 0
(I2 ⊗xt
2) 0 −H−1
2
ˆt2 ··· 0
···
...
...
...
(I2 ⊗xt
K) 0 ··· ··· −H−1
K
ˆtK
∆p
λ1
λ2
...
λK
= −
H−1
1 q1
H−1
2 q2
H−1
3 q3
...
H−1
K qK
στη γενική περίπτωση (n > 6) είναι ένα έχουμε υπερκαθορισμένο σύστημα 2K εξισώσεων με
6+K αγνώστους τους οποίους και θέλουμε να προσδιορίσουμε με την έννοια των ελαχίστων
τετραγώνων και με μόνο περιορισμό ότι λk > 0, k = 1,2,...,K.
Προς το παρόν ας θεωρήσουμε ότι τα σύνολα σημείων που ορίσαμε στην προηγούμενη παρά-
γραφο, είναι ορισμένα έτσι ώστε ο περιορισμός θετικότητας των λk να ισχύει. Σκοπός μας
46
57.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
είναινα ελαχιστοποιήσουμε την Ax−b 2
2 ως προς x η οποία ως γνωστόν έχει τη βέλτιστη
λύση:
x∗
= (AT
A)−1
AT
b (6.14)
Ωστόσο, η ειδική μορφή του μητρώου A στην περίπτωσή μας επιτρέπει μια ειδική λύση του
συστήματος η οποία παρατίθεται στη συνέχεια.
Ακολουθώντας την διαδικασία επίλυσης των ελαχίστων τετραγώνων το αριστερό μέλος γίνε-
ται:
i
(I2 ⊗xi)(I2 ⊗xt
i) −(I2 ⊗x1)H−1
1
ˆt1 −(I2 ⊗x2)H−1
2
ˆt2 ··· −(I2 ⊗xK)H−1
K
ˆtK
−ˆtt
1H−1
1 (I2 ⊗xt
1) H−1
1
ˆt1
2
2
0 ··· 0
−ˆtt
2H−1
2 (I2 ⊗xt
2) 0 H−1
2
ˆt2
2
2
··· 0
···
...
...
...
−ˆtt
KH−1
n (I2 ⊗xt
K) 0 ··· ··· H−1
K
ˆtK
2
2
∆p
λ1
λ2
...
λK
(6.15)
και το δεξί μέλος
−
i
(I2 ⊗xi)H−1
i qi
ˆtt
1H−2
1 q1
ˆtt
2H−2
2 q2
...
ˆtt
KH−2
K qK
(6.16)
και μαζί συνθέτουν το σύστημα από το οποίο και προκύπτουν οι παρακάτω εξισώσεις:
K
i=1
(I2 ⊗xi)(I2 ⊗xt
i)∆p−
K
i=1
(I2 ⊗xi)H−1
i
ˆtiλi = −
i
(I2 ⊗xi)H−1
i qi (6.17)
−ˆtt
iH−1
i (I2 ⊗xt
i)∆p+ H−1
i
ˆti
2
2
λi = ˆtt
iH−2
i qi (6.18)
Λύνοντας την (6.18) ως προς λi και αντικαθιστώντας στην (6.17) προκύπτει η εξίσωση από
όπου θα υπολογίσουμε το διάνυσμα παραμέτρων ∆p:
47
58.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
K
i=1
(I2⊗xixt
i)∆p−
K
i=1
(I2 ⊗xt
i)H−1
i
ˆti
ˆtt
iH−1
i ∆p
=
K
i=1
(I2 ⊗xt
i)
ˆtt
iH−2
i qi
ˆtt
iH−2
i
ˆti
H−1
i
ˆti −H−1
i qi (6.19)
ή ισοδύναμα:
∆p =
K
i=1
(I2 ⊗xixt
i)−(I2 ⊗xt
i)H−1
i
ˆti
ˆtt
iH−1
i
−1 K
i=1
ˆtt
iH−2
i qi
ˆtt
iH−2
i
ˆti
H−1
i
ˆti −H−1
i qi (6.20)
από όπου το διάνυσμα ∆p που προκύπτει είναι της μορφής ∆p = [r1,r2,t1,r3,r4,t2]t με ri τις
παραμέτρους που αφορούν την περιστροφή και ti τις παραμέτρους που αφορούν τη μετατόπιση
αντίστοιχα.
6.2.2 Διαχωρισμός εξισώσεων
Στην παράγραφο αυτή θα εκμεταλλευτούμε την ειδική μορφή της εξίσωσης ορισμού του zi.
Πράγματι η Σχέση (6.13) μπορεί να γραφεί ισοδύναμα ως:
xt
i∆p1 = λipi1 −qi1 (6.21)
xt
i∆p2 = λipi2 −qi2 (6.22)
όπου ∆p1 = [r1,r2,t1]t, ∆p2 = [r3,r4,t2]t το διαχωρισμένο διάνυσμα των παραμέτρων διόρ-
θωσης, pij = H−1
i (j)ˆti και qij = H−1
i (j)qi. Ας θεωρήσουμε τώρα επιπλέον ότι οι φωτομε-
τρικές παράμετροι λi είναι γνωστές. Τότε, το υπερκαθορισμένο σύστημα της Σχέσης (6.13)
διαχωρίζεται στα ακόλουθα συστήματα με κοινό δεξί μέλος:
D−1
j (X∆pj +rj) = λ, j = 1,2 (6.23)
όπου Dj το K ×K διαγώνιο μητρώο με στοιχεία τα pij, X το K ×3 μητρώο των ομογενών
συντεταγμένων, rj το μήκους K διάνυσμα με στοιχεία τα qij και λ το μήκους K διάνυσμα
με στοιχεία τα λi.
Είναι φανερό ότι οι λύσεις ελαχίστων τετραγώνων ως προς τις γεωμετρικές παραμορφώσεις
θα δίνονται από τις ακόλουθες σχέσεις:
48
59.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
∆p∗
=XT
X
−1
XT
(Djλ−rj), i = 1,2 (6.24)
και αποτελούν τις βέλτιστες εκτιμήσεις των παραμέτρων του μετασχηματισμού στον οποίο
οφείλονται οι γεωμετρικές παραμορφώσεις.
Ωστόσο, ο υπολογισμός αυτών των εκτιμήσεων πρακτικά είναι αδύνατος αφού δεν γνωρίζουμε
τις τιμές των λi.
Σκοπός μας επομένως στη συνέχεια είναι ο προσδιορισμός αυτών των τιμών και αν είναι δυ-
νατόν η εύρεση του μηχανισμού δημιουργίας των συνόλων Pt, Pq που ορίσαμε στην αρχή της
ενότητας 6.2 και τα οποία όπως είδαμε έχουν οριστεί με τέτοιο τρόπο ώστε να εξασφαλίζουν
τον περιορισμό της θετικότητας των παραμέτρων λ.
Μια παρατήρηση προς την κατεύθυνση αυτή είναι ότι τα διανύσματα X∆p∗ ανήκουν στο
C(X) δηλαδή στο χώρο του μητρώου X και έτσι είναι κάθετα στο μηδενοχώρο του. Για να
διευκρινίσουμε αυτό το σημείο ας αντικαταστήσουμε τις βέλτιστες τιμές των γεωμετρικών
διορθώσεων της Σχέσης (6.24) στη Σχέση (6.23) δηλαδή:
X∆p∗
j +rj = Djλ (6.25)
ή ισοδύναμα:
(I −P)Djλ = (I −P)rj, j = 1,2 (6.26)
όπου P = X(XT X)−1XT πίνακας προβολής πάνω σε έναν υποχώρο του RK, ο οποίος καθο-
ρίζεται από τη βάση που περιγράφουν οι στήλες του μητρώου X.
Ας θεωρήσουμε ότι το μητρώο προβολής είναι γνωστό, υπόθεση η οποία εξασφαλίζει γνωστά
διανύσματα qi όπως και διαγώνια μητρώα Dj, j = 1,2. Επομένως η Σχέση (6.26) ουσιαστικά
μπορεί να χρησιμοποιηθεί για τον ορισμό των προβολών στον μηδενοχώρο του μητρώου X
των σταθμισμένων διανυσμάτων Djλ, j = 1,2 από τις αντίστοιχες προβολές των γνωστών
διανυσμάτων Dj. Δηλαδή το κοινό λ που αναζητάμε μπορεί να εκφραστεί ως:
λ = D−1
j (I −P)Dj +ξj, j = 1,2 (6.27)
Με άλλα λόγια το πρόβλημά μας τώρα μπορεί να διατυπωθεί ως ακολούθως:
Δεδομένου ότι τα διανύσματα D−1
j (I −P)Dj, j = 1,2 είναι γνωστά βρείτε τα κατάλληλα δια-
νύσματα ξj έτσι ώστε τα αριστερά μέλη των εξισώσεων της Σχέσης (6.27) να ταυτίζονται.
Για να πετύχουμε το σκοπό μας θα επανέλθουμε στο αρχικό σύστημα των Σχέσεων (6.21)
και (6.22) και να υπολογίσουμε την λύση του υπερκαθορισμένου γραμμικού συστήματος με
49
60.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
τηνέννοια των ελαχίστων τετραγώνων. Χρησιμοποιώντας το λήμμα αντιστροφής μητρώων,
μπορούμε να αποδείξουμε ότι οι παράμετροι λ ικανοποιούν την ακόλουθη σχέση:
D1 (I −P)(D1λ−r1) +D2 (I −P)(D2λ−r2) = 0 (6.28)
Αυτό που απορρέει από την παραπάνω σχέση ταυτίζεται με αυτό της Σχέσης (6.26), εκτός
της στάθμισης της με τους διαγώνια Μητρώα Dj, j = 1,2. Θα πρέπει να παρατηρήσουμε εδώ
ότι παίρνοντας υπόψη μας την ασάφεια προσήμου που ενυπάρχει στα μητρώα προβολής, ότι αν
τα πρόσημα των στοιχείων των διαγώνιων μητρώων Dj, j = 1,2 ταυτίζονται με τα πρόσημα
των διανυσμάτων rj, j = 1,2, η παραπάνω σχέση εκφράζει ότι το σταθμισμένο άθροισμα των
προβολών των θετικών διανυσμάτων rj, j = 1,2 πάνω στο μηδενοχώρο του μητρώου Χ πρέπει
να είναι ίσο με το σταθμισμένο άθροισμα των προβολών των διανυσμάτων Djλ, j = 1,2 πάνω
στον ίδιο χώρο. Με άλλα λόγια, το σταθμισμένο άθροισμα των προβολών των διανυσμάτων
σφάλματος πάνω στο μηδενοχώρο του μητρώου Χ πρέπει να είναι μηδέν.
Μία άλλη επίσης πολλή ενδιαφέρουσα παρατήρηση σχετιζόμενη με την παραπάνω σχέση είναι
ότι αν βρισκόμαστε ¨κοντά’ στην βέλτιστη λύση του προβλήματος αντιστοίχισης, ή οι φωτο-
μετρικές παραμορφώσεις δεν είναι ισχυρές, και ισχύουν αυτά που είπαμε για τα πρόσημα των
διαγωνίων πινάκων και διανυσμάτων που αναφέραμε παραπάνω, οι τιμές των παραμέτρων λ
είναι με μεγάλη πιθανότητα θετικές.
Συνδυάζοντας τώρα αυτά που αναφέραμε παραπάνω οδηγούμαστε στο συμπέρασμα ότι ένας
δόκιμος ορισμός των συνόλων εικονοστοιχείων Pq και Pt είναι ο ακόλουθος:
Pq = {ˆxi ∈ S, i = 1,2,...,L}
Pt = {xi, i = 1,2,...,L:xi = w(ˆxi;p), ˆxi ∈ S}
όπου το σύνολο S ορίζεται ως η τομή των ακόλουθων συνόλων:
Sj = {ˆxi,i = 1,2,··· ,K : sign(diag(Dj)) = sign(rj)}, j = 1,2, (6.29)
δηλαδή:
S = ˆxi,i = 1,2,··· ,K ∈ ∩2
j=1Sj . (6.30)
και K ο πληθικός αριθμός του συνόλου S.
΄Οπως θα δούμε στο επόμενο κεφάλαιο ο παραπάνω ορισμός των συνόλων, για τις περιπτώσεις
αντιστοίχισης εικόνων ακόμη και με πολύ μεγάλες γεωμετρικές παραμορφώσεις, οι οποίες
όμως είναι είτε χωρίς ή με περιορισμένες (σφαιρικές ή τοπικές) φωτομετρικές παραμορφώσεις
δίνει πολύ καλά αποτελέσματα με την απόδοση του προτεινόμενου αλγόριθμου να είναι πολύ
καλύτερη από αυτές αλγορίθμων που είναι ’state of the art’ στο πρόβλημα της αντιστοίχισης
εικόνων.
50
61.
ΣΤΑΘΜΙΣΜ΄ΕΝΗ ΑΝΤΙΣΤΟΙΧΙΣΗ ΕΙΚΟΝΩΝ
΄Οπωςείναι αναμενόμενο, όταν οι οι φωτομετρικές παραμορφώσεις είναι πολύ έντονες, όπως
αυτές που φαίνονται στην ακόλουθη εικόνα, ο παραπάνω ορισμός του σημείο-συνόλου S δεν
αρκεί για να συγκλίνει ο αλγόριθμος αντιστοίχισης. Ο λόγος στην αποτυχία της σύγκλισης
του αλγορίθμου, είναι οι ακραίες τιμές που μπορεί να πάρουν τα στοιχεία των διαγώνιων
μητρώων και των διανυσμάτων που υπεισέρχονται στον ορισμό των παραπάνω συνόλων.
(αʹ) (βʹ)
Σχήμα 6.1: (a) Η εικόνα αναφοράς και (b) η εικόνα προς αντιστοίχιση
Για να ελαχιστοποιήσουμε την πιθανότητα ύπαρξης τέτοιων τιμών στα παραπάνω σύνολα,
στη συνέχεια θα περιορίσουμε το σύνολο S που ορίσαμε παραπάνω. Για το σκοπό αυτό ας
ορίσουμε τα ακόλουθα σύνολα προβολής:
N1 = {nj = Dj(I −P)rj, j = 1,2,: ˆxi ∈ S} (6.31)
και έστω µ = mean(|N1 − N2|) η μέση τιμή της ακολουθίας των παραπάνω διαφορών. Επι-
πλέον, έστω N0
1 και N0
2 οι τιμές των παραπάνω ακολουθιών σε ολόκληρο το ράστερ.
Τότε, προτείνεται η χρήση του ακόλουθου συνόλου:
ˆS = |N0
1 −N0
2 | ≤ µ,: ˆxi ∈ S . (6.32)
Το παραπάνω σύνολο είναι προφανές ότι αποτελεί περιορισμό του συνόλου S που ορίσαμε
παραπάνω. Ο περιορισμός αυξάνει την συχνότητα σύγκλισης του αλγορίθμου, όπως θα δούμε
στο επόμενο κεφάλαιο, στις περιπτώσεις ισχυρών φωτομετρικών παραμορφώσεων, χωρίς να
επηρεάζει την απόδοση του αλγορίθμου στις άλλες.
51
62.
Κεφάλαιο 7
Πειράματα
Η απόδοσητου προτεινόμενου αλγορίθμου εξετάστηκε σε μια σειρά πειραμάτων σε εικόνες
προσώπων της βάσης Yale B καθώς και σε εικόνες γενικού περιεχομένου της βάσης Affine
Covariant Regions του University of Oxford . Ο προτεινόμενος αλγόριθμος συγκρίνεται με
τους αλγορίθμους αντιστοίχισης που προτείνονται στην [15] που έχουν υλοποιηθεί από τους
ίδιους τους συγγραφείς.
7.1 Περιγραφή Πειραματικών Δεδομένων
Τα πειράματα έγιναν σε δυο φάσεις. Στην πρώτη φάση χρησιμοποιήσαμε γεωμετρικά πα-
ραμορφωμένες εικόνες της Yale B χωρίς φωτομετρικές παραμορφώσεις. Από κάθε εικόνα
επιλέγονται τρία σημεία, όπως αυτά ορίζονται στον κώδικα πειραμάτων, εντός της ROI. Στη
συνέχεια τα σημεία παραμορφώνονται κατά ένα τυχαίο μετασχηματισμό στον οποίο προσθέ-
τουμε θόρυβο με κανονικής κατανομής N(0,σ2). Το μέγεθος του θορύβου εξαρτάται από
την τιμή του σ που παίρνει τιμές στο διάστημα [5−15].
52
63.
ΠΕΙΡΑΜΑΤΑ
(αʹ) (βʹ)
(γʹ)
Σχήμα 7.1:Παράδειγμα εικόνας (a) παραμορφωμένης για (b)σ = 7 και (c)σ = 15
Στη δεύτερη φάση χρησιμοποιήθηκαν οι εικόνες της βάσης Affine Covariant Regions που
περιέχουν και φωτομετρικές παραμορφώσεις, στις οποίες εφαρμόσαμε επιπλέον γεωμετρικό
μετασχηματισμό, κατά ίδιο τρόπο όπως αναφέρθηκε προηγουμένως, με το σ να παίρνει τις
τιμές 5 και 10 .
Η αξιολόγηση των αποτελεσμάτων των αλγορίθμων έγινε χρησιμοποιώντας το παρακάτω
κριτήριο
err = E (˜x− ˆx) 2
2 (7.1)
όπου ˆx τα ιδανικά σημεία και ˜x = w(x;p) τα αρχικά σημεία στα οποία έχουμε εφαρμόσει το
μετασχηματισμό που εκτιμήσαμε.
7.2 Αποτελέσματα
7.2.1 Χωρίς φωτομετρικές παραμορφώσεις (Yale B)
Τα πειράματα έγιναν σε 10 διαφορετικές εικόνες για 60 διαφορετικούς γεωμετρικούς μετασχη-
ματισμούς ανά περίπτωση για χωρίς την παρουσία και με την παρουσία μικρών φωτομετρικών
53
64.
ΠΕΙΡΑΜΑΤΑ
μετασχηματισμών. Οι καμπύλεςμε τις συχνότητες σύγκλισης παρουσιάζονται στο σχήμα
που ακολουθεί. ΄Οπως μπορούμε να δούμε από το σχήμα αυτό η απόδοση της προτεινόμενης
τεχνικής στοίχισης σε σχέση με τα ποσοστά σύγκλισης για διαφορετικές τιμές της ισχύ-
ος του θορύβου είναι πολύ καλή και σίγουρα πολύ καλύτερη από αυτές των τεχνικών που
προτάθηκαν στην [15].
Σχήμα 7.2: Ποσοστά σύγκλισης των συγκρινόμενων αλγορίθμων για θόρυβο με σ = 5 : 15.
Το μέσο σφάλμα για τις επιτυχημένες περιπτώσεις παρουσιάζεται στον Πίνακα που ακολουθεί:
σ
Algorithm
Gradient Gradient Correlation P-ECC
5 0.0603 0.0299 1.9141ε-10
6 0.0691 0.0467 1.7929ε-10
7 0.1016 0.0592 1.7330ε-09
8 0.1070 0.0607 2.3345ε-09
9 0.0734 0.0967 2.9777ε-07
10 0.1672 0.1491 1.01ε-04
11 0.1071 0.1304 6.25ε-03
12 0.8825 0.8841 6.423ε-03
13 0.7135 0.7850 6.413ε-03
14 1.2060 0.6806 0.0513
15 1.0197 0.9071 0.0576
Πίνακας 7.1: Μέσο σφάλμα των επιτυχημένων περιπτώσεων σε εικόνες χωρίς φωτομετρικές
παραμορφώσεις
πως εύκολα προκύπτει από τα περιεχόμενα του Πίνακα 1, η ακρίβεια που πετυχαίνει ο προ-
τεινόμενος αλγόριθμος είναι πολύ καλή.
54
65.
ΠΕΙΡΑΜΑΤΑ
Τέλος, στις παρακάτωεικόνες μπορούμε να δούμε τα σημεία που επιλέγει ο προτεινόμενος
αλγόριθμος σε διάφορες φάσεις της διαδικασίας. ΄Οπως μπορούμε να δούμε από τις εικόνες
αυτές, ο αλγόριθμος επιλέγει σημεία σχεδόν ομοιόμορφα στην εικόνα.
(αʹ) (βʹ)
(γʹ)
Σχήμα 7.3: Η επιλογή σημείων για σ = 5 (a) στην 1η επανάληψη, (b) στην 4η επανάληψη
και (c) στην 7η επανάληψη που ο αλγόριθμος έχει συγκλίνει
55
66.
ΠΕΙΡΑΜΑΤΑ
(αʹ) (βʹ)
(γʹ)
Σχήμα 7.4:Η επιλογή σημείων για σ = 15 (a) στην 1η επανάληψη, (b) στην 18η επανάληψη
και (c) στην 28η επανάληψη που ο αλγόριθμος έχει συγκλίνει
7.2.2 Με φωτομετρικές παραμορφώσεις
Σε αυτήν την περίπτωση, τα πειράματα έγιναν σε μια` εικόνα της βάσης cars με 5 διαφορετικές
φωτομετρικές παραμορφώσεις και για 50 διαφορετικούς γεωμετρικούς μετασχηματισμούς για
δυο διαφορετικά μεγέθη θορύβου ανά περίπτωση.
Οι πίνακες με τις συχνότητες σύγκλισης παρουσιάζονται στο σχήμα που ακολουθεί. ΄Οπως
μπορούμε να δούμε από τους παρακάτω πίνακες η απόδοση της προτεινόμενης τεχνικής στοί-
χισης σε σχέση με τα ποσοστά σύγκλισης για τις δυο διαφορετικές τιμές της ισχύος του
θορύβου είναι και πάλι πολύ καλή και σίγουρα καλύτερη από αυτές της πιο ρωμάλεας τεχνι-
κής από τις δυο που προτάθηκαν στην [15].Ωστόσο θα πρέπει να πούμε στο σημείο αυτό ότι
η συμπεριφορά του προτεινόμενου αλγορίθμου δεν είναι τόσο ρωμαλέα όσο στην περίπτωση
με τις μικρές σχετικά φωτομετρικές παραμορφώσεις. Επίσης είναι εμφανές ότι το γενικό
περιεχόμενο των εικόνων επηρεάζει αρνητικά τον ειδικού σκοπού αλγόριθμο.
Πρέπει επίσης να πούμε ότι στην περίπτωση των έντονων φωτομετρικών παραμορφώσεων της
βάσης Yale B όταν χρησιμοποιούμε σαν εικόνα αναφοράς την εικόνα με τις φωτομετρικές πα-
ραμορφώσεις η απόδοση του αλγοορίθμου είναι κατα 3−5% καλύτερη από τους αλγορίθμους
56
67.
ΠΕΙΡΑΜΑΤΑ
της [15]. ΄Οτανόμως χρησιμοποιούμε τη φωτομετρικά παραμορφωμένη εικόνα για την εκτί-
μηση του μετασχηματισμού τότε η απόδοση πέφτει κατά πολύ, κάτι που οφείλεται ευαισθησία
της διαδικασίας παρεμβολής στην παρουσία φωτομετρικού θορύβου.
Οι εικόνες που χρησιμοποιήθηκαν είναι αυτές που φαίνονται στο σχήμα που ακολουθεί.
(αʹ) (βʹ)
(γʹ) (δʹ)
(εʹ)
Σχήμα 7.5: (α) Εικόνα αναφοράς και (β)-(ε) φωτομετρικά παραμορφωμένες εικόνες προς
αντιστοίχιση
57
68.
ΠΕΙΡΑΜΑΤΑ
Algorithm
image
(β) (γ) (δ)(ε)
Gradient Correlation 94 86 72 61
P-ECC (1ο κριτήριο) 97 89 69 63
P-ECC (2ο κριτήριο) 97 89 72 70
Πίνακας 7.2: Ποσοστά επιτυχίας % για σ = 5
Algorithm
image
(β) (γ) (δ) (ε)
Gradient Correlation 65.5 61 44 47
P-ECC (1ο κριτήριο) 75 79 47 56
P-ECC (2ο κριτήριο) 75 79 56 68
Πίνακας 7.3: Ποσοστά επιτυχίας % για σ = 10
Τέλος παραθέτουμε όπως και στην περίπτωση του πειράματος χωρίς φωτομετρικές παραμορ-
φώσεις, τα σημεία που επιλέγει ο προτεινόμενος αλγόριθμος σε μια εικόνα με φωτομετρικές
παραμορφώσεις. ΄Οπως μπορούμε να δούμε από τις εικόνες αυτές, ο αλγόριθμος σε αυτή την
περίπτωση επιλέγει σημεία σχεδόν ομοιόμορφα και πάλι με τα περισσότερα να βρίσκονται σε
περιοχές της εικόνας που οι φωτομετρικές παραμορφώσεις δεν είναι πάρα πολύ ισχυρές.
58
69.
ΠΕΙΡΑΜΑΤΑ
(αʹ) (βʹ)
(γʹ)
Σχήμα 7.6:Επιλογή σημείων στην 1η επανάληψη για (a) σ = 5 και (b)σ = 10 και (c) όταν ο
αλγόριθμος έχει συγκλίνει
59
70.
Συμπεράσματα
Αντικείμενο αυτής τηςεργασίας αποτέλεσε η μελέτη του προβλήματος της αντιστοίχισης εικό-
νων οι οποίες, εκτός από γεωμετρικές παραμορφώσεις, έχουν έντονες τοπικές φωτομετρικές
παραμορφώσεις ή/και αποκλεισμένες περιοχές.
Για την αντιμετώπιση του προβλήματος, η αντιστοίχηση των εικόνων προσεγγίστηκε μέσω
της σταθμισμένης ελαχιστοποίησης μετρικών σφάλματος που βασίζονται στο τετραγωνικό
σφάλμα. Εκμεταλλευτήκαμε την αμεταβλητότητα της κανονικοποιημένης κλίσης μιας εικόνας
σε τοπικές φωτομετρικές παραμορφώσεις και τη δυνατότητα στοίχισης κάθε ζεύγους αντί-
στοιχων εικονοστοιχείων των υπό στοίχιση εικόνων με την μεγιστοποίηση της μεταξύ τους
συσχέτισης.
Τα πειράματα που έγιναν σε εικόνες προσώπων και γενικού περιεχομένου, χωρίς φωτομετρι-
κές παραμορφώσεις ή και με αυτές, έδειξαν ότι η απόδοσή του είναι πολύ καλή και υπερτερεί
σε σχέση με τους συγκρινόμενους αλγορίθμους τόσο σε ποσοστά επιτυχίας όσο και στην
ακρίβεια των λύσεων. Η υπεροχή του φαίνεται ιδιαίτερα σε εικόνες με έντονες γεωμετρικές
παραμορφώσεις όπου τα ποσοστά επιτυχίας των άλλων αλγορίθμων μειώνονται κατά πολύ, ε-
νώ ο P-ECC επιτυγχάνει σωστές εκτιμήσεις στο 95% των περιπτώσεων στις μη φωτομετρικά
παραμορφωμένες εικόνες και 45−75% στις φωτομετρικά παραμορφωμένες.
Μελλοντικές κατευθύνσεις
Αν και τα αποτελέσματα αντιστοίχισης είναι πολύ καλά ακόμα και στις εικόνες με πολύ έντονες
φωτομετρικές παραμορφώσεις, υπάρχουν ακόμα κάποια θεωρητικά και πρακτικά ζητήματα της
εφαρμογής του αλγορίθμου που θα πρέπει να μελετηθούν περαιτέρω.
΄Ενα γενικό πρόβλημα προς εξέταση είναι κατά πόσο θα μπορούσαμε να προσδιορίσουμε μια
εικόνα που δεν έχει, ή έχει ομοιόμορφες, φωτομετρικές παραμορφώσεις, αφού σε αυτή την
περίπτωση η διαδικασία μπορεί να απλοποιηθεί και άρα να επιταχυνθεί κατά πολύ. Επίσης
χρειάζεται να γίνουν πειράματα με πιο συστηματικό τρόπο σε εικόνες προσώπων με έντονες
φωτομετρικές παραμορφώσεις, όπως και σε μια βάση δεδομένων με εικόνες που περιέχουν
αποκλεισμούς για να αποτυπωθεί η απόδοση του αλγορίθμου και σε αυτές τις περιπτώσεις με
μεγαλύτερη ακρίβεια.
60
71.
ΠΕΙΡΑΜΑΤΑ
Επίσης, μεγάλο ενδιαφέρονπαρουσιάζει η διερεύνηση των συνθηκών κατά από τις οποίες
θα μπορούσε να εξασφαλιστεί σε κάθε περίπτωση η θετικότητα των παραμέτρων λ, που είναι
απαραίτητη προϋπόθεση για τη σωστή επίλυση του γραμμικού συστήματος που χρησιμοποιού-
με για την εκτίμηση του γεωμετρικού μετασχηματισμού. Αν και υπάρχουν αλγόριθμοι που
οδηγούν σε θετικές λύσεις, όπως τα μη αρνητικά ελάχιστα τετράγωνα (Non-Negative Least
Squares-NNLS [23]), δεν μπορούμε να τους χρησιμοποιήσουμε αφού δεν έχουν καλή εφαρ-
μογή στο δικό μας ειδικό πρόβλημα. ΄Ετσι θα πρέπει να βρεθεί είτε ένας κατάλληλος τρόπος
επίλυσης του συστήματος είτε το πρόβλημα να αντιμετωπιστεί με την επιλογή κατάλληλων
σημείων όπως αναφέρθηκε..
Τέλος, βασικό ζήτημα είναι η συστηματική και ανεξάρτητη από την εφαρμογή εύρεση των
σημείων που αποτελούν τα σύνολα Pt, Pq που ορίστηκαν στο Κεφάλαιο 6. ΄Οπως είδαμε η
απόδοση του αλγορίθμου εξαρτάται άμεσα από την αρχική επιλογή των σημείων αυτών, αφού
αυτά επηρεάζουν άμεσα και την θετικότητα των παραμέτρων λ, κάτι που κάνει ζωτικό τον
σωστό προσδιορισμό τους. Οι έντονες φωτομετρικές παραμορφώσεις μεταφράζονται σε κά-
ποιες περιπτώσεις σε γεωμετρικές οδηγώντας στην επιλογή σημείων που δεν είναι κατάλληλα
και τελικά σε εκτίμηση του λάθος γεωμετρικού μετασχηματισμού. Επομένως, θα πρέπει να
αναζητήσουμε σημεία που δεν έχουν μολυνθεί με τέτοιο τρόπο και μπορούν να μας οδηγήσουν
σε λανθασμένες εκτιμήσεις.
61
72.
Παράρτημα Α
Ο softassignαλγόριθμος του Προκρούστη
Η μέθοδος του Προκρούστη [5] δημιουργήθηκε ως ένας τρόπος για υπέρθεση σημείων των
οποίων η αντιστοίχιση είναι ήδη γνωστή.
Θεωρούμε τα σύνολα σημείων Xi ∈ R2, i = 1,2,...,N1 και Yj ∈ R2, j = 1,2,...,N2 μεγέθους
N1 και N2 αντίστοιχα. ΄Οταν N1 = N2 = N και οι αντιστοιχίσεις είναι γνωστές, τότε η
απόσταση που υπολογίζεται από τον Προκρούστη είναι:
DProcrustes(X,Y ) =
N
i=1
Xi −R(θ)Yi
2
(7.2)
όπου:
θ = arctan
N
i=1[Xi(2)Yi(1)−Xi(1)Yi(2)]
N
i=1[Xi(1)Yi(1)−Xi(2)Yi(2)]
R(θ) το μητρώο περιστροφής που προκύπτει και :
Xi =
Xi −µX
σX
, καιYi =
Yi −µY
σY
Στην (7.2) τα µX,µY είναι οι μέσοι όροι των συνόλων των σημείων, και σX,σY το άθροισμα
των τετραγωνικών αποστάσεων των σημείων από το αντίστοιχο κέντρο, δηλαδή η διασπορές
τους.
΄Οταν η αντιστοίχιση και ο μετασχηματισμός ομοιότητας που αντιστοιχίζει τα δυο σύνολα
σημείων είναι άγνωστος, μπορούμε να συνδυάσουμε την εκτίμηση αυτών των παραμέτρων ως
εξής:
62
73.
Ο SOFTASSIGN ΑΛΓΟΡΙΘΜΟΣΤΟΥ ΠΡΟΚΡΟΥΣΤΗ
E(M,θ,t,s) =
N1
i=1
N2
j=1
Mij
√
s(Xi −µX)
σX
−t−R(θ)
(Yi −µY )
√
sσY
2
−a
(7.3)
subjectto
N1
i=1
Mij ≤ 1,
N2
j=1
Mij ≤ 1,Mij ∈ {0,1}
όπου R(θ) ο πίνακας περιστροφής, t η μετατόπιση, s η κλιμάκωση και οι μεταβλητές αντι-
στοίχισης Mij που έχουν οριστεί ώστε
Mij =
1 αν το σημείο Xi αντιστοιχεί στο Yj
0 αλλιώς
Οι περιορισμοί των Mij επιβάλουν ένα προς ένα αντιστοιχία των σημείων, καθώς και απο-
κλεισμό των outliers αφού ένα σημείο στην εικόνα μπορεί να μην αντιστοιχίζεται σε κάποιο
σημείο της άλλης, οπότε ουσιαστικά απορρίπτεται. Η παράμετρος a > 0 ελέγχει την ευρωστία
της διαδικασίας, όσο αυξάνεται το a τόσο λιγότερα σημεία απορρίπτονται ως outliers.
Μπορούμε να απλοποιήσουμε την (7.3) παρατηρώντας ότι μπορούμε να υπολογίσουμε τις
βέλτιστες τιμές των t,s οι οποίες είναι t = 0 και s2 = 1. Απλοποιώντας τη συνάρτηση κόστους
έχουμε:
min
M,θ
E(M,θ) =
N1
i=1
N2
j=1
Mij
(Xi −µX)
σX
−R(θ)
(Yi −µY )
σY
2
−a (7.4)
subjectto
N1
i=1
Mij ≤ 1,
N2
j=1
Mij ≤ 1,Mij ∈ {0,1}
Το πρόβλημα βελτιστοποίησης της (7.4) μπορεί να θεωρηθεί ως δυο προβλήματα, την εκτίμηση
της περιστροφής ανάμεσα στα δυο σύνολα σημείων και την εκτίμηση της αντιστοίχισης των
σημείων. ΄Οταν οι αντιστοιχίσεις είναι γνωστές το μητρώο περιστροφής μπορεί να εκτιμηθεί
μέσω ελαχίστων τετραγώνων. ΄Οταν η περιστροφή είναι γνωστή τότε έχουμε να λύσουμε ένα
γραμμικό πρόβλημα για την εκτίμηση των αντιστοιχίσεων.
Η βασική δυσκολία που υπάρχει στο να λυθούν και τα δυο προβλήματα από κοινού είναι η
διαφορετική φύση τους καθώς το ένα είναι συνεχές και το άλλο συνδυαστικό. Αν αγνοή-
σουμε την επίδραση των outliers στο μητρώο αντιστοίχισης M , τότε αυτό γίνεται μητρώο
μετάθεσης με δυαδικές εισόδους και όλες τις γραμμές και τις στήλες να έχουν άθροισμα
ένα. Οι περιορισμοί αυτοί μπορούν να επιβληθούν με χρήση πολλαπλασιαστών Lagrange,
για τον περιορισμό γραμμών και στηλών, και μιας συνάρτησης φράγματος για τον περιορισμό
63
74.
Ο SOFTASSIGN ΑΛΓΟΡΙΘΜΟΣΤΟΥ ΠΡΟΚΡΟΥΣΤΗ
προσήμου:
F(M,θ,κ,λ) =
N1
i=1
N2
j=1
Mij
(Xi −µX)
σX
−R(θ)
(Yi −µY )
σY
2
−a (7.5)
+
N1
i=1
κi
N2+1
j=1
Mij −1
+
N2
j=1
λi
N1+1
i=1
Mij −1
+
1
β
N1+1
i=1
N2+1
j=1
Mij logMij
όπου κ,λ οι πολλαπλασιαστές Lagrange που επιβάλουν τους περιορισμούς αθροίσματος γραμ-
μής και στήλης αντίστοιχα, και β > 0 μια παράμετρος ελέγχου της συνάρτησης φράγματος.
Η αναλυτική λύση για τον υπολογισμό των Mij προκύπτει αν παραγωγίσουμε την (7.5) ως
προς M και είναι:
Mij = exp −β
(Xi −µX)
σX
−R(θ)
(Yj −µY )
σY
2
−α+κi +λj −1 (7.6)
Αντίστοιχα προκύπτει και ο κανόνας ενημέρωσης της γωνίας θ:
θ = arctan
N1
i=1
N2
j=1 Mij[Xi(2)Yj(1)−Xi(1)Yj(2)]
N1
i=1
N2
j=1 Mij[Xi(1)Yj(1)−Xi(2)Yj(2)]
(7.7)
Για τον υπολογισμό των τιμών των μέσων και των διασπορών χρησιμοποιούμε τον τύπο
του μέσου με βάρη και τον αντίστοιχο της διασποράς. Η απόρριψη των outliers συμβαίνει
όταν β → ∞, ενώ για την εκτίμηση των πολλαπλασιαστών Lagrange χρησιμοποιείται το
θεώρημα του Sinkhorn για τα διπλά στοχαστικά μητρώα. Από όλα τα παραπάνω προκύπτει ο
softassign αλγόριθμος του Προκρούστη για τον υπολογισμό της γεωμετρικής αντιστοίχισης
δυο συνόλων σημείων.
64
75.
Παράρτημα Β
Principal ComponentAnalysis (PCA)
Η ανάλυση κύριων συνιστωσών (PCA) [17] είναι μια στατιστική διαδικασία που χρησιμοποιεί
έναν ορθογώνιο μετασχηματισμό ώστε να μετατρέψει ένα σύνολο παρατηρήσεων από πιθανά
συσχετισμένες μεταβλητές, σε ένα σύνολο τιμών ασυσχέτιστων μεταβλητών, τις κύριες συ-
νιστώσες. Οι κύριες συνιστώσες μπορεί να είναι λιγότερες ή ίσες σε αριθμό με τις αρχικές
μεταβλητές.
Σχήμα 7.7: Εφαρμογή PCA σε δισδιάστατα διανύσματα. p είναι ο βασικός άξονας. Κάθε
σημείο x μπορεί να προσεγγιστεί από το πλησιέστερο σημείο στη γραμμή, x
Η PCA είναι ένας τρόπος για να εντοπίσουμε μοτίβα στα δεδομένα και να τα εκφράσουμε με
τέτοιο τρόπο ώστε να τονίζονται οι ομοιότητες και οι διαφορές τους. Το βασικό πλεονέκτημα
της PCA είναι αφού έχουν βρεθεί αυτά τα μοτίβα, τα δεδομένα μπορούν να συμπιεστούν, πχ
μειώνοντας τις διαστάσεις, χωρίς μεγάλη απώλεια πληροφορίας.
΄Εστω:
X = [x1...xm]t
(7.8)
ο πίνακας των m διανυσμάτων n στοιχείων το κάθε ένα, και από τα οποία έχουμε αφαιρέσει
την αντίστοιχη μέση τιμή. Το μητρώο συνδιασποράς είναι:
65
76.
PRINCIPAL COMPONENT ANALYSIS(PCA)
SX =
1
n−1
XXt
(7.9)
Ο στόχος είναι να βρεθεί ένα ορθοκανονικό μητρώο P όπου Y = PX έτσι ώστε το SY =
1
n−1YYt
να είναι διαγωνιοποιημένο. Οι γραμμές του P είναι οι κύριες συνιστώσες του X.
Αν XXt
τετραγωνικό, συμμετρικό n×n μητρώο, η SVD διάσπαση του είναι XXt
= VtΣV
όπου V το ορθοκανονικό μητρώο ιδιοδιανυσμάτων και Σ το διαγώνιο μητρώο ιδιοτιμών του
XXt
. Αν επιλέξουμε P = V τότε:
SY =
1
n−1
(VX)(VX)t
=
1
n−1
V(Vt
ΣV)Vt
=
1
n−1
Σ (7.10)
Είναι φανερό ότι αυτή η επιλογή του P διαγωνιοποιεί το SY και άρα οι κύριες συνιστώσες
του X είναι τα ιδιοδιανύσματα του μητρώου συνδιασποράς του.
Γενικευμένο Κριτήριο Διασποράς
Αν J(h) = tr{SX} = hhGX h στόχος μας είναι να λύσουμε το ακόλουθο πρόβλημα βελτιστο-
ποίησης :
max
h∈HM
J(h)
Η λύση του παραπάνω προβλήματος, όπως είδαμε σε προηγούμενη παράγραφο, είναι το ιδιο-
διάνυσμα του μητρώου GX που αντιστοιχεί στη μέγιστη ιδιοτιμή.
Σε περίπτωση που χρειαζόμαστε περισσότερες από μία συνιστώσες τότε, για d συνιστώσες
θέλουμε να επιλύσουμε το ακόλουθο πρόβλημα βελτιστοποίησης :
max
h∈HM , d
J(h) με συνθήκες hh
i hj = 0, i,j = 1,2,...,d, i = j (7.11)
και η λύση είναι τα d ιδιοδιανύσματα h1, h2,··· ,hd που αντιστοιχούν στις d μεγαλύτερες
ιδιοτιμές του μητρώου GX
1.
Η PCA εφαρμόζεται σε πολλά και διαφορετικά προβλήματα της επεξεργασίας σημάτων.
1
Εναλλακτικά μπορούμε να πούμε ότι στόχος είναι να ελαχιστοποιήσουμε την ακόλουθη συνάρτηση κό-
στους :
EP CA(B) =
d
i=1
xi −BBh
xi
2
2
που εκφράζει το σφάλμα ανακατασκευής του X, ενώ ο B είναι ο πίνακας που περιέχει τα ιδιοδιανύσματα του
X.
66
77.
PRINCIPAL COMPONENT ANALYSIS(PCA)
Eigenfaces
΄Εστω c ένα διάνυσμα διάστασης NM ×1 που αποτελεί τη διανυσματική αναπαράσταση μιας
N ×M εικόνας I(n, m), n = 1,2,··· ,N, m = 1,2,··· ,M. Θέλουμε να αναπαραστήσουμε το
διάνυσμα c σε ένα χώρο μικρότερης διάστασης. Συγκεκριμένα, αν:
v = c−mc
όπου mc η διανυσματική αναπαράσταση της μέσης εικόνας τότε, όπως θα δούμε στη συνέχεια
μία αποδοτική αναπαράσταση είναι η ακόλουθη:
ˆc = mc +
k
i=1
wiqi k NM (7.12)
όπου wi, i = 1,2,··· ,k προβολές του διανύσματος v σε ένα κατάλληλο χώρο ο οποίος περι-
γράφεται από τα διανύσματα qi, i = 1,2,··· ,k.
Transform-Invariant PCA (TIPCA)
Σε συνέχεια των προηγούμενων, για ένα σύνολο K εικόνων εκπαίδευσης, η εκτίμηση των
mc και qi δίνεται από την ελαχιστοποίηση του μέσου τετραγωνικού σφάλματος μεταξύ των
εικόνων εισόδου και των ανακατασκευών τους ως ακολούθως:
arg min
mc,qi
1
N
K
j=1
min
wj
ˆc− mc +
k
i=1
wiqi
2
(7.13)
΄Ομως η PCA έχει ως βασική υπόθεση ότι οι εικόνες που χρησιμοποιούνται είναι κανονικο-
ποιημένες έτσι ώστε τα χαρακτηριστικά που περιέχονται σε αυτές να βρίσκονται περίπου στο
ίδιο σημείο. Επειδή όμως αυτή η υπόθεση δεν ισχύει πάντα, παραμένει το ερώτημα για το
πως μπορούμε να ευθυγραμμίσουμε τις εικόνες έτσι ώστε ο χώρος που προκύπτει να είναι
όσο το δυνατόν πιο πυκνός.
Θα θεωρήσουμε αρχικά ότι μια εικόνα έχει την ακόλουθη αναπαράσταση:
ˆc(w(x;p)) = mc(x)+
k
i=1
wiqi(x)+ (x) (7.14)
όπου ο μετασχηματισμός w(x;p) παίρνει ένα εικονοστοιχείο από τη βάση qi(x) και το αντι-
στοιχίζει στην εικόνα ˆc. Δεδομένου ενός συνόλου εικόνων ˆci w(x;pi) προς ευθυγράμμιση,
θεωρούμε ότι οι εικόνες αυτές βρίσκονται σε ένα χαμηλής διάστασης χώρο και αναζητούμε
το σύνολο εικόνων βάσης που θα ελαχιστοποιήσει την απόσταση του χώρου των εικόνων από
67
78.
PRINCIPAL COMPONENT ANALYSIS(PCA)
τις παραμορφωμένες εικόνες. Για αυτό το σκοπό θα ελαχιστοποιήσουμε το τροποποιημένο
κριτήριο:
arg min
mc,qi
1
N
K
j=1
min
pj,wj x
[ j(x)]2
(7.15)
όπου:
j(x) = ˆcj w(x;pj
) − mc(x)+
k
i=1
wiqi(x) (7.16)
Ο αλγόριθμος TIPCA [19] αποτελείται από τα παρακάτω βήματα τα οποία εφαρμόζονται
εναλλάξ:
1. Ευθυγράμμιση βασισμένη στον ιδιοχώρο: σταθεροποιούμε τα mc, qi και
βελτιστοποιούμε τα pj, wj. Αν
J(x) = q
∂w
∂pj
1
,..., q
∂w
∂pj
n
,q1(x),...,qk(x) (7.17)
όπου q = mc + k
i=1 wi qi(x) . Σε κάθε βήμα υπολογίζεται η διόρθωση των πα-
ραμέτρων από την παρακάτω σχέση:
∆p = −
x
JT
(x)J(x)
−1
x
JT
(x) i
(x) (7.18)
όπου (x) το τετραγωνικό σφάλμα χρησιμοποιώντας την τρέχουσα τιμή των παραμέ-
τρων.
2. Ενημέρωση του ιδιοχώρου: σταθεροποιούμε τα pi και βελτιστοποιούμε ως προς
mc,qi. Αν το διάνυσμα pi είναι γνωστό τότε μπορούμε να υπολογίσουμε το μετασχη-
ματισμό w(x;pi) για κάθε εικόνα.
Στο παρακάτω σχήμα φαίνονται τα αποτελέσματα της εφαρμογής της τεχνικής στη βάση
δεδομένων FERET
68
79.
PRINCIPAL COMPONENT ANALYSIS(PCA)
Σχήμα 7.8: Το μέσο πρόσωπο και τα κυρίαρχα ιδιοπρόσωπα (a) κατά την αρχικοποίηση και
(b) μετά τη δεύτερη επανάληψη.
Robust PCA
Η PCA για τον υπολογισμό των κύριων συνιστωσών μιας εικόνας I ελαχιστοποιεί τη συνάρ-
τηση:
EPCA(B) =
n
i=1
xi −BBT
xi
2
2
(7.19)
Στην περίπτωση όπου υπάρχουν σημεία που δεν ακολουθούν τη γενική κατανομή (outliers),
κάτι που συμβαίνει συχνά σε σύνολα εκπαίδευσης, τότε το κριτήριο αυτό δεν επαρκεί για
την ευσταθή εκτίμηση των κύριων συνιστωσών. Για βελτίωση της ευστάθειας προτείνεται η
ελαχιστοποίηση της συνάρτησης κόστους [18]:
ERPCA(B,µ,σ) =
n
i=1
xi −µ−BBT xi
2
2
xi −µ−BBT xi
2
2 +σT σ
(7.20)
όπου µ το διάνυσμα του μέσου όρου και σ = [σ1 σ2...σd]T μια παράμετρος κλιμάκωσης για
κάθε εικονοστοιχείο.
Ανάλυση Ανεξάρτητων Συνιστωσών - ICA
Η PCA έχει πολύ καλά αποτελέσματα όταν τα δεδομένα ακολουθούν Gaussian κατανομή,
είναι γραμμικά και στάσιμα. Στις περιπτώσεις όπου τα δεδομένα δεν έχουν τις ιδιότητες αυτές
ή είναι πολύ θορυβώδη χρησιμοποιούμε ICA. Το πρόβλημα που θέλουμε να λύσουμε είναι:
Για δοσμένο διάνυσμα παρατηρήσεων x, να βρεθούν οι ανεξάρτητες συνιστώσες s και ο
πίνακας A έτσι ώστε να ισχύει:
69
80.
PRINCIPAL COMPONENT ANALYSIS(PCA)
x = As
Αν υπολογίσουμε δηλαδή τον πίνακα A, μπορούμε να υπολογίσουμε τις ανεξάρτητες συνι-
στώσες ως:
s = Wx
όπου W = A−1, ο πίνακας προβολής των στοιχείων του x στη συνιστώσα s.
Προεπεξεργασία παρατηρήσεων
Αρχικά υπολογίζουμε το μέσο διάνυσμα παρατηρήσεων με την αφαίρεση της μέσης τιμής
m = E{x}
¯x = x−m
Στο επόμενο βήμα είναι ο γραμμικός μετασχηματισμός του ¯x έτσι ώστε να έχουμε ένα λευκό
διάνυσμα ˜x, που οι συνιστώσες του δηλαδή θα είναι ασυσχέτιστες και θα έχουν διασπορά ίση
με ένα. Επομένως ο πίνακας συνδιασποράς του ˜xείναι ο μοναδιαίος πίνακας.2
Χρησιμοποιούμε τη διάσπαση του ¯x¯xt = BDBT , όπου B ο πίνακας ιδιοδιανυσμάτων και D ο
διαγώνιος πίνακας ιδιοτιμών του ¯x¯xt. Το λευκό διάνυσμα θα είναι:
˜x = BD−1/2
BT
¯x (7.21)
Η διαδικασία αυτή ονομάζεται λευκοποίηση (whitening), και προφανώς το νέο διάνυσμα έχει
E{˜x˜xt} = I.
Αλγόριθμος ICA
Αφού έχουμε κάνει στο σήμα την προεπεξεργασία που περιγράψαμε ο βασικός αλγόριθμος
για την εκτίμηση μιας συνιστώσας είναι
1. Επιλογή αρχικού τυχαίου διανύσματος w
2. Υπολογισμός του w+ = E{˜xg(wt˜x)}−E{g (wt˜x)}w
3. Κανονικοποίηση w+ = w+/ w+
2
Αυτή είναι και μια περίπτωση όπου επιβάλλεται η χρήση της ICA αντί της PCA, όταν δηλαδή οι μετρήσεις
είναι από την αρχή λευκές, έχουν πίνακα συνδιασποράς τον μοναδιαίο πίνακα.
70
81.
PRINCIPAL COMPONENT ANALYSIS(PCA)
4. Επανάληψη των βημάτων 2 και 3 ώσπου το w να συγκλίνει
5. Υπολογισμός s = wx
Η συνάρτηση g() επιλέγεται έτσι ώστε να οδηγεί το wt˜x σε μια κατανομή όσο γίνεται πιο
διαφορετική από την Gaussian. Δυο συναρτήσεις που χρησιμοποιούνται συχνά και δίνουν
πολύ καλά αποτελέσματα είναι οι:
g(x) = tanh(x)
και
g(x) = xe−x2/2
Εξαγωγή Πολλαπλών Συνιστωσών
Αν θέλουμε να εξάγουμε C ανεξάρτητες συνιστώσες τότε τα δεδομένα και ο αλγόριθμος
μεταβάλλονται ως εξής:
Οι παρατηρήσεις δίνονται σε πίνακα X, ∈ RN×M , όπου M το μήκος του διανύσματος παρα-
τηρήσεων και N οι διαφορετικές υλοποιήσεις, με τον περιορισμό ότι πρέπει N > C.
Οι ανεξάρτητες συνιστώσες περιέχονται στον πίνακα S, ∈ RC×M και ο πίνακας προβολής
W, ∈ RC×N , του οποίου η κάθε γραμμή προβάλει το X στην αντίστοιχη συνιστώσα.
Ο αλγόριθμος ICA για την εκτίμηση C συνιστωσών, αφού έχουν εκτελεστεί τα βήματα
προεπεξεργασίας, είναι
1. Για i = 1 : C
2. Επιλογή αρχικού τυχαίου διανύσματος w
3. Ορθογωνοποίηση με τις υπόλοιπες συνιστώσες ως w+
i = w+
i − i−1
j=1 wT
i wjwj
4. Επανάληψη των βημάτων 3-5 ώσπου το w να συγκλίνει
5. Αποθήκευση στον τελικό πίνακαW(i,:) = w
6. Υπολογισμός S = WX
71
82.
Βιβλιογραφία
[1] Brown, L.G:’A Survey of Image Registration Techniques’. ACM Computing Surveys,
vol.24, no.4, pp.325-376, (1992)
[2] C. Fuh and P. Maragos, ”Motion dislpacement estimation using an affine model for
image matching,” Optical Engineering, vol. 30, no. 7, pp. 881–887, 1991.
[3] E. Z. Psarakis and G. D. Evangelidis, ”An enhanced correlation-based method for
stereo correspondence with sub-pixel accuracy,” in Proc. of 10th IEEE International
Conference on Computer Vision (ICCV 2005), 2005, Beijing, China.
[4] B. D. Lucas and T. Kanade, ”An iterative image registration technique with an
application to stereo vision,” in Proc. of 7th International Joint Conf on Artificial
Intelligence (IJCAI’81), 1981, Vancouver, British Columbia.
[5] Anand Rangarajan, Haili Chui, Fred L. Bookstein: The Softassign Procrustes Match-
ing Algorithm. IPMI 1997: 29-42
[6] Statistical models of appearance for computer vision TF Cootes, CJ Taylor Technical
report, University of Manchester, 2004
[7] Active shape models-their training and application TF Cootes, CJ Taylor, DH
Cooper, J Graham Computer vision and image understanding 61 (1), 38-59, 1995.
[8] On representing edge structure for model matching TF Cootes, CJ Taylor Computer
Vision and Pattern Recognition, 2001. CVPR 2001. Proceedings of the 2001 IEEE
Computer Society Conference, 2001
[9] Facial feature detection and tracking with automatic template selection D Cristinacce,
TF Cootes - Automatic Face and Gesture Recognition, 2006. FGR 2006: 429-434,
2006
[10] S. Baker and I. Matthews. Lucas-Kanade 20 years on: A unifying framework. Inter-
national Journal of Computer Vision, 56(3):221–255, Feb. 2004. Previously appeared
as CMU Robotics Institute Technical Report CMU-RI-TR-02-16.
72
83.
PRINCIPAL COMPONENT ANALYSIS(PCA)
[12] S. Baker, R. Gross, I. Matthews, and T. Ishikawa, “Lucas-kanade 20 years on: A
unifying framework: Part 2,” Robotics Institute, Pittsburgh, PA, Tech. Rep. CMU-
RI-TR-03-01, February 2003.
[11] S. Lucey, R. Navarathna, A. B. Ashraf, and S. Sridharan , “Fourier Lucas-Kanade
Algorithm”, IEEE Trans. PAMI, 2012.
[13] G.D. Evangelidis and E.Z. Psarakis, “Parametric Image Alignment Using Enhanced
Correlation Coefficient Maximization,” IEEE TPAMI, pp. 1858–1865, 2008.
[14] G. D. Evangelidis and E. Z. Psarakis, "Projective Registration using ECC Maximiza-
tion," International Journal on Artificial Intelligent Tools, IJAIT, Vol. 18, No.1, pp.
121,139, Jan. 2009.
[15] Tzimiropoulos, Georgios and Zafeiriou, Stefanos and Pantic, Maja (2011) Robust and
Efficient Parametric Face Alignment. In: IEEE International Conference on Computer
Vision, ICCV 2011, November 6-13, 2011, Barcelona, Spain.
[16] Joshi, Rajeshree R., "An Analysis of Rigid Image Alignment Computer Vision Algo-
rithms" (2012). Electronic Theses & Dissertations. Paper 687.
[17] Jian Yang , David Zhang , Alejandro F. Frangi , Jingyu Yang, TwoDimensional
PCA: A New Approach to AppearanceBased Face Representation and Recognition,
IEEE Transactions on Pattern Analysis and Machine Intelligence, v.26 n.1, p.131137,
January 2004
[18] De la Torre, F. and Black, M., "Robust Principal Component Analysis for Computer
Vision," International Conference on Computer Vision, ICCV, Vol. I, pp. 362369,
Vancouver 2001.
[19] Weihong Deng; Jiani Hu; Jiwen Lu; Jun Guo, "Transform-Invariant PCA: A Uni-
fied Approach to Fully Automatic FaceAlignment, Representation, and Recognition,"
Pattern Analysis and Machine Intelligence, IEEE Transactions on , vol.36, no.6,
pp.1275,1284, June 2014
[20] Ralph Gross, Iain Matthews, and Simon Baker, "Constructing and Fitting Active
Appearance Models With Occlusion," Proceedings of the IEEE Workshop on Face
Processing in Video, June, 2004.
[21] H. Shum, K. Ikeuchi, and R. Reddy. Principal component analysis with missing data
and its application to polyhedral object modeling. IEEE PAMI, 17(9), 1995.
[22] G. Tzimiropoulos and M. Pantic. Optimization problems for fast aam fitting in-the-
wild. In ICCV, 2013.
73
84.
PRINCIPAL COMPONENT ANALYSIS(PCA)
[23] Evald Ubi, “Linear inequalities via least squares”, in Proceedings of the Esthonian
Academy of Science, 2013
74