Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Γεώργιος Κορδοπάτης-Ζήλος

80 views

Published on

Αυτόματος Εντοπισμός Γεωγραφικής Θέσης Εικόνων και Βίντεο

Published in: Software
  • Be the first to comment

  • Be the first to like this

Γεώργιος Κορδοπάτης-Ζήλος

  1. 1. ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ Αυτόματος Εντοπισμός Γεωγραφικής Θέσης εικόνων και βίντεο Διπλωματική εργασία του Κορδοπάτη-Ζήλου Γεώργιου ΑΕΜ: 6673 υπό την επίβλεψη των κ. Ανδρέα Λ. Συμεωνίδη Επίκουρος Καθηγητής - ΑΠΘ κ. Συμεών Παπαδόπουλο Ερευνητής - ΙΠΤΗΛ ΕΚΕΤΑ
  2. 2. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Δομή της Παρουσίασης  Ορισμός Προβλήματος  Σκοπός Εργασίας  Αλγόριθμος Γλωσσικού Μοντέλου  Αλγόριθμος Σημασιολογική και Οπτική Ανάλυσης  Αποτελέσματα  Μελλοντική Εργασία
  3. 3. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Ορισμός Προβλήματος
  4. 4. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Σκοπός Εργασίας • Δημιουργία ενός αυτόματου σύστηματος εντοπισμού γεωγραφικές θέσης των πολυμέσων Σύνολο εκπαίδευσης User Id: George Tags: dog, New York, Usa, Central park Date: 11/4/2013 [40.71, -73.97]
  5. 5. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αυτόματος Εντοπισμός Θέσης με χρήση Γλωσσικών Μοντέλων • Υλοποίηση βασισμένη στη έρευνα (Van Laere et al., ICMR ‘11) • Ομαδοποίηση με χρήση του 𝑘-means, και εξαγωγή των 𝑥2 χαρακτηριστικά. • Εφαρμογή γλωσσικών μοντέλων και αναζήτηση ομοιότητας.
  6. 6. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Εισαγωγή δεδομένων στον αλγόριθμο • Μορφή κειμένου 74,25981735@N00,52.470701,13.412504,street berlin bike sign perspective 460261,16884413@N08,40.626591,22.947993,white tower thessaloniki θεσσαλονίκη πύργοσ λευκόσ 1799632,9855426@N02,40.183594,116.556015,china beijing peking thegreatwall pekín 2870482,96661011@N00,30.2569,-87.63603,beach sunrise gulf alabama shores αύξοντας αριθμός όνομα χρήστη γεωγραφικό μήκος γεωγραφικό πλάτος tags • Δημιουργία Ν αντικειμένων 𝛪𝑖 = 𝑑𝑖, 𝑢𝑖, 𝑐𝑖 , 𝑡𝑖 , 𝑎𝑖 d ← ταυτότητα εικόνας u ← όνομα χρήστη c ← συντεταγμένες t ← tags • Παραδείγματα εγγραφών
  7. 7. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Ομαδοποίηση των εικόνων • Ομαδοποίηση με τον αλγόριθμο 𝑘-means • Δημιουργία K ομάδων (clusters), βάση των γεωγραφικών τους συντεταγμένων 𝑐 K = 5 K = 100
  8. 8. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Υπολογισμός x2 χαρακτηριστικού • Για κάθε ομάδα υπολογίζεται το x2 χαρακτηριστικό μέγεθος των tags των εικόνων της 𝑥2 𝑎, 𝑡 = 𝑂𝑡𝑎−𝐸𝑡𝑎 2 𝐸𝑡𝑎 + 𝑂 𝑡 𝑎−𝐸 𝑡 𝑎 2 𝐸 𝑡 𝑎 + 𝑂 𝑡𝑎−𝐸 𝑡𝑎 2 𝐸 𝑡𝑎 + 𝑂 𝑡 𝑎−𝐸 𝑡 𝑎 2 𝐸 𝑡 𝑎 • 𝑂𝑦𝑥: ο αριθμός των εικόνων της περιοχής x που εμφανίζεται το y tag • 𝐸 𝑦𝑥: ο εκτιμώμενος αριθμός εμφανίσεων του tag y στην περιοχή x. 𝐸 𝑦𝑥 = 𝛮 · 𝑃(𝑦) · 𝑃(𝑥)
  9. 9. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Δημιουργία Περιοχών • Επιλογή m πρώτων λέξεων που σχηματίζουν το λεξιλόγιο v κάθε ομάδας • Δημιουργία Κ αντικειμένων 𝐴𝑗 = 𝑎𝑗, 𝑤𝑗 , 𝑣𝑗 a ← ταυτότητα cluster w ← εικόνες του cluster v ← λεξιλόγιο ομάδας • Παραδείγματα περιοχών CLUSTER ID VOCABULARY 1 india singapore thailand malaysia asia 3 england london uk spain france 5 japan china tokyo taiwan philippines 7 greece turkey istanbul egypt moscow 10 brasil brazil argentina chile buenosaires
  10. 10. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Γλωσσικό Μοντέλο (1/2) • Ανάθεση των εικόνων του συνόλου ελέγχου στις περιοχές βάση του τύπου: 𝑃 𝑎 𝑥 ∝ 𝑃 𝑎 · 𝑡∈𝑥 𝑃 𝑡 𝑎 • Ο υπολογισμός των πιθανοφανειών P(t|a) δίνεται από τον τύπο 𝑃 𝑡 𝑎 = 𝑂𝑡𝑎 + 𝜇 · 𝛼′∈𝛢 𝑂 𝑡𝛼′ 𝛼′∈𝛢 𝑡′∈𝑉 𝑂 𝑡′ 𝛼′ 𝑡′∈𝑉 𝑂 𝑡′ 𝑎 + 𝜇
  11. 11. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Γλωσσικό Μοντέλο (2/2) • Τελική ανάθεση στην ομάδα όπου: 𝑎 𝑥 = 𝑎𝑟𝑔 𝑎∈𝐴 𝑚𝑎𝑥 𝑃 𝑎 · 𝑡∈𝑥 𝑃 𝑡 𝑎 • Ως εκτιμώμενη θέση η: 𝑚𝑒𝑎𝑛(𝑎) = 𝑎𝑟𝑔 𝑥∈𝑎 𝑚𝑖𝑛 𝑦∈𝑎 𝑑(𝑥, 𝑦)
  12. 12. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αναζήτηση Ομοιότητας • Υπολογισμός ομοιότητας Jaccard: 𝑠𝑗𝑎𝑐𝑐 𝑥, 𝑦 = 𝑥 ∩ 𝑦 𝑥 ∪ 𝑦 • Κέντρο βαρύτητας (center-of-gravity) των k πιο όμοιων εικόνων: 𝑙𝑜𝑐 𝑥 = 1 𝑘 𝑖=1 𝑘 𝑠𝑖𝑚 𝑥, 𝑦𝑖 𝑎 · 𝑙𝑜𝑐 𝑦𝑖
  13. 13. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Σημασιολογική και Οπτική Ανάλυση για τον Εντοπισμό Θέσης • Σημασιολογική ανάλυση (text-based analysis) – Υλοποιήθηκε με βάση τον αλγόριθμο γλωσσικού μοντέλου και χρησιμοποιεί τον γεννητικού θεματικού αλγορίθμου LDA δυο επιπέδων. • Οπτική ανάλυση (visual-based analysis) – Εξαγωγή των SURF+VLAD χαρακτηριστικά των εικόνων και χρήση τεχνικών κοντινότερου γείτονα για τον υπολογισμό της εκτιμώμενης θέση. • Υβριδική Υλοποίηση (Hybrid Approach) – μίξη των δύο τεχνικών
  14. 14. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Latent Dirichlet Allocation - LDA (1/2) • Γεννητικό πιθανοκρατικό μοντέλο ενός σώματος κειμένου (corpus) • Βασική Αρχή – τα έγγραφα αναπαρίστανται ως τυχαία μείγματα από λανθάνοντα θέματα, όπου κάθε θέμα χαρακτηρίζεται από μια κατανομή σε ένα λεξιλόγιο • Χρήσιμοι όροι: – «λέξη» : βασική μονάδα διακεκριμένων δεδομένων αντικείμενο ενός λεξιλογίου, 𝑤 – «έγγραφο»: ακολουθία από N λέξεις, 𝒘 =(𝑤1, 𝑤2, … , 𝑤 𝛮) – «σώμα» : είναι μια συλλογή M εγγράφων, D= 𝒘1, 𝒘2, … , 𝒘 𝛭
  15. 15. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Latent Dirichlet Allocation - LDA (2/2) • Βιβλιοθήκη JGibbLDA [M] [document-1] [document-2] ... [document-M] Είσοδος Πλήθος θεμάτων 𝑁𝐿 Παράμετρος 𝜶 𝑎 𝐿 Παράμετρος 𝜷 𝛽𝐿 Πλήθος λέξεων/θέμα 𝑊𝐿 𝑝(𝑤𝑖|𝑡𝑜𝑝𝑖𝑐𝑗) 𝛷𝑖𝑗 𝑝(𝑡𝑜𝑝𝑖𝑐𝑗|𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡 𝑑) 𝛩𝑗𝑑 Λέξεις 𝑡𝑜𝑝𝑖c 𝑇 Αντιστοιχία λέξεων με δείκτες (words – word indices) 𝑀 Έξοδοι Παράμετροι
  16. 16. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Σημασιολογική Ανάλυση • Απομάκρυνση των machine tags (π.χ. “geo:lat=… ”) • Οριστική διαγραφή κενών εικόνων Training Prediction Spatial Clustering & local LDAs Filtering Global LDA & BoEW Σημασιολογική Ανάλυση - Εκπαίδευση 1ο βήμα • περιορισμός θορύβου • πιο πλούσιες σε πληροφορία περιοχές Assignment in Areas Similarity Search
  17. 17. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ • Σχηματισμός περιοχών με εφαρμογή του 𝑘-means, συνολικού αριθμού Κ • Τοπικά θεματικά μοντέλα δημιουργούνται για τις εικόνες κάθε περιοχής με χρήση LDA (100/20) • Σχηματισμός αντικειμένων 𝐴𝑗 = 𝑎𝑗, 𝑤𝑗 , 𝜏𝑗 Training Prediction Filtering Global LDA & BoEW Spatial Clustering & local LDAs Σημασιολογική Ανάλυση - Εκπαίδευση 2ο βήμα Assignment in Areas Similarity Search
  18. 18. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ • Εξαγωγή καθολικού θεματικού μοντέλου με χρήση LDA (500/50) σε ολόκληρο το σύνολο εκπαίδευσης • Δημιουργία λεξιλογίου αποκλειόμενων λέξεων (Bag-of-Excluded-Words, BoEW) Training Prediction Filtering Global LDA & BoEW Spatial Clustering & local LDAs Σημασιολογική Ανάλυση - Εκπαίδευση 3ο βήμα Assignment in Areas Similarity Search Assignment in Areas
  19. 19. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Λέξεις Γενικού Ενδιαφέροντος
  20. 20. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Δημιουργία BoEW (1/3) • Λίστα των “ενεργών” topics για κάθε εικόνα – Γνωρίζουμε ότι 𝑗=0 𝑁 𝐺 𝛩 𝐺,𝑗𝑑 = 1 – Όριο “ενεργοποίησης” 𝑡 𝑎 = 1 0.9∗𝑁 𝐺 • Ιστογράμματος συχνότητας εμφάνισης των topics μέσα στις περιοχές
  21. 21. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Δημιουργία BoEW (2/3) • Λίστα των ανενεργών topic Ε με βάση την εντροπία τους – Υπολογισμός εντροπίας κάθε topic 𝐸 𝛸 = − 𝑖=0 𝑛 𝑝 𝑥𝑖 ∗ log(𝑝 𝑥𝑖 ) – Εμπειρικά ορίστηκε όριο 𝑡 𝑒=180 ΕΝΤΡΟΠΙΑ ΙΣΧΥΡΟΤΕΡΑ TAGS 409.84 sky clouds sunset blue sun 195.98 bike bicycle cycling race road 149.74 london uk england londres kingdom 68.35 greece athens ελλάδα hellas thessaloniki 65.46 barcelona spain catalunya españa cataluña
  22. 22. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Δημιουργία BoEW (3/3) • Δημιουργία λεξιλογίου αποκλειόμενων λέξεων – Κριτήριο εισαγωγής ενός tag στη BoEW: max ← arg 𝑚𝑎𝑥𝑗 𝛷 𝐺,𝑖𝑗 ∈ 𝛦 – Η λέξη που καταχωρείται στο λεξιλογίου αποκλειόμενων λέξεων είναι η 𝑀 𝐺,𝑚𝑎𝑥
  23. 23. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ • Φιλτράρισμα των tags που περιέχουν θόρυβο και όσων βρίσκονται στο BoEW • Υπολογισμός της Jaccard ομοιότητας μίας 𝑖 εικόνας με ένα topic 𝑗 που ανήκει σε μία περιοχή 𝑘 𝑠𝑖𝑗𝑘 = 𝑡𝑖 ∩ 𝜏𝑗𝑘 𝑡𝑖 ∪ 𝜏𝑗𝑘 Training Prediction Filtering Global LDA & BoEW Spatial Clustering & local LDAs Σημασιολογική Ανάλυση - Εκτίμηση τελικής θέσης (1/2) Assignment in Areas Similarity Search Assignment in Areas Κριτήρια ανάθεσης κάθε εικόνας του συνόλου ελέγχου στις περιοχές – Περιοχή που ανήκει το topic με την μεγαλύτερη τιμή ομοιότητας tmax : 𝑎𝑟𝑒𝑎𝑖 = arg 𝑚𝑎𝑥𝑗,𝑘 𝑠𝑖𝑗𝑘 – Περιοχή με τον μεγαλύτερο μέσο όρο (ανάμεσα στα topics) ομοιότητας tmean : 𝑎𝑟𝑒𝑎𝑖 = arg 𝑚𝑎𝑥𝑗 𝑘=0 𝑘 𝑠𝑖𝑗𝑘
  24. 24. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Σημασιολογική Ανάλυση - Εκτίμηση τελικής θέσης (2/2) Training Prediction Filtering Global LDA & BoEW Spatial Clustering & local LDAs Assignment in Areas Similarity Search • Έχοντας αναθέσει κάθε εικόνες σε μια περιοχή: – 𝑘 εικόνες με τη μεγαλύτερη ομοιότητα – τελική εκτίμηση της γεωγραφικής θέσης από το κέντρο βαρύτητας (center-of-gravity)
  25. 25. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Οπτική Ανάλυση • Υλοποίηση με βάση την (Spyromitros-Xioufis et al., WIAMIS ‘12) • Εξαγωγή των βελτιστοποιημένων SURF+VLAD διανυσμάτων για ολόκληρο το σύνολο εκπαίδευσης • Κατάταξή τους σε πίνακα με χρήση τεχνικών IVFADC • Αναζήτηση Product Quantization • 1η υλοποίηση - vnn: τοποθέτηση κάθε εικόνας στον πιο κοντινό οπτικά γείτονα 𝑘 = 1 • 2η υλοποίηση - vclust: εφαρμογή στοιχειώδους αλγορίθμου χωρικής ομαδοποίησης για τους 𝑘 =20 κοντινότερους γείτονες
  26. 26. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αποτελέσματα - Γλωσσικό Μοντέλο (1/2) • N = 3.281.022 και Τ =10.000 εικόνες • K = {50, 500, 2.500, 5.000, 7.500, 10.000, 12.500, 15.000, 17.500, 20.000} • m = {6 400, 640, 256 , 64, 28, 16, 10, 7, 5, 4} • Language Model (LM): γλωσσικό μοντέλο με τελική εκτίμηση της γεωγραφικής θέσης το κέντρο της ομάδας που έγινε η ανάθεση. • Hybrid Approach (HA): γλωσσικό μοντέλο με τελική εκτίμηση της γεωγραφικής θέσης με τη χρήση της διαδικασίας αναζήτησης ομοιότητας εντός της ομάδας ανάθεσης.
  27. 27. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αποτελέσματα - Γλωσσικό Μοντέλο (2/2) Αριθμός Ομάδων (Κ) Ακρίβεια 500 2 500 5 000 7 500 10 000 12 500 15 000 17 500 20 000 acc(1km) 4.45 5.87 6.53 7.03 8.55 10.33 11.41 11.89 14.83 acc(10km) 10.07 13.54 17.97 22.74 25.91 30.12 32.86 33.59 35.28 acc(100km) 15.07 22.18 27.66 32.49 38.15 40.45 42.97 43.03 44.60 acc(500km) 29.80 37.05 44.46 48.21 50.54 52.43 51.86 50.66 49.11 acc(1000km) 37.56 44.84 49.62 52.79 55.11 56.11 55.06 52.80 51.10 acc(5000km) 55.71 62.64 68.53 67.12 66.05 65.29 62.90 59.91 57.56 acc(10000km) 85.68 86.67 90.31 87.11 86.38 86.41 85.23 83.64 81.38 500 2500 5000 7500 10000 12500 15000 17500 20000 10 100 1.000 10.000 Αριθμός Ομάδων ΜέσοΣφάλμαΑπόστασης(km) 1 tag 2 tags 3 tags 4 tags 5 tags [6,10] tags [11,75] tags
  28. 28. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αποτελέσματα - MediaEval 2013 (1/3) • N = 8.539.050 και Τ =262.000 εικόνες • Κ = 5.000 • Μετά το φιλτράρισμα απέμειναν Ν = 7.266.903
  29. 29. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αποτελέσματα - MediaEval 2013 (2/3) Ακρίβεια tmax vnn tmean vclust hyb acc(1km) 10.26 0.60 7.82 0.76 10.37 acc(10km) 23.53 0.99 19.86 1.16 23.70 acc(100km) 36.22 1.86 31.99 2.04 36.28 acc(500km) 47.20 6.49 43.31 6.64 47.36 acc(1000km) 53.12 13.43 49.74 13.50 53.27 acc(5000km) 70.28 38.15 68.61 38.40 68.61 acc(10000km) 91.57 81.67 90.81 81.68 90.79 median error 651 6715 1028 6692 681 0 1 2 3 4 5 [6,10] [11,75] 10 100 1.000 10.000 Αριθμός Tags ΜέσοΣφάλμαΑπόστασης(km) tmax tmean
  30. 30. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Αποτελέσματα - MediaEval 2013 (2/3) Αριθμός Ομάδων (Κ) Ακρίβεια 5 000 10 000 15 000 20 000 acc(1km) 3.29 5.75 9.01 9.84 acc(10km) 12.30 17.23 20.32 21.10 acc(100km) 21.15 26.47 28.03 27.65 acc(500km) 33.86 37.86 34.29 31.60 acc(1000km) 41.57 41.81 37.50 34.02 acc(5000km) 56.41 55.58 51.25 46.65 acc(10000km) 85.91 85.55 83.46 81.17 Ονομασία Ομάδας Ακρίβεια ΑΠΘ - CERTH DUoT UoS SCUoT CEA - LIST VIT RECOD acc(1km) 10.26 2.80 23.15 20.70 26.00 0.74 20.14 acc(10km) 23.53 3.70 37.70 43.00 43.00 3.90 37.60 acc(100km) 36.22 4.70 43.82 55.30 50.00 15.24 47.66 acc(500km) 47.20 9.20 51.20 62.80 - 26.30 56.62 acc(1000km) 53.12 15.90 56.71 66.30 63.00 30.14 63.17
  31. 31. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ Μελλοντική Εργασία • Όσον αφορά στην ανάλυση των μετα-δεδομένων μπορεί να γίνει πειραματισμός για τα παρακάτω μεγέθη: – # περιοχών K – # των topics και των λέξεων/topics για τους τοπικούς και του καθολικού LDAs – Όριο εντροπίας • Χρησιμοποιηθούν διαφορετικές μέθοδοι για την εύρεση των κοντινότερων γειτόνων στην οπτική ανάλυση • Αξιοποίηση περισσότερων μετα-δεδομένων, όπως η ταυτότητα του χρήστη και η ανάλυση της εικόνας • Χρήση γεωγραφικών λεξικών (gazetteers) και πληροφοριών από το Internet
  32. 32. Κορδοπάτης-Ζήλος Γιώργος ΤΗΜΜΥ - ΑΠΘ The end Ευχαριστώ για την προσοχή σας!

×