Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Orestis Georgiadis

48 views

Published on

News popularity prediction with image/text content

Published in: Education
  • Be the first to comment

  • Be the first to like this

Orestis Georgiadis

  1. 1. Πρόβλεψη Δημοτικότητας Ειδησεογραφικών Άρθρων από δεδομένα κειμένου και εικόνας. Διπλωματική εργασία του Γεωργιάδη Ορέστη ΑΕΜ: 6630 υπό την επίβλεψη του ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ ΚΑΙ ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ ΚΑΙ ΥΠΟΛΟΓΙΣΤΩΝ κ. Ανδρέα Λ. Συμεωνίδη Αναπληρωτής Καθηγητής - ΑΠΘ Θεσσαλονίκη – 4 Ιουλίου 2019
  2. 2. Ορισμός Προβλήματος Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 2
  3. 3. Σκοπός της διπλωματικής εργασίας • Δημιουργία ενός συστήματος πρόβλεψης της δημοτικότητας ειδησεογραφικών άρθρων Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 3 Σύνολο εκπαίδευσης Αριθμός προβολών άρθρου Νευρωνικό Δίκτυο
  4. 4. Γνώσεις που αποκτήθηκαν • Επεξεργασία δεδομένων σε Python (numpy, pandas) • Λειτουργία deep learning αλγορίθμων • Υλοποίηση Νευρωνικών Δικτύων (Keras, Tensorflow) • Ερευνητική διαδικασία!!! Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 4
  5. 5. Μεθοδολογία 1. Επεξεργασία δεδομένων 2. Υλοποίηση Δικτύου 3. Εκπαίδευση Δικτύου Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 5
  6. 6. Επεξεργασία Δεδομένων • Βάση Δεδομένων Plista Gmbh (Medieval 2018) • 13 εβδομάδες • 5 ειδησεογραφικά sites • 51937 άρθρα/εικόνες • 1691 μοναδικές ετικέτες εικόνων • 142 εκατ. προβολές Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 6 Σύνολο εκπαίδευσης Α Σύνολο εκπαίδευσης Β
  7. 7. Είσοδοι Δικτύου Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 7 Τίτλοι Άρθρων Ετικέτες Εικόνων Εκδότης Γάτα Σκύλος Ομπρέλα … Αμφίβιο Άρθρο 1 0 0,123 0,42 0 0 Άρθρο 2 0,33 0 0,2 0,75 0 Εκδότης1 Εκδότης2 Άρθρο 1 0 1 Άρθρο 2 1 0
  8. 8. Υλοποίηση Δικτύου Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 8 • Δομή βασισμένη στην έρευνα (S. Subramanian et al. , 2018)
  9. 9. Εκπαίδευση Δικτύου Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 9 • 𝑥1 (2) = 𝑤1 𝑥1 (1) + 𝑤2 𝑥2 (1) + 𝑤3 𝑥3 (1) + 𝑤4 𝑥3 (1) • Συνάρτηση Κόστους MLSE : L 𝑦, 𝑦 = 1 𝑁 𝑖=0 𝑁 (log 𝑦𝑖 + 1 − log(𝑦𝑖 + 1))2 , 𝑦𝑖 είναι η επιθυμητή έξοδος w : βάρος J(w) : συνάρτηση κόστους • Ελαχιστοποίηση συνάρτησης κόστους πολλών μεταβλητών: • 𝑎: Ρυθμός εκμάθησης (α=0.1) 1) 𝑤𝑗 ← 𝑤𝑗 − 𝑎 𝜕 𝜕𝑤 𝑗 J(w) 2)Επανάληψη μέχρι να συγκλίνουν (epoch = 500)
  10. 10. Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 10 • Παράδειγμα ελαχιστοποίησης συνάρτησης κόστους με 2 ανεξάρτητες μεταβλητές • Το Νευρωνικό Δίκτυο έχει περίπου 81,000 μεταβλητές
  11. 11. Εκπαίδευση Δικτύου – Συνελικτικό Νευρωνικό Δίκτυο • Πίνακες-φίλτρα διαφορετικών μεγεθών • Πραγματοποιείται συνέλιξη μεταξύ εισόδου και φίλτρων Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 11 Βάρη (𝑤𝑗)
  12. 12. Αποτελέσματα-Μοντέλο Παλινδρόμησης Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 12 Σύνολο Α • Σετ εκπαίδευσης : 27,929 άρθρα • Σετ δοκιμής : 4,365 άρθρα Σύνολο Β • Σετ εκπαίδευσης : 31,058 άρθρα • Σετ δοκιμής : 4,454 άρθρα Σύνολο Α Σύνολο Β Μέθοδος MSLE P@10% AP@10% MSLE P@10% AP@10% LinR 21.3 0.15 0.12 22.3 0.14 0.12 SVR 5.24 0.22 0.19 5.5 0.32 0.24 NPNet 4.72 0.23 0.2 4.72 0.35 0.25 MSLE Α MSLE Β NPNetSimple 5.06 5.36 NPNet 4.72 4.72 • Αποτελέσματα μόνο με του τίτλους ως είσοδο στο δίκτυο
  13. 13. Αποτελέσματα-Μοντέλο Ταξινόμησης • Σύνολα Α και Β • 4 κλάσεις : [0,10), [10,100), [100,1000), [1000,∞) Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 13 Μέθοδος Accuracy A Accuracy B SVM 0.32 0.3 MLR 0.46 0.42 DecisionTrees 0.43 0.4 NPNet 0.44 0.4
  14. 14. Συμπεράσματα • Μοντέλο παλινδρόμησης – όλα τα αποτελέσματα δείχνουν βελτίωση συγκριτικά με τις κλασικές μεθόδους • Μοντέλο ταξινόμησης – τα αποτελέσματα δεν φαίνεται να βελτιώνουν σε ικανοποιητικό βαθμό τις κλασικές μεθόδους • Συμπληρωματικά πειράματα έδειξαν ότι οι τίτλοι και ο εκδότης των άρθρων επηρεάζουν σε μεγαλύτερο βαθμό τα αποτελέσματα του δικτύου • Ο ρυθμός εκμάθησης δεν επηρεάζει την ταχύτητα εκπαίδευσης των μοντέλων Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 14
  15. 15. Μελλοντική Εργασία • Έλεγχος και πειραματισμός με διαφορετικές παραμέτρους του δικτύου όπως π.χ. αριθμός και μέγεθος φίλτρων, αριθμός κρυμμένων επιπέδων, αριθμός νευρώνων κάθε επιπέδου • Αξιοποίηση μεθόδων ανάλυσης εικόνων και όχι μόνο ετικετών που παράγονται από annotators • Προσαρμογή του δικτύου για βελτιστοποίηση του μοντέλου ταξινόμησης Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 15
  16. 16. Ευχαριστώ για την προσοχή σας! Γεωργιάδης Ορέστης - ΤΗΜΜΥ ΑΠΘ 2019 16

×