Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Μπουρτζούδης Στέφανος,
Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Α.Π.Θ
Υπό την επίβλεψη του Καθηγητή κ. Περι...
1. Περιγραφή του προβλήματος
2. Στόχοι της εργασίας
3. Περιγραφή της μεθοδολογίας
4. Αποτελέσματα της μεθοδολογίας
5. Συμπ...
• Μεγάλος όγκος δεδομένων
• Συνεχής ροή νέων δεδομένων
• Μεγάλο ποσοστό θορύβου στα δεδομένα
Περιγραφή του προβλήματος
Δύσ...
Πιο αποτελεσματική αναπαράσταση των γεγονότων που
περιέχονται σε ένα σύνολο δεδομένων
Στόχος της εργασίας
Προκλήσεις:
• Εν...
Συλλογή tweets:
• Twitter REST API
• Twitter Streaming API
Μεθοδολογία (1/6)
Προ-επεξεργασία:
• Διατήρηση Αγγλικών tweets
...
Ανάλυση συναισθήματος στο αρχικό κείμενο του κάθε
tweet:
• Βιβλιοθήκη SentiStrength (Thelwall et al. 2012)
• Αποτέλεσμα 2 ...
Δημιουργία ευρετηρίου όρων:
• Δημιουργία ευρετηρίου με τη βιβλιοθήκη Lucene
• Προσαρμοσμένος αναλυτής κειμένου (n-grams)
Μ...
Αυξητικό μοντέλο 𝑡𝑓 ∙ 𝑖𝑑𝑓:
• Υπολογισμός της σταθμισμένης συχνότητας
εμφάνισης των όρων μέσα σε κάθε χρονική περιοχή
• Η β...
Μεθοδολογία (5/6)
Ιστόγραμμα της πόλωση:
𝑝𝑜𝑙𝑎𝑟𝑖𝑡𝑦𝑖 =
𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 − 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒,𝑖
𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 + 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒...
Ομαδοποίηση υποψήφιων γεγονότων:
• Μη κατευθυνόμενος γράφος
• Ομαδοποίηση γράφου μέσω του
αλγόριθμου SCAN (Xu et al. 2007)...
• 12 Ιουνίου έως τις 13 Ιουλίου
• 32 εθνικές ομάδες
• 64 αγώνες
• Διαδικτυακά συμμετείχαν πάνω από 1
δισ. χρήστες απ’ όλο ...
• Χρονική κατάτμηση (30, 60 και 90 λεπτά)
• Εξαγωγή οντοτήτων (γ = 10)
• Εύρεση υποψήφιων γεγονότων (180 λεπτά, stringency...
Αποτελέσματα
timeslot ε Precision Recall F1 TP P
30 0,65 0,7412 0,8873 0,8077 63 85
30 0,7 0,7317 0,8824 0,8000 60 82
30 0...
• Χρονική κατάτμηση (1, 2, 5 λεπτά)
• Εξαγωγή οντοτήτων (γ = 10)
• Εύρεση υποψήφιων γεγονότων (10 λεπτά, stringency = 1)
•...
Αποτελέσματα για τον αγώνα Γαλλία - Ονδούρα
Timeslot ε Precision Recall F1 TP P
1 0.45 0,7333 0,7857 0,7586 11 15
1 0.5 0,...
• Γεγονότα σε κοντινή χρονική απόσταση &
χρονικά επικαλυπτόμενα
• Πολυγλωσσική υποστήριξη του συστήματος
• Λειτουργία σε π...
Ερωτήσεις;
Σας ευχαριστώ
Upcoming SlideShare
Loading in …5
×

Στέφανος Μπουρτζούδης

101 views

Published on

Εντοπισμός Γεγονότων σε Δεδομένα Κοινωνικών Μέσων με Χρήση Τεχνικών Αναγνώρισης Συναισθήματος

Published in: Software
  • Be the first to comment

  • Be the first to like this

Στέφανος Μπουρτζούδης

  1. 1. Μπουρτζούδης Στέφανος, Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών, Α.Π.Θ Υπό την επίβλεψη του Καθηγητή κ. Περικλή Α. Μήτκα Εντοπισμός Γεγονότων σε Δεδομένα Κοινωνικών Μέσων με Χρήση Τεχνικών Αναγνώρισης Συναισθήματος Διπλωματική Εργασία
  2. 2. 1. Περιγραφή του προβλήματος 2. Στόχοι της εργασίας 3. Περιγραφή της μεθοδολογίας 4. Αποτελέσματα της μεθοδολογίας 5. Συμπεράσματα & Μελλοντική εργασία Δομή της παρουσίασης
  3. 3. • Μεγάλος όγκος δεδομένων • Συνεχής ροή νέων δεδομένων • Μεγάλο ποσοστό θορύβου στα δεδομένα Περιγραφή του προβλήματος Δύσκολος ο εντοπισμός γεγονότων σε σύντομο χρονικό διάστημα από τη χρονική στιγμή που αυτά συμβαίνουν.
  4. 4. Πιο αποτελεσματική αναπαράσταση των γεγονότων που περιέχονται σε ένα σύνολο δεδομένων Στόχος της εργασίας Προκλήσεις: • Εντοπισμός υποψήφιων γεγονότων μέσα σε περιοχές υψηλής πόλωσης • Περίληψη των υποψήφιων γεγονότων • Ομαδοποίηση υποψήφιων γεγονότων
  5. 5. Συλλογή tweets: • Twitter REST API • Twitter Streaming API Μεθοδολογία (1/6) Προ-επεξεργασία: • Διατήρηση Αγγλικών tweets • Σύμπτυξη ή αφαίρεση χαρακτηριστικών • Εξαγωγή οντοτήτων • Συντακτική ανάλυση • Εισαγωγή στη MongoDB Πεδίο Περιγραφή text Το αρχικό κείμενο του tweet publicationTime Ο χρόνος δημιουργίας του tweet σε milliseconds username Το όνομα του χρήστη που δημοσίευσε το tweet hashtags Η λίστα των hashtags που περιέχει το tweet entities Η λίστα των οντοτήτων που περιέχονται στο tweet reposts Ο αριθμός των αναδημοσιεύσεων του συγκεκριμένου tweet από άλλους χρήστες original Μεταβλητή τύπου boolean που δίνει αν το tweet είναι πρωτότυπο ή αν είναι retweet properNouns Η λίστα των κύριων ονομάτων που περιέχονται στο tweet posTags Η λίστα περιγραφής του μέρους του λόγου για κάθε λέξη του κειμένου του tweet cleanText Το κείμενο του tweet επεξεργασμένο accepted Μεταβλητή τύπου boolean που δίνει αν το tweet είναι αποδεκτό
  6. 6. Ανάλυση συναισθήματος στο αρχικό κείμενο του κάθε tweet: • Βιβλιοθήκη SentiStrength (Thelwall et al. 2012) • Αποτέλεσμα 2 ακέραιοι. π.χ (3,5) • Υπολογισμός πόλωσης Μεθοδολογία (2/6) Μείωση θορύβου στο κείμενο των tweets: • Όλες οι διευθύνσεις URL αντικαταστάθηκαν • Τα mentions σε άλλους χρήστες αντικαταστάθηκαν • Το σύμβολο # των hashtags αφαιρέθηκε • Αφαιρέθηκαν επαναλαμβανόμενα γράμματα
  7. 7. Δημιουργία ευρετηρίου όρων: • Δημιουργία ευρετηρίου με τη βιβλιοθήκη Lucene • Προσαρμοσμένος αναλυτής κειμένου (n-grams) Μεθοδολογία (3/6) Χρονική κατάτμηση: • Με βάση το χρόνο δημιουργίας των tweets • Δημιουργία μη επικαλυπτόμενων χρονικών περιοχών (timeslots) με χρονική διάρκεια σε λεπτά
  8. 8. Αυξητικό μοντέλο 𝑡𝑓 ∙ 𝑖𝑑𝑓: • Υπολογισμός της σταθμισμένης συχνότητας εμφάνισης των όρων μέσα σε κάθε χρονική περιοχή • Η βαρύτητα των όρων προσαρμόζεται με το πέρασμα του χρόνου Μεθοδολογία (4/6) Εξαγωγή οντοτήτων: 𝜃 = 𝑚𝑒𝑑𝑖𝑎𝑛 + 𝛾 ∙ 𝑚𝑒𝑎𝑛
  9. 9. Μεθοδολογία (5/6) Ιστόγραμμα της πόλωση: 𝑝𝑜𝑙𝑎𝑟𝑖𝑡𝑦𝑖 = 𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 − 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒,𝑖 𝑡𝑜𝑡𝑎𝑙 𝑝𝑜𝑠𝑖𝑡𝑖𝑣𝑒,𝑖 + 𝑡𝑜𝑡𝑎𝑙 𝑛𝑒𝑔𝑎𝑡𝑖𝑣𝑒,𝑖 Εντοπισμός κορυφών στο ιστόγραμμα της πόλωση: • Αλγόριθμος Palshikar (2009) • Παράμετροι windowSize, strigency Περίληψη υποψήφιων γεγονότων: • Υπολογισμός συσχέτισης όρων • Συντελεστής συσχέτισης Erdem et al. (2011)
  10. 10. Ομαδοποίηση υποψήφιων γεγονότων: • Μη κατευθυνόμενος γράφος • Ομαδοποίηση γράφου μέσω του αλγόριθμου SCAN (Xu et al. 2007) Μεθοδολογία (6/6) Εύρεση αντιπροσωπευτικών tweets για κάθε γεγονός: • Αναζήτηση των όρων στη Lucene • Αποτελέσματα με την υψηλότερη βαθμολογία
  11. 11. • 12 Ιουνίου έως τις 13 Ιουλίου • 32 εθνικές ομάδες • 64 αγώνες • Διαδικτυακά συμμετείχαν πάνω από 1 δισ. χρήστες απ’ όλο τον κόσμο Παγκόσμιο Κύπελλο ποδοσφαίρου 2014 Σύνολο δεδομένων: • 12.835.386 tweets • Όλα γραμμένα στα Αγγλικά • Από 1η Απριλίου 2007 έως 18η Ιουλίου 2014
  12. 12. • Χρονική κατάτμηση (30, 60 και 90 λεπτά) • Εξαγωγή οντοτήτων (γ = 10) • Εύρεση υποψήφιων γεγονότων (180 λεπτά, stringency = 2) • Περίληψη υποψήφιων γεγονότων (𝑐𝑜𝑒𝑓 ≥ 0,90) • Ομαδοποίηση υποψήφιων γεγονότων (μ=3, ε=[0,65 0,70 0,75]) Εύρεση γεγονότων στη διάρκεια του Παγκοσμίου Κυπέλλου ποδοσφαίρου
  13. 13. Αποτελέσματα timeslot ε Precision Recall F1 TP P 30 0,65 0,7412 0,8873 0,8077 63 85 30 0,7 0,7317 0,8824 0,8000 60 82 30 0,75 0,9333 1,0000 0,9655 14 15 60 0,65 0,8302 1,0000 0,9072 44 53 60 0,7 0,8077 1,0000 0,8936 42 52 60 0,75 0,9333 1,0000 0,9655 14 15 90 0,65 0,8696 1,0000 0,9302 20 23 90 0,7 0,8571 1,0000 0,9231 18 21 90 0,75 0,7500 1,0000 0,8571 3 4
  14. 14. • Χρονική κατάτμηση (1, 2, 5 λεπτά) • Εξαγωγή οντοτήτων (γ = 10) • Εύρεση υποψήφιων γεγονότων (10 λεπτά, stringency = 1) • Περίληψη υποψήφιων γεγονότων (𝑐𝑜𝑒𝑓 ≥ 0,75) • Ομαδοποίηση υποψήφιων γεγονότων (μ = 3, ε = [0,45 0,50 0,55 0,60 0,65]) Εύρεση γεγονότων στη διάρκεια ενός ποδοσφαιρικού αγώνα
  15. 15. Αποτελέσματα για τον αγώνα Γαλλία - Ονδούρα Timeslot ε Precision Recall F1 TP P 1 0.45 0,7333 0,7857 0,7586 11 15 1 0.5 0,7273 0,8000 0,7619 8 11 1 0.55 0,8571 1,0000 0,9231 6 7 1 0.6 0,8571 1,0000 0,9231 6 7 1 0.65 1,0000 1,0000 1,0000 2 2 2 0.45 0,8000 1,0000 0,8889 12 15 2 0.5 0,8182 1,0000 0,9000 9 11 2 0.55 0,8000 1,0000 0,8889 8 10 2 0.6 0,8000 1,0000 0,8889 4 5 2 0.65 0,6667 1,0000 0,8000 2 3 5 0.45 1,0000 1,0000 1,0000 2 2 5 0.5 1,0000 1,0000 1,0000 1 1 5 0.55 1,0000 1,0000 1,0000 1 1 5 0.6 1,0000 1,0000 1,0000 1 1 5 0.65 1,0000 1,0000 1,0000 1 1
  16. 16. • Γεγονότα σε κοντινή χρονική απόσταση & χρονικά επικαλυπτόμενα • Πολυγλωσσική υποστήριξη του συστήματος • Λειτουργία σε πραγματικό χρόνο Συμπεράσματα & Μελλοντική εργασία
  17. 17. Ερωτήσεις; Σας ευχαριστώ

×