Advertisement
Advertisement

More Related Content

Similar to Aspect-Based Sentiment Analysis for Reviews(20)

More from ISSEL(20)

Advertisement

Aspect-Based Sentiment Analysis for Reviews

  1. Ανίχνευση και Ανάλυση Συναισθήματος Πτυχών Κριτικών Αριστοτέλειο Πανεπιστήμιο Θεσσαλονίκης Πολυτεχνική Σχολή Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Ομάδα Ευφυών Συστημάτων και Τεχνολογίας Λογισμικού Εκπόνηση: Αθανάσιος Παρασκευάς ΑΕΜ: 9197 Επιβλέποντες: Ανδρέας Συμεωνίδης Αν. Καθηγητής Α.Π.Θ. Νικόλαος Μάλαμας Υποψήφιος Διδάκτωρ Θεσσαλονίκη, 1/4/2022
  2. Παραγωγή περιεχομένου από χρήστες στο διαδίκτυο 1/4/2022 2
  3. Περιγραφή του Προβλήματος • Μη διαχειρίσιμος όγκος δεδομένων • Αναζήτηση αυτοματοποιημένου τρόπου εξόρυξης/κατηγοριοποίησης/φιλτραρίσματος της πληροφορίας • Σημαντικό μέρος των δεδομένων από χρήστες → κριτικές προϊόντων ◦ Επιθυμητή η ανάλυση του συναισθήματος που εκφράζεται μέσα από κριτικές • Έλλειψη συστημάτων ανάλυσης συναισθήματος για τα ελληνικά ◦ Απουσία συνόλων δεδομένων 1/4/2022 3
  4. Σκοπός της Διπλωματικής Εργασίας Ανάλυση συνολικού συναισθήματος κριτικών • Ανάλυση συναισθήματος πτυχών κριτικών 1/4/2022 4
  5. Σύνολο Δεδομένων • Έλλειψη ελληνικών συνόλων δεδομένων για ανάλυση συναισθήματος πτυχών σε ελληνικές κριτικές • Ανάγκη υλοποίησης συστήματος συγκέντρωσης και σχολιασμού δεδομένων ◦ Λήψη δεδομένων από δημοφιλείς ιστοσελίδες πώλησης προϊόντων ◦ Θόρυβος στα δεδομένα (ορθογραφικά λάθη, λανθασμένο συναίσθημα, πτυχές που δεν αναφέρονται στο κείμενο κλπ.) ◦ Δημιουργία μίας διαδικτυακής διεπαφής με εύχρηστο γραφικό περιβάλλον, για σχολιασμό δεδομένων 1/4/2022 5
  6. 1/4/2022 6
  7. Ανάλυση Συνόλου Δεδομένων 1/4/2022 7 Ιστόγραμμα μήκους κειμένου για τις κριτικές του συνόλου δεδομένων Ιστόγραμμα τύπου προϊόντος για τις κριτικές του συνόλου δεδομένων
  8. Ανάλυση Συνόλου Δεδομένων (2) 1/4/2022 8 Ιστόγραμμα συνολικού συναισθήματος για τις κριτικές του συνόλου δεδομένων Συχνότητα εμφάνισης κάθε πτυχής
  9. Προεπεξεργασία Συνόλου Δεδομένων • Αφαίρεση θορύβου από τα δεδομένα • Κεφαλαία γράμματα → Πεζά γράμματα • Αφαίρεση τόνων • Αφαίρεση αριθμών • Παράδειγμα: ◦ Δεν ξέρω αν ο υπολογισμός των θερμίδων που κάνει είναι σωστός γιατί στα 20000 βήματα του βγάζει μόνο 200 θερμίδες περίπου ότι έκαψε. ↓ ◦ δεν ξερω αν ο υπολογισμος των θερμιδων που κανει ειναι σωστος γιατι στα βηματα του βγαζει μονο θερμιδες περιπου οτι εκαψε. 1/4/2022 9
  10. Διαχωρισμός Συνόλου Δεδομένων • Ένα υποσύνολο εκπαίδευσης, με το 80% των δεδομένων • 5-πτυχη Διασταυρωμένη Επικύρωση (5-fold cross validation) • Ένα υποσύνολο αξιολόγησης, με το 20% των δεδομένων 1/4/2022 10
  11. Ενσωματώσεις Λέξεων (Word Embeddings) • Λέξεις → Διανύσματα ◦ Μοντέλα Διανυσματικού Χώρου (Vector Space Models) • Βασική ιδέα: Τοποθέτηση σημασιολογικά όμοιων λέξεων σε κοντινή απόσταση • Υπόθεση κατανομής (distributional hypothesis): λέξεις που συνοδεύονται από παρόμοια συμφραζόμενα τείνουν να έχουν παρόμοιες σημασίες 1/4/2022 11
  12. Ανάλυση Συνολικού Συναισθήματος • Ταξινόμηση συνολικού συναισθήματος μίας κριτικής σε Αρνητικό, Ουδέτερο, Θετικό • Μετατροπή λέξεων σε embeddings • SVM: μέσος όρος των embeddings σαν είσοδος • Bidirectional LSTM • Transformers 1/4/2022 12
  13. Μοντέλα Transformer Παραλλαγές στα ελληνικά: Greek-BERT, ELECTRA 1/4/2022 13
  14. Επίπεδο Προσοχής • Απόδοση προσοχής σε συγκεκριμένες λέξεις μιας κριτικής και απόρριψη μη χρήσιμης πληροφορίας • Παράδειγμα: ◦ Ένα έχω να πω για την κάμερα του κινητού: την χρησιμοποιώ συνέχεια και είναι τέλεια. 1/4/2022 14
  15. Aspect-Based Sentiment Analysis (ABSA) • Δύο επιμέρους εργασίες: ◦ Ανίχνευση κατηγοριών και πτυχών (Aspect Category Detection ‐ ACD) ◦ Ανάλυση Συναισθήματος (Sentiment Polarity ‐ SP) • Εκπαίδευση δύο μοντέλων ξεχωριστά, ένα για κάθε εργασία • Συνδυασμός αυτών για την δημιουργία ενός συγκεντρωτικού (end-to-end) μοντέλου 1/4/2022 15
  16. Μοντέλο ACD • Ένα μοντέλο για κάθε πτυχή ξεχωριστά (one-vs-all) • Ταξινόμηση κάθε πτυχής ως • Θετική αν περιέχεται στην κριτική • Αρνητική αν δεν περιέχεται στην κριτική 1/4/2022 16
  17. Μοντέλο SP • Είσοδος: embeddings κριτικής + embeddings πτυχής προς ανάλυση • Συνδυασμός της πληροφορίας των δύο εισόδων • Απόδοση προσοχής ανάλογα με την ζητούμενη πτυχή • Ταξινόμηση συναισθήματος πτυχής σε • Αρνητικό • Ουδέτερο • Θετικό 1/4/2022 17
  18. End-to-End Μοντέλο • Συνδυασμός ACD και SP • Έμμεση εύρεση του πιθανότερου τύπου προϊόντος από τις ανιχνευμένες πτυχές • Απόρριψη ανιχνευμένων πτυχών που δεν ανήκουν στον πιθανότερο τύπο προϊόντος • Ποσοτικοποίηση της προσοχής που αποδόθηκε σε κάθε λέξη κατά τον υπολογισμό του συναισθήματος κάθε πτυχής 1/4/2022 18
  19. Μετρικές Αξιολόγησης • Ακρίβεια (Precision): TP TP+FP • Ανάκληση (Recall): TP TP+FN • Μέτρο F1 (F1 Score): 2 Precision⋅Recall Precision+Recall ◦ Μέσος όρος των F1 Score για κάθε κλάση 1/4/2022 19
  20. Αποτελέσματα Συνολικού Συναισθήματος • Καλύτερη απόδοση από το μοντέλο Greek-BERT • Μέγιστο μήκος εισόδου για το μοντέλο ELECTRA: 128 λέξεις < Greek-BERT: 512 • Μεγάλη πολυπλοκότητα και αριθμός παραμέτρων των μοντέλων transformer 1/4/2022 20
  21. Αποτελέσματα ACD μοντέλου • Αξιοπρεπής απόδοση σε όλες τις πτυχές • Χαμηλότερη απόδοση σε μερικές πτυχές (πχ. Αντοχή στο χρόνο για τα PS4 Games) ◦ Πιο σύνθετο λεξιλόγιο για την περιγραφή τους ◦ Δυσκολία ανίχνευσης αφαιρετικών εννοιών 1/4/2022 21
  22. Αποτελέσματα SP μοντέλου • Αυξημένη διακύμανση του F1 Score μεταξύ πτυχών • Μικρό σύνολο δεδομένων → έλλειψη επαρκούς αριθμού παραδειγμάτων για τις 3 κλάσεις • Πτυχές με λίγα παραδείγματα → μεγαλύτερη απόκλιση από τη μέση τιμή του F1 score 1/4/2022 22
  23. 1/4/2022 23
  24. Μελλοντική Εργασία • Συμμετοχή μεγαλύτερου πλήθους σχολιαστών και πιο συστηματική συγκέντρωση δεδομένων • Μείωση διακύμανσης της απόδοσης σε πτυχές με λίγα παραδείγματα • Δοκιμή σε δεδομένα άλλων κλάδων, όπως κριτικές ξενοδοχείων, σχόλια χρηστών σε πλατφόρμες αναπαραγωγής βίντεο, συνομιλίες χρηστών σε φόρουμ • Χρήση του end-to-end μοντέλου στο cloud με πραγματικά δεδομένα (Azure, AWS) • Συνεχής βελτίωση της ποιότητας των προβλέψεων μέσω κύκλου ζωής του μοντέλου 1/4/2022 24
  25. Ευχαριστώ πολύ για την προσοχή σας 28/2/2022 25 Ερωτήσεις;

Editor's Notes

  1. Η παραγωγή περιεχομένου από τους χρήστες στο διαδίκτυο έχει αυξηθεί σημαντικά τα τελευταία χρόνια, αφού υπηρεσίες όπως τα μέσα κοινωνικής δικτύωσης, οι ιστοσελίδες/εφαρμογές καταστημάτων πώλησης προϊόντων και φαγητών, τα φόρουμ, τα wiki και πολλά άλλα αποτελούν αναπόσπαστο κομμάτι της καθημερινότητας. Το περιεχόμενο αυτό μπορεί να έχει τη μορφή δημοσιεύσεων, κριτικών, σχολίων, εγκυκλοπαιδικών γνώσεων κλπ.
Advertisement