Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Loutroukis Anastasios

116 views

Published on

Employing semantic analysis methods for personalizing recommendation in e-commerce systems

Published in: Education
  • Be the first to comment

  • Be the first to like this

Loutroukis Anastasios

  1. 1. ΑΝΑΠΤΥΞΗ ΤΕΧΝΙΚΩΝ ΕΞΑΤΟΜΙΚΕΥΣΗΣ ΗΛΕΚΤΡΟΝΙΚΟΥ ΚΑΤΑΣΤΗΜΑΤΟΣ ΜΕ ΧΡΗΣΗ ΠΡΟΤΥΠΩΝ ΠΛΟΗΓΗΣΗΣ ΚΑΙ ΣΗΜΑΣΙΟΛΟΓΙΚΩΝ ΜΕΘΟΔΩΝ Λουτρούκης Αναστάσιος AEM 7914 Επιβλέποντες: Επίκουρος Καθηγητής κ. Συμεωνίδης Ανδρέας Μεταδιδακτορικός ερευνητής κ. Βαβλιάκης Κωνσταντίνος ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ ΤΜΗΜΑ ΗΛΕΚΤΡΟΛΟΓΩΝ ΜΗΧΑΝΙΚΩΝ & ΜΗΧΑΝΙΚΩΝ ΥΠΟΛΟΓΙΣΤΩΝ ΤΟΜΕΑΣ ΗΛΕΚΤΡΟΝΙΚΗΣ & ΥΠΟΛΟΓΙΣΤΩΝ ΕΡΓΑΣΤΗΡΙΟ ΕΠΕΞΕΡΓΑΣΙΑΣ ΠΛΗΡΟΦΟΡΙΩΝ ΚΑΙ ΥΠΟΛΟΓΙΣΜΩΝ
  2. 2.  Ψηφιοποίηση των αγορών και επικράτηση του ηλεκτρονικού εμπορίου ως κυρίαρχο μέσο πραγμάτωσης εμπορικών συναλλαγών  Ιδιαίτερα υψηλός όγκος προσφερόμενων προϊόντων προς τους καταναλωτές  Αναγκαία η ανάπτυξη κατάλληλων μηχανισμών εξατομίκευσης του διαθέσιμου περιεχομένου Συστήματα συστάσεων 2 Εισαγωγή Βασίζονται στην ανάλυση των προτύπων προτιμήσεων των χρηστών σε προϊόντα με σκοπό τη πρόβλεψη ενδεχομένων προτιμήσεων σε νέα προϊόντα και τη παραγωγή εξατομικευμένων προτάσεων για κάθε χρήστη που ικανοποιούν τις ιδιαίτερες ανάγκες του Mάρτιος 2018 Λουτρούκης Αναστάσιος
  3. 3. Γιατί είναι σημαντικά τα συστήματα συστάσεων σήμερα; I. Ευρεία χρήση σε όλους τους κλάδους των διαδικτυακών εφαρμογών (ενημέρωση, ψυχαγωγία, μέσα κοινωνικής δικτύωσης κλπ.) II. Η επιτυχία των διαδικτυακών παρόχων υπηρεσιών και προϊόντων είναι άμεσα συνυφασμένη με την αποτελεσματικότητα των συστημάτων συστάσεων Πλατφόρμα Ποσοστό πωλήσεων/χρήσης που προέρχεται από συστάσεις προϊόντων Netflix 2/3 ενοικιάσεις ταινιών προέρχονται από τη χρήση συστάσεων Amazon Το 35% των συνολικών πωλήσεων στον ιστόχωρο της amazon οφείλεται στη χρήση συστάσεων Google News Aύξηση κατά 38% της επισκεψιμότητας σε σελίδες ειδήσεων λόγω χρήσης συστάσεων Εισαγωγή 3Mάρτιος 2018 Λουτρούκης Αναστάσιος
  4. 4. 1. Οι υπάρχουσες προτάσεις στη βιβλιογραφία χαρακτηρίζονται από έλλειψη σημασιολογικής κατανόησης των παρεχόμενων συστάσεων 2. Εστίαση κατά βάση στην ανάλυση των προτύπων βαθμολόγησης των χρηστών στα αντικείμενα του συστήματος (collaborative filtering) 3. Οι σύγχρονες τάσεις στη περιοχή απαιτούν υψηλότερη έμφαση στην εννοιολογική ανάλυση του περιεχομένου <Μήνας> <Χρονιά> <Τίτλος εργασίας> 4 Σκοπός της διπλωματικής  Παραγωγή συστάσεων που βασίζεται στη σημασιολογική κατανόηση των χαρακτηριστικών των αντικειμένων και των ενδιαφερόντων των χρηστών  Αξιοποίηση της πληροφορίας που προέρχεται από τις περιγραφές των αντικειμένων του συστήματος και τα reviews των χρηστών Mάρτιος 2018 Λουτρούκης Αναστάσιος
  5. 5. I. Σχεδιασμός και ανάπτυξη συστήματος συστάσεων με χρήση σημασιολογικών μεθόδων II. Τεχνικές επεξεργασίας φυσικής γλώσσας III. Αλγόριθμοι σημασιολογικής ανάλυσης περιεχομένου IV. Ανάλυση δεδομένων και μέθοδοι εξατομίκευσης περιεχομένου <Μήνας> <Χρονιά> <Τίτλος εργασίας> Γνώσεις που αποκτήθηκαν 5Mάρτιος 2018 Λουτρούκης Αναστάσιος
  6. 6.  Bασίζεται στη Dirichlet κατανομή και τις ιδιότητες της  Unsupervised learning: Η επιλογή του αριθμού θεματικών προς εκπαίδευση δε στηρίζεται σε κάποιο καθολικό ground truth Latent Dirichlet Allocation (LDA) 6 Παραγωγικό στατιστικό μοντέλο για μία συλλογή διακριτών εγγράφων Κεντρική ιδέα I. Τα έγγραφα μίας συλλογής εγγράφων χαρακτηρίζονται από μία κατανομή σε ένα σύνολο κρυμμένων - αφηρημένων θεματικών II. Κάθε θεματική χαρακτηρίζεται από μία κατανομή στο σύνολο των διακριτών λέξεων που απαρτίζουν τη συλλογή εγγράφων Mάρτιος 2018 Λουτρούκης Αναστάσιος
  7. 7. Παραγωγική διαδικασία LDA <Μήνας> <Χρονιά> <Τίτλος εργασίας> Latent Dirichlet Allocation (LDA) 7 1. Για κάθε θεματική k, επιλογή κατανομής στο σύνολο των λέξεων φκ Dir(β) 2. Για κάθε έγγραφο d: a. Επιλογή κατανομής στο σύνολο των θεματικών θd Dir(α) b. Για κάθε λέξη i του εγγράφου: i. Επιλογή ανάθεσης θεματικής zd,i Mult(θd), zd,i{1….K) ii. Eπιλογή λέξης wd,i Mult(φzd,i ), wd,i{1….N} Mάρτιος 2018 Λουτρούκης Αναστάσιος
  8. 8.  Απαιτούνται κατάλληλοι αλγόριθμοι μηχανικής μάθησης για την εκμάθηση των παραμέτρων  Χρήση αλγορίθμων Markov Chain Monte Carlo για τη προσέγγιση του μοντέλου (Gibbs sampling) Το τελικό στατιστικό μοντέλο παράγει: Latent Dirichlet Allocation (LDA) 8 Πιθανοτική κατανομή εγγράφων στο σύνολο των θεματικών Topic 1 Topic 2 Topic 3 Topic 4 Document 1 θd=1 0.5 0.1 0.3 0.1 Document 2 θd=2 0.0 0.85 0.1 0.05 Document 3 θd=3 0.02 0.48 0.25 0.25 Πιθανοτική κατανομή θεματικών στο σύνολο των λέξεων Term 1 Term 2 Term 3 Term 4 Topic 1 φk=1 0.1 0.2 0.0 0.7 Topic 2 φk=2 0.2 0.2 0.2 0.4 Topic 3 Φk=3 0.01 0.39 0.25 0.15 Mάρτιος 2018 Λουτρούκης Αναστάσιος
  9. 9.  Κάθε έγγραφο αναπαρίσταται ως το σύνολο των διακριτών λέξεων που το απαρτίζουν  Αγνοούνται κανόνες γραμματικής, σύνταξης και διάταξης των λέξεων  Οργάνωση των εγγράφων σε δομημένη μορφή κειμένου <Μήνας> <Χρονιά> <Τίτλος εργασίας> Μοντέλο bag of words 9 Μη δομημένη μορφή κειμένου D1=”I hate databases” D2=”I like databases” Δομημένη μορφή κειμένου Μοντέλο πίνακα Εγγράφων-Όρων I like hate databases D1 1 0 1 1 D2 1 1 0 1 Mάρτιος 2018 Λουτρούκης Αναστάσιος
  10. 10.  Μοvielens datasets: Συλλογή χαρακτηριστικών για 8645 διακριτές ταινίες και 655.000 διακριτών reviews χρήστη αναφορικά με τις ταινίες  Τυπική αναπαράσταση ταινίας: Το σύνολο των χαρακτηριστικών κατηγορίας και reviews χρηστών Σετ δεδομένων 10 Ενδεικτικά χαρακτηριστικά ταινιών Movie Id Movie Title Genres 912 Casablanca (1942) Drama|Romance 63082 Slumdog Millionaire (2008) Crime|Drama|Romance 96079 Skyfall (2012) Action|Adventure|Thriller|IMAX Ενδεικτικά reviews χρηστών User ID Movie ID Tag 988 912 start of a beautiful friendship 147611 912 Film Noir 134188 63082 India 179262 63082 social commentary 37762 96079 James Bond 88969 96079 secret agent Mάρτιος 2018 Λουτρούκης Αναστάσιος
  11. 11. Τυπικό workflow στη διαδικασία επεξεργασίας φυσικής γλώσσας <Μήνας> <Χρονιά> <Τίτλος εργασίας> Προεπεξεργασία δεδομένων 11 Απαραίτητη η μετατροπή του συνόλου των περιγραφών των ταινιών από μη δομημένη σε δομημένη μορφή κειμένου κατάλληλη για περαιτέρω επεξεργασία Mάρτιος 2018 Λουτρούκης Αναστάσιος
  12. 12.  Μετατροπή σε πεζούς χαρακτήρες  Αφαίρεση σημείων στίξης  Αφαίρεση αριθμητικών χαρακτήρων  Αφαίρεση βασικών stopwords  Αφαίρεση πρόσθετων χαρακτήρων κενού  Αποκοπή καταλήξεων (stemming)  Αφαίρεση πρόσθετων stopwords  Μετατροπή σε δομημένη μορφή κειμένου Τελική αναπαράσταση ταινιών <Μήνας> <Χρονιά> <Τίτλος εργασίας> Προεπεξεργασία δεδομένων 12 Βασική διαδικασία προεπεξεργασίας στα δεδομένα των ταινιών Slumdog Millionaire Mάρτιος 2018 Λουτρούκης Αναστάσιος
  13. 13.  Εκπαίδευση με τη μέθοδο LDA() του πακέτου topicmodels της γλώσσας προγραμματισμού R  Προσδιορισμός θεματικού άξονα κάθε θεματικής με βάση τους κυρίαρχους όρους (labelling)  Εξαγωγή για κάθε θεματική σε πρώτο επίπεδο των 100 πιο αντιπροσωπευτικών ταινιών με βάση τη πιθανοτική αναπαράσταση  Επιλογή για κάθε θεματική σε δεύτερο επίπεδο μίας λίστας 20 ταινιών με κριτήριο το πλήθος των reviews που διαθέτει μια ταινία (πόσο δημοφιλής είναι μία ταινία)  Κάθε θεματική αντιπροσωπεύεται από ένα μικρό πλήθος ταινιών που σχετίζεται έντονα με το περιεχόμενο της και χαρακτηρίζεται από υψηλή ποιότητα Εκπαίδευση 13Mάρτιος 2018 Λουτρούκης Αναστάσιος
  14. 14. Σύγχυση (perplexity)  Εκφράζει τη δυνατότητα γενίκευσης – προσαρμογής του εκπαιδευμένου μοντέλου σε νέα άγνωστα δείγματα  Χαμηλότερη τιμή ισοδυναμεί με καλύτερη πιθανοτική αναπαράσταση του μοντέλου  Έλεγχος: 5-fold cross validation στα δεδομένα ελέγχου  Υλοποίηση: Mέθοδος perplexity() του πακέτου topicmodels της γλώσσας προγραμματισμού R Επιλογή αριθμού θεματικών προς εκπαίδευση 14Mάρτιος 2018 Λουτρούκης Αναστάσιος
  15. 15. Προσεγγιστικό διάγραμμα μετρικής perplexity βάσει του αριθμού θεματικών με χρήση 5-fold cross validation Επιλογή αριθμού θεματικών προς εκπαίδευση 15Mάρτιος 2018 Λουτρούκης Αναστάσιος
  16. 16. Πακέτο ldatuning στη γλώσσα προγραμματισμού R  Συνδυασμός πολλαπλών μετρικών της βιβλιογραφίας και γρήγορος τρόπος αξιολόγησης Επιλογή αριθμού θεματικών προς εκπαίδευση 16 Μετρικές Juan Cao ArunGriffiths Μεγιστοποίηση Ελαχιστοποίηση Ελαχιστοποίηση Xρήση μετρικών πυκνότητας για την εύρεση του βέλτιστου αριθμού θεματικών βάσει των αποστάσεων μεταξύ των εξαγόμενων θεματικών Υπολογισμός του αρμονικού μέσου της λογαριθμικής πιθανοφάνειας των δεδομένων εκπαίδευσης με βάση ένα σύνολο πέντε δειγμάτων που εξάγονται με τη μέθοδο Gibbs sampling Χρήση τεχνικών παραγοντοποίησης πινάκων στην αρχική συλλογή εγγράφων και αξιολόγηση της ποιότητας του διαχωρισμού σε όρους συμμετρικής KL-απόκκλισης Mάρτιος 2018 Λουτρούκης Αναστάσιος
  17. 17. Επιλογή αριθμού θεματικών με βάση το πακέτο ldatuning Επιλογή αριθμού θεματικών προς εκπαίδευση 17Mάρτιος 2018 Λουτρούκης Αναστάσιος
  18. 18. Παράδειγμα 150 θεματικές DISNEY-PIXAR- ANIMATION anim disney pixar talk children adventur funni cute comput cartoon MOVIE LIST “Tangled (2010)” “Ice Age (2002)” “Shrek 2 (2004)” “Toy Story 3 (2010)” “Aladdin (1992)” “Beauty and The Beast (1991)” “Toy Story 2 (1999)” “Kung Fu Panda (2008)” “How to Train Your Dragon (2010)” “Inside Out (2015)” “Big Hero 6 (2014)” “Monsters Inc (2001)” “The Lion King (1994)” “Ratatouille (2007)” “The Incredibles (2004)” “Finding Nemo (2003)” “Shrek (2001)” “Toy Story (1995)” “Up (2009)” “WALL∙E (2008)” Κατηγοριοποίηση ταινιών 18 Ταινίες θεματικήςLabelling θεματικής Mάρτιος 2018 Λουτρούκης Αναστάσιος
  19. 19.  Αναπαράσταση ενδιαφερόντων χρήστη με βάση τις διαθέσιμες λεκτικές περιγραφές του  Τυπική προεπεξεργασία περιγραφών που αφορούν τα ενδιαφέροντα του χρήστη  Τελική αναπαράσταση του χρήστη με ένα μοντέλο bag of words που συνοψίζει τη κυρίαρχη περιοχή ενδιαφέροντος του Μοντελοποίηση χρήστη 19  Χρήση μεθόδου posterior() του πακέτου topicmodels για πιθανοτική αντιστοίχιση χρηστών στις εξαγόμενες θεματικές  Στόχος: Η εύρεση των θεματικών των προϊόντων που βρίσκονται κοντινότερα στο μοντέλo bag of words που αναπαριστά το χρήστη και η εξαγωγή των κυρίαρχων θεματικών Mάρτιος 2018 Λουτρούκης Αναστάσιος
  20. 20. ETIKETEΣ ΘΕΜΑΤΙΚΩΝ WORLD WAR MARVEL-ROBERT DOWNEY JR TRUE STORY-BIOGRAPHY COMIC BOOK-SUPERHERO BOOK ADAPTION-NOVEL Μοντελοποίηση χρήστη 20 Ενδεικτικό wordcloud χρήστη Εξαγόμενες κατηγορίες ταινιών Mάρτιος 2018 Λουτρούκης Αναστάσιος
  21. 21.  Σε τι βαθμό οι ταινίες που προτείνονται με βάση τη θεματική αναπαράσταση των χρηστών προσεγγίζουν τις πραγματικές επιλογές τους Μετρικές αξιολόγησης Αξιολόγηση μοντέλου 21Mάρτιος 2018 Λουτρούκης Αναστάσιος 𝑷𝒓𝒆𝒄𝒊𝒔𝒊𝒐𝒏 = 𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔 𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔 𝑹𝒆𝒄𝒂𝒍𝒍 = 𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒓𝒆𝒄𝒐𝒎𝒎𝒆𝒏𝒅𝒂𝒕𝒊𝒐𝒏𝒔 𝑵𝒖𝒎𝒃𝒆𝒓 𝒐𝒇 𝒕𝒐𝒕𝒂𝒍 𝒓𝒆𝒍𝒆𝒗𝒂𝒏𝒕 𝒑𝒓𝒐𝒅𝒖𝒄𝒕𝒔
  22. 22. Aποτελέσματα Αριθμός θεματικών Recall Precision 100 23,17% 10,16% 125 23,36% 10,19% 150 23,66% 10,36% 175 23,56% 10,24% 200 23,9% 10,41% Αριθμός θεματικών Recall Precision 100 33,61% 7,9% 125 33,96% 7,97% 150 34,62% 8,16% 175 34,45% 8,08% 200 35,1% 8,25% Αξιολόγηση μοντέλου 22 10 θεματικές ανά χρήστη 5 θεματικές ανά χρήστη Mάρτιος 2018 Λουτρούκης Αναστάσιος
  23. 23.  Εξαγωγή διακριτών κατηγοριών των αντικειμένων με κριτήριο το θεματικό τους περιεχόμενο  Αποτελεσματική θεματική ομαδοποίηση των αντικειμένων  Εντοπισμός βασικής περιοχής ενδιαφέροντος κάθε χρήστη και θεματική του ταξινόμηση  Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τα αντικείμενα του συστήματος:  Ύπαρξη στοιχείου υποκειμενικότητας στα reviews χρηστών  Απαιτούνται πρόσθετες περιγραφές από domain experts  Αξιοποίηση πρόσθετων πληροφοριών σχετικά με τους χρήστες:  Ιστορικό αγορών  Αξιολογήσεις προϊόντων  Συνδυασμός με άλλες μεθόδους (collaborative filtering) <Μήνας> <Χρονιά> <Τίτλος εργασίας> Συμπεράσματα – Ανοιχτά θέματα 23 Βελτιώσεις Mάρτιος 2018 Λουτρούκης Αναστάσιος
  24. 24. Θα ήθελα να ευχαριστήσω τους επιβλέποντες της διπλωματικής μου εργασίας Επίκουρο καθηγητή κ. Ανδρέα Συμεωνίδη και τον μεταδιδακτορικό ερευνητή κ. Κωνσταντίνο Βαβλιάκη για τη βοήθεια και τη καθοδήγηση που μου προσέφεραν Ευχαριστίες 24Mάρτιος 2018 Λουτρούκης Αναστάσιος
  25. 25. 25 Ευχαριστώ για τη προσοχή σας

×