Successfully reported this slideshow.
Your SlideShare is downloading. ×

Ζησόπουλος Γεώργιος 6647

Ζησόπουλος Γεώργιος 6647

Download to read offline

Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας

Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας

More Related Content

More from ISSEL

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

Ζησόπουλος Γεώργιος 6647

  1. 1. Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας Εκπόνηση Εργασίας : Γεώργιος Ζησόπουλος 6647 Επιβλέπων Καθηγητής : Περικλής Α. Μήτκας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
  2. 2.  Social media – Ενημέρωση  Twitter • Μηνύματα 140 χαρακτήρων • 310 εκατομμύρια χρήστες καθημερινά • 500 εκατομμύρια tweets την μέρα • Μέσα στα Top10 sites παγκοσμίως  Στόχος : Συγκέντρωση σχετικής και μη επαναλαμβανόμενης πληροφορίας για μια λίστα ειδήσεων Εισαγωγή – Στόχος της εργασίας 2
  3. 3. Μεθοδολογία 3
  4. 4. 4
  5. 5. Web Scraping 5
  6. 6. Web Scraping 6 Δενδροειδής αναπαράσταση HTML κώδικα
  7. 7. Web Scraping 7 Παράδειγμα HTML κώδικα μιας είδησης
  8. 8. Web Scraping 8 Παράδειγμα Document μιας είδησης στην ΒΔ
  9. 9. 9
  10. 10. Named Entities Stanford NER Εξαγωγή χρήσιμων όρων 10
  11. 11. Proper Nouns arktweetnlp Εξαγωγή χρήσιμων όρων 11
  12. 12. Adjective - Noun Stanford POS Tagger Εξαγωγή χρήσιμων όρων 12
  13. 13. Noun Sequences Stanford POS Tagger 13 Εξαγωγή χρήσιμων όρων
  14. 14. Nouns Stanford POS Tagger 14 Εξαγωγή χρήσιμων όρων
  15. 15. Noun Phrases OenNLPTagger 15 Εξαγωγή χρήσιμων όρων
  16. 16. Keywords Jsoup 16 Εξαγωγή χρήσιμων όρων
  17. 17. 17 Παράδειγμα Document είδησης με τους εξαχθέντες όρους Εξαγωγή χρήσιμων όρων
  18. 18. 18
  19. 19. Σχηματισμός queries Three Spanish journalists were released after being abducted around Aleppo, Syria, and held hostage by the Al-Nusra Front since 13 July 2015. …………… "july" AND "abducted" "spanish journalists" AND "aleppo" "july" AND "al-nusra" "spanish journalists" AND "abducted" "july" AND "front" "spanish journalists" AND "al-nusra" "journalists" AND "aleppo" "aleppo" AND "13 july" "journalists" AND "13 july" "aleppo" AND "abducted" "journalists" AND "al-nusra" "abducted" AND "al-nusra" "aleppo syria" AND "spanish journalists" "abducted" AND "front" "aleppo syria" AND "abducted" "abducted" AND "13 july" …………… 19 Ενδεικτικά Queries μιας είδησης  “term1” AND “term1”  “term1 term2 term3” AND “term1”
  20. 20. 20
  21. 21. • Twitter REST API – Java Library Twitter4j • Tweets έως 7 ημερών • Όριο 450 requests / 15min • Paging • No Retweets • Language : English Συλλογή Tweets 21 News Date # News Average Queries/News Average Tweets/News DB Size 06/05/2016 12 464,7 60328 444.98 MB 08/05/2016 11 101,5 7368 55.92 MB
  22. 22. 22
  23. 23. • Apache Lucene 5.5.0 • Inverted index Indexing 23
  24. 24. 24
  25. 25. 25 Information Retrieval
  26. 26. • Αναπαράσταση κειμένου ως διάνυσμα • Κάθε διάσταση είναι το tf-idf μιας λέξης • Tf – Term Frequency • Idf – Inverse Document Frequency • Έστω 2 έγγραφα d1 = “w1 w2 w3” και d2 = “w2 w5 w6” • 𝑉 𝑑1 και 𝑉 𝑑2 τα διανύσματά τους • Cosine Similarity 𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚 𝑑1, 𝑑2 = 𝑉 𝑑1 ∙ 𝑉 𝑑2 𝑉 𝑑1 ∙ 𝑉 𝑑2 Vector Space Model 26
  27. 27. • Default Scoring Formula 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑐𝑜𝑜𝑟𝑑 𝑞, 𝑑 ∗ 𝑞𝑢𝑒𝑟𝑦𝑁𝑜𝑟𝑚 𝑞 ∗ 𝑡 𝑖𝑛 𝑞(𝑡𝑓 𝑡 𝑖𝑛 𝑑 ∗ 𝑖𝑑𝑓 𝑡 2 ∗ 𝑡. 𝑔𝑒𝑡𝑏𝑜𝑜𝑠𝑡 ∗ 𝑛𝑜𝑟𝑚(𝑡, 𝑑)) • Κλάσεις βαθμολόγησης TFIDFSimiliarity tf(t in d) = frequency½ idf(t) = 1 + log( 𝑛𝑢𝑚𝐷𝑜𝑐𝑠 𝑑𝑜𝑐𝐹𝑟𝑒𝑞+1 ) BM25Similarity 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑖=1 𝑛 𝑖𝑑𝑓 𝑞𝑖 ∗ 𝑡𝑓 𝑞 𝑖 ∗(𝑘1+1) 𝑡𝑓 𝑞 𝑖 +𝑘1(1−𝑏+𝑏 |𝐷| 𝑎𝑣𝑔𝑑𝑙 ) 𝑡𝑓 𝑞𝑖 = frequency½ 𝑖𝑑𝑓 𝑞𝑖 = log 𝑛𝑢𝑚𝐷𝑜𝑐𝑠−𝑛 𝑞 𝑖 +0.5 𝑛 𝑞 𝑖 +0.5 27 Lucene Scoring
  28. 28. Λογική Γλωσσικών μοντέλων • Έστω ένα έγγραφο D και ένα Λεξικό Σ • Υπολογισμός πιθανότητας εμφάνισης κάθε λέξης του Λεξικού Σ με βάση το έγγραφο D • Πρέπει να ισχύει η σχέση 𝑠∈Σ 𝑃(𝑠) = 1 • Δεν υπάρχουν όλες οι λέξεις στο έγγραφο D => Smoothing Μοντέλα • Query likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑞|𝛩 𝑑) • Document likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑑|𝛩𝑞) 28 Language models
  29. 29. Ποιος είναι ο σκοπός του PRF; • Επέκταση ερωτήματος με νέους όρους Διαδικασία: • 1ο Στάδιο IR – συλλογής εγγράφων • Επιλέγονται τα Ν πρώτα • Αυτά αποτελούν το (Pseudo) Relevance Set • Αξιοποίηση του (Pseudo) Relevance Set και εξαγωγή νέων όρων • Η διαδικασία αυτή ονομάζεται (Pseudo) Relevance Feedback 29 Pseudo-Relevance Feedback
  30. 30. Λογική Σχεσιακών μοντέλων • Πιθανότητα εμφάνισης της λέξης w βάσει του συνόλου σχετικότητας R 𝑃(𝑤|𝑅) ∝ 𝑑∈𝐶 𝑃 𝑑 ∙ 𝑃 𝑤 𝑑 ∙ 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 • Η P(d) θεωρείται ομοιόμορφη • Το γινόμενο 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 υπολογίζει την πιθανότητα ερωτήματος • Αρκεί η εκτίμηση της πιθανότητας 𝑃 𝑤 𝑑 να εμφανιστεί η λέξη w με βάση τους όρους του εγγράφου d RM3: Για την επιλογή των νέων όρων του expanded query, γίνεται γραμμική παρεμβολή με τους όρους του original query • 𝑃 𝑤 𝑞′ = 1 − 𝜆 ∙ 𝑃 𝑤 𝑞 + 𝜆 ∙ 𝑃 𝑤 𝑅 30 Relevance Models
  31. 31. • Αναζήτηση στο index με τα ίδια queries • Το ίδιο tweet επιστρέφει με πολλά queries • Ταξινόμηση tweets με βάση 3 μεθόδους - Average 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) 𝑁 - Maxscore 𝑠𝑐𝑜𝑟𝑒 = max 𝑠𝑐𝑜𝑟𝑒 1 … 𝑠𝑐𝑜𝑟𝑒 𝑁 - Sum 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) Επιλογή σχετικότερων tweets 31
  32. 32. ******* TFIDF BM25 Είδηση Averag e Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 1 2 0.75 0.90 1 0.90 0.95 1 3 1 1 1 1 1 1 4 0.95 0.90 1 1 1 1 5 0.85 1 1 0.90 1 1 6 1 1 1 1 1 1 7 0.60 1 1 0.95 1 1 8 0.20 0.20 0.45 0.25 0.30 0.60 9 1 1 1 1 1 1 10 1 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.764 0.824 0.868 0.827 0.850 0.882 Επιλογή σχετικότερων tweets 32
  33. 33. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/p2cY4KWocm Yes 4 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout wit... https://t.co/BxP885EDBQ Yes 5 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/lB1ePd2lcv Yes 6 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 7 Saudi Policeman Killed in Shootout With Militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iM6gzcyTGS Yes 8 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 9 #Rainbow over #Taif, #Saudi, the weather! No 10 Saudi Arabia says a policeman was killed in a shootout with militants in the western city of Taif Yes Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE 33
  34. 34. Επιλογή σχετικότερων tweets Δεδομένα : - AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη - Ν: Πλήθος Φιλτραρισμένων tweets - K: Δείκτης θέσης στον πίνακα AllTweets - Similar: Ομοιότητα με φιλτραρισμένα tweets Έξοδος : - FilTweets: Top 100 tweets χωρίς duplicates Αρχή: Ν = 1 Κ = 1 FilTweets[N] = AllTweets[K] Κάνε Κ = Κ+1 Similar = Ψευδές Για i από 1 μέχρι Ν Αν CosSim( AllTweets[K] , FilTweets[i] ) > 0,5 τότε Similar = Αληθές Έξοδος Τέλος_Αν Τέλος_Επανάληψης Αν Similar == Ψευδές τότε FilTweets[N]=AllTweets[K] Τέλος_Αν Όσο{Ν<100} Τέλος MMR Filtering 34
  35. 35. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 4 #Rainbow over #Taif, #Saudi, the weather! No 5 RealTimeHack: Saudi policeman killed in shootout with militants https://t.co/14Oxnj0iOL #NLU Yes 6 Saudi policeman dies in shootout as ‘terror’ plot foiled: https://t.co/mNxJl68AG0 Yes 7 Saudi Policeman Killed in Shootout With Militants - New York Times: Saudi GazetteSaudi Policeman Killed in Sh... https://t.co/gJ9bfLJAod Yes 8 Just posted a photo @ Taif, Saudi Arabia https://t.co/rgIf4LpzSS No 9 Just posted a video @ Taif, Saudi Arabia https://t.co/MzHwHw997Q No 10 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE,MMR 35
  36. 36. ******** TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 0.95 2 0.65 0.70 0.95 0.65 0.70 1 3 1 0.85 0.95 1 1 0.95 4 1 0.90 0.95 0.90 0.95 0.90 5 0.55 0.95 0.95 0.85 1 0.95 6 1 1 1 1 1 1 7 1 1 1 1 0.95 1 8 0.15 0.25 0.40 0.20 0.25 0.50 9 1 1 1 1 1 1 10 0.95 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.759 0.791 0.845 0.791 0.814 0.850 Επιλογή σχετικότερων tweets 36
  37. 37. Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF, MAXSCORE, MMR, new index (απαλοιφή URL) # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Saudi Policeman Killed in Shootout With Militants Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled Yes 4 Just posted a photo @ Taif, Saudi Arabia No 5 My design The beautiful ?? @ Taif, Saudi Arabia No 6 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No 7 #Rainbow over #Taif, #Saudi, the weather! No 8 Militants clash with Suadi police in Taif #SuadiArabia Yes 9 Saudi soldier killed in gun battle with militants in Taif Yes 10 Militants kill eight Egyptian policeman in Cairo suburb No 37
  38. 38. Επιλογή σχετικότερων tweets ******* TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.85 1 1 0.80 1 1 2 0.35 0.40 0.65 0.55 0.45 0.65 3 0.25 0.90 0.95 0.35 0.85 0.95 4 0.55 0.85 0.85 0.70 0.80 0.85 5 0.40 0.90 1 0.45 0.90 1 6 0.75 1 1 0.90 1 1 7 0.70 0.90 1 0.75 0.90 1 8 0.10 0.15 0.55 0.10 0.30 0.55 9 0.90 1 1 0.95 1 1 10 0.65 1 1 1 1 1 11 0.05 0.05 0.05 0.05 0.05 0.05 Average Precision 0.505 0.741 0.823 0.600 0.750 0.823 38
  39. 39. • Original query : concatenated query • 1ο Στάδιο IR • 20 πιο σχετικά tweets για το original query (Default LMD, Sum) • Pseudo Relevance set – P(w|R) • RM3 παρεμβολή • 2ο Στάδιο IR με το expanded query (Πρώτα 20 , MMR) 39 Εφαρμογή LMD + PRF
  40. 40. 40 Concatenated Query Expanded Query Term Weight Term Weight saudi 0.9 says 0.009090912 arabia 0.9 shootout 0.14675325 shootout 0.9 saudi 0.14675325 militants 0.9 taif 0.12857144 taif 0.9 militants 0.13766235 policeman 0.9 policeman 0.14675325 in 0.9 in 0.12857144 ********* ********* arabia 0.13766235 ********* ********* killed 0.018181823 Επιλογή σχετικότερων tweets (LMD & PRF)
  41. 41. 41 Επιλογή σχετικότερων tweets (LMD & PRF) Tag cloud των όρων του expanded query
  42. 42. 42 # Tweet Relevant 1 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 2 Saudi policeman killed in shootout with militants: They surrendered to the police after a combing operation w... Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled: Yes 4 BACKGROUND At least 6 people died, including policeman, consequence of shootout between police and alleged drug traffickers in #Provid?ncia No 5 KSA : 1 Saudi policeman was killed near police station in Taif, 2 suspect are wanted. Yes 6 A Saudi corporal policeman has been killed in Taif. 2 suspects are currently searched. Yes 7 Saudi Arabia - Travel News - Soldier killed in gun battle with militants following foiled attack in Taif #SaudiArabia #Taif #travelawarenes Yes 8 #Saudi soldier killed in #shootout with militants - state news agency SPA #IslamicState #oil #OPEC #Yemen #Iran Yes 9 #KSA security forces involved in another shootout with suspected #IS militants inside kingdom. Yes 10 Saudi Arabia shootout leaves militant, officer dead, @Reuters said May 9. Yes Επιλογή σχετικότερων tweets (LMD & PRF)
  43. 43. 43 ******** 06/05/2016 08/05/2016 Είδηση LMD LMD + PRF LMD LMD + PRF 1 0.8 0.6 0.85 1 2 0.1 0.1 0.4 0.7 3 0.45 0.8 0.35 0.05 4 0.5 0.6 0.6 0.05 5 0.3 0.35 0.8 1 6 0.60 0.25 0.85 0.85 7 0.65 0.85 0.8 0.95 8 0.6 0.70 0.3 0.6 9 0.15 0.45 1 1 10 0.8 1 0.95 0.95 11 0.85 1 0.05 0.05 12 0.8 1 ************ ************ Average Precision 0.559 0.645 0.635 0.655 Επιλογή σχετικότερων tweets (LMD & PRF)
  44. 44. 44
  45. 45. 45 Query quality metrics  Υπολογισμός μιας σειράς μετρικών πρόβλεψης ποιότητας ερωτημάτων  Κίνητρο: Εκτίμηση ποιότητας των αποτελεσμάτων και επιλογή των καλύτερων ερωτημάτων για την αναζήτηση πληροφορίας
  46. 46. Query quality metrics • Query Length • IDF – based features 𝐼𝐷𝐹𝑤 = 𝑙𝑜𝑔2 𝑁+0,5 𝑁 𝑤 𝑙𝑜𝑔2(𝑁+1) • Άθροισμα, τυπική απόκλιση, μέγιστο/ελάχιστο , το μέγιστο, αριθμητικός μέσος, γεωμετρικός μέσος, αρμονικός μέσος και συντελεστής διακύμανσης (coefficient of variation) για όλες τις λέξεις που το αποτελούν. 46
  47. 47. Query quality metrics • Query Scope (QS) 𝑄𝑆 = −𝑙𝑜𝑔 𝑛 𝑄 𝑁 • Similarity Collection/Query-based features (SCQ) 𝑆𝐶𝑄 𝑤 = 1 + 𝑙𝑛 𝑛 𝑤 × 𝑙𝑛 1 + 𝑁 𝑁 𝑤 • Inverse Collection Term Frequency-based features (ICTF) 𝐼𝐶𝑇𝐹𝑤 = −𝑙𝑜𝑔2 𝑛 𝑤 𝑇 47
  48. 48. Query Precision (p@10) «cairo» AND «state» 0.8 «attack» AND «state» 0.2 «gunmen» AND «attack» 0.4 «arabia» AND «saudi» 0 «aleppo» AND «front» 0 «july» AND «front» 0 «syria» AND «front» 0 «officials» AND «taliban» 0.3 «afghan» AND «taliban» 0.3 «afghan» AND «officials» 0.2 «kilis» AND «turkish» 0.7 «town» AND «turkish border» 1 «55 islamic state» AND «turkish» 1 «collision» AND «buses» 1 «at least 73 people» AND «tanker» 1 «people» AND «buses» 0 Query quality metrics Επιλογή τυχαίων queries 48
  49. 49. • Συντελεστής συσχέτισης Kendall τ • Έστω (x1,y1), (x2,y2),…, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων μεταβλητών X και Y αντίστοιχα • Ένα ζεύγος παρατηρήσεων (xi,yi) και (xj,yj), όπου i ≠ j, θεωρείται σύμφωνο αν η κατάταξη και των 2 στοιχείων είναι όμοια: δηλαδή, όταν xi > xj και yi > yj ή xi < xj και yi < yj • Ασύμφωνο ονομάζεται όταν xi > xj και yi < yj ή xi < xj και yi > yj 𝜏 = 𝜋𝜆𝜂𝜃𝜊𝜍 𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 − 𝜋𝜆𝜂𝜃𝜊𝜍 𝛼𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 𝑛 𝑛−1 /2 • Ο Kendall τB που χρησιμοποιείται στην εργασία, λαμβάνει μέριμνα και για τα ζεύγη που δεν είναι ούτε σύμφωνα ούτε ασύμφωνα 𝜏 𝐵 = 𝑛 𝑐 − 𝑛 𝑑 𝑛0 − 𝑛1 𝑛0 − 𝑛2 Query quality metrics 49
  50. 50. SCQarmean - Precision 0.17457525051569356 SCQgeomean - Precision 0.14595635698853068 SCQharmean - Precision 0.15168013569396327 SCQcovar - Precision 0.26615570980261477 ICTFsum - Precision 0.4035263987329966 ICTFstd - Precision 0.25470815239174965 ICTFmaxmin - Precision 0.30049838203521023 ICTFmax - Precision 0.36637935170417507 ICTFarmean - Precision 0.18602280792655873 ICTFgeomean - Precision 0.15740391439939583 ICTFharmean - Precision 0.16312769310482841 ICTFcovar - Precision 0.22608925886458675 QS - Precision 0.008585668058148864 Query quality metrics Μεταβλητές Kendall τΒ Size - Precision 0.37429560943820916 IDFsum - Precision 0.39780262002756406 IDFstd - Precision 0.24898437368631707 IDFmaxmin - Precision 0.28905082462434506 IDFmax - Precision 0.38945836598475303 IDFarmean - Precision 0.20891792274828902 IDFgeomean - Precision 0.17457525051569356 IDFharmean - Precision 0.15168013569396327 IDFcovar - Precision 0.23181303757001934 SCQsum - Precision 0.3806312839112663 SCQstd - Precision 0.28905082462434506 SCQmaxmin - Precision 0.28905082462434506 SCQmax - Precision 0.3860549463918908 Συσχετίσεις query quality metrics με Precision 50
  51. 51. Query quality metrics 6.00 6.50 7.00 7.50 8.00 8.50 9.00 9.50 10.00 10.50 11.00 0.0 0.2 0.4 0.6 0.8 1.0 1.2 ICTFmax Precision@10 Διασπορά Precision - ICTFmax 0.20 0.25 0.30 0.35 0.40 0.45 0.0 0.2 0.4 0.6 0.8 1.0 1.2 IDFmax Precision@10 Διασπορά Precision - IDFmax 51
  52. 52. Ευχαριστώ για την προσοχή σας! 52

Editor's Notes

  • +1 διαφανεια στατιστικα + κάποια μπουλετς
  • Να επανεμφανιζεται σ κάθε ενοτητα με μαρκαρισμενο το αναλογο κομματι
  • Να προσθεσω την εξισωση του BM25 και πιο αναλυτικα για κάθε μοντελο. Πως υπολογιζονται τα tf idf
  • Να πανε όλα τα θεωρητικα πριν τα αποτελεσματα
  • Average precision αντι για total average
  • Αυτή η διαφανεια να μπει στα αποτελεσματα
  • Άλλη μια διαφανεια που να εξηγει γιατι τα υπολογισαμε

×