Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Αναζήτηση μηνυμάτων κοινωνικών μέσων
σχετικών με γεγονότα με χρήση τεχνικών
ανάκτησης πληροφορίας
Εκπόνηση Εργασίας : Γεώρ...
 Social media – Ενημέρωση
 Twitter
• Μηνύματα 140 χαρακτήρων
• 310 εκατομμύρια χρήστες καθημερινά
• 500 εκατομμύρια twee...
Μεθοδολογία
3
4
Web Scraping
5
Web Scraping
6
Δενδροειδής αναπαράσταση HTML κώδικα
Web Scraping
7
Παράδειγμα HTML κώδικα μιας είδησης
Web Scraping
8
Παράδειγμα Document μιας είδησης στην ΒΔ
9
Named Entities
Stanford NER
Εξαγωγή χρήσιμων όρων
10
Proper Nouns
arktweetnlp
Εξαγωγή χρήσιμων όρων
11
Adjective - Noun
Stanford POS Tagger
Εξαγωγή χρήσιμων όρων
12
Noun Sequences
Stanford POS Tagger
13
Εξαγωγή χρήσιμων όρων
Nouns
Stanford POS Tagger
14
Εξαγωγή χρήσιμων όρων
Noun Phrases
OenNLPTagger
15
Εξαγωγή χρήσιμων όρων
Keywords
Jsoup
16
Εξαγωγή χρήσιμων όρων
17
Παράδειγμα Document είδησης με τους εξαχθέντες όρους
Εξαγωγή χρήσιμων όρων
18
Σχηματισμός queries
Three Spanish journalists were released after being abducted around Aleppo, Syria, and
held hostage by...
20
• Twitter REST API – Java Library Twitter4j
• Tweets έως 7 ημερών
• Όριο 450 requests / 15min
• Paging
• No Retweets
• Lan...
22
• Apache Lucene 5.5.0
• Inverted index
Indexing
23
24
25
Information Retrieval
• Αναπαράσταση κειμένου ως διάνυσμα
• Κάθε διάσταση είναι το tf-idf μιας λέξης
• Tf – Term Frequency
• Idf – Inverse Docum...
• Default Scoring Formula
𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑐𝑜𝑜𝑟𝑑 𝑞, 𝑑 ∗ 𝑞𝑢𝑒𝑟𝑦𝑁𝑜𝑟𝑚 𝑞 ∗ 𝑡 𝑖𝑛 𝑞(𝑡𝑓 𝑡 𝑖𝑛 𝑑 ∗ 𝑖𝑑𝑓 𝑡 2
∗ 𝑡. 𝑔𝑒𝑡𝑏𝑜𝑜𝑠𝑡 ∗ 𝑛𝑜𝑟𝑚(𝑡, 𝑑))
•...
Λογική Γλωσσικών μοντέλων
• Έστω ένα έγγραφο D και ένα Λεξικό Σ
• Υπολογισμός πιθανότητας εμφάνισης κάθε λέξης του Λεξικού...
Ποιος είναι ο σκοπός του PRF;
• Επέκταση ερωτήματος με νέους όρους
Διαδικασία:
• 1ο Στάδιο IR – συλλογής εγγράφων
• Επιλέγ...
Λογική Σχεσιακών μοντέλων
• Πιθανότητα εμφάνισης της λέξης w βάσει του συνόλου σχετικότητας R
𝑃(𝑤|𝑅) ∝
𝑑∈𝐶
𝑃 𝑑 ∙ 𝑃 𝑤 𝑑 ∙
𝑖...
• Αναζήτηση στο index με τα ίδια queries
• Το ίδιο tweet επιστρέφει με πολλά queries
• Ταξινόμηση tweets με βάση 3 μεθόδου...
******* TFIDF BM25
Είδηση Averag
e
Maxscore Sum Average Maxscore Sum
1 0.95 0.95 1 1 1 1
2 0.75 0.90 1 0.90 0.95 1
3 1 1 1...
# Tweet Relevant
1 travelling to Taif, Saudi Arabia No
2 Trophee Hassan Policeman Killed in Shootout With Militants Yes
3 ...
Επιλογή σχετικότερων tweets
Δεδομένα :
- AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη
- Ν: Πλήθος Φιλτραρισμένω...
# Tweet Relevant
1 travelling to Taif, Saudi Arabia No
2 Trophee Hassan Policeman Killed in Shootout With Militants Yes
3 ...
******** TFIDF BM25
Είδηση Average Maxscore Sum Average Maxscore Sum
1 0.95 0.95 1 1 1 0.95
2 0.65 0.70 0.95 0.65 0.70 1
3...
Επιλογή σχετικότερων tweets
Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia.
TFIDF, MAXSCO...
Επιλογή σχετικότερων tweets
******* TFIDF BM25
Είδηση Average Maxscore Sum Average Maxscore Sum
1 0.85 1 1 0.80 1 1
2 0.35...
• Original query : concatenated query
• 1ο Στάδιο IR
• 20 πιο σχετικά tweets για το original query (Default LMD, Sum)
• Ps...
40
Concatenated Query Expanded Query
Term Weight Term Weight
saudi 0.9 says 0.009090912
arabia 0.9 shootout 0.14675325
sho...
41
Επιλογή σχετικότερων tweets (LMD & PRF)
Tag cloud των όρων του expanded query
42
# Tweet Relevant
1 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a
policeman was killed in a sho...
43
******** 06/05/2016 08/05/2016
Είδηση LMD LMD + PRF LMD LMD + PRF
1 0.8 0.6 0.85 1
2 0.1 0.1 0.4 0.7
3 0.45 0.8 0.35 0....
44
45
Query quality metrics
 Υπολογισμός μιας σειράς μετρικών πρόβλεψης ποιότητας
ερωτημάτων
 Κίνητρο:
Εκτίμηση ποιότητας τ...
Query quality metrics
• Query Length
• IDF – based features
𝐼𝐷𝐹𝑤 =
𝑙𝑜𝑔2
𝑁+0,5
𝑁 𝑤
𝑙𝑜𝑔2(𝑁+1)
• Άθροισμα, τυπική απόκλιση, μ...
Query quality metrics
• Query Scope (QS)
𝑄𝑆 = −𝑙𝑜𝑔
𝑛 𝑄
𝑁
• Similarity Collection/Query-based features (SCQ)
𝑆𝐶𝑄 𝑤 = 1 + 𝑙𝑛...
Query Precision (p@10)
«cairo» AND «state» 0.8
«attack» AND «state» 0.2
«gunmen» AND «attack» 0.4
«arabia» AND «saudi» 0
«...
• Συντελεστής συσχέτισης Kendall τ
• Έστω (x1,y1), (x2,y2),…, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων
μεταβλητών X και...
SCQarmean - Precision 0.17457525051569356
SCQgeomean - Precision 0.14595635698853068
SCQharmean - Precision 0.151680135693...
Query quality metrics
6.00
6.50
7.00
7.50
8.00
8.50
9.00
9.50
10.00
10.50
11.00
0.0 0.2 0.4 0.6 0.8 1.0 1.2
ICTFmax
Precis...
Ευχαριστώ για την προσοχή σας!
52
Upcoming SlideShare
Loading in …5
×

Ζησόπουλος Γεώργιος 6647

84 views

Published on

Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας

Published in: Software
  • Be the first to comment

  • Be the first to like this

Ζησόπουλος Γεώργιος 6647

  1. 1. Αναζήτηση μηνυμάτων κοινωνικών μέσων σχετικών με γεγονότα με χρήση τεχνικών ανάκτησης πληροφορίας Εκπόνηση Εργασίας : Γεώργιος Ζησόπουλος 6647 Επιβλέπων Καθηγητής : Περικλής Α. Μήτκας ΑΡΙΣΤΟΤΕΛΕΙΟ ΠΑΝΕΠΙΣΤΗΜΙΟ ΘΕΣΣΑΛΟΝΙΚΗΣ ΠΟΛΥΤΕΧΝΙΚΗ ΣΧΟΛΗ Τμήμα Ηλεκτρολόγων Μηχανικών και Μηχανικών Υπολογιστών Τομέας Ηλεκτρονικής και Υπολογιστών Εργαστήριο Επεξεργασίας Πληροφορίας και Υπολογισμών
  2. 2.  Social media – Ενημέρωση  Twitter • Μηνύματα 140 χαρακτήρων • 310 εκατομμύρια χρήστες καθημερινά • 500 εκατομμύρια tweets την μέρα • Μέσα στα Top10 sites παγκοσμίως  Στόχος : Συγκέντρωση σχετικής και μη επαναλαμβανόμενης πληροφορίας για μια λίστα ειδήσεων Εισαγωγή – Στόχος της εργασίας 2
  3. 3. Μεθοδολογία 3
  4. 4. 4
  5. 5. Web Scraping 5
  6. 6. Web Scraping 6 Δενδροειδής αναπαράσταση HTML κώδικα
  7. 7. Web Scraping 7 Παράδειγμα HTML κώδικα μιας είδησης
  8. 8. Web Scraping 8 Παράδειγμα Document μιας είδησης στην ΒΔ
  9. 9. 9
  10. 10. Named Entities Stanford NER Εξαγωγή χρήσιμων όρων 10
  11. 11. Proper Nouns arktweetnlp Εξαγωγή χρήσιμων όρων 11
  12. 12. Adjective - Noun Stanford POS Tagger Εξαγωγή χρήσιμων όρων 12
  13. 13. Noun Sequences Stanford POS Tagger 13 Εξαγωγή χρήσιμων όρων
  14. 14. Nouns Stanford POS Tagger 14 Εξαγωγή χρήσιμων όρων
  15. 15. Noun Phrases OenNLPTagger 15 Εξαγωγή χρήσιμων όρων
  16. 16. Keywords Jsoup 16 Εξαγωγή χρήσιμων όρων
  17. 17. 17 Παράδειγμα Document είδησης με τους εξαχθέντες όρους Εξαγωγή χρήσιμων όρων
  18. 18. 18
  19. 19. Σχηματισμός queries Three Spanish journalists were released after being abducted around Aleppo, Syria, and held hostage by the Al-Nusra Front since 13 July 2015. …………… "july" AND "abducted" "spanish journalists" AND "aleppo" "july" AND "al-nusra" "spanish journalists" AND "abducted" "july" AND "front" "spanish journalists" AND "al-nusra" "journalists" AND "aleppo" "aleppo" AND "13 july" "journalists" AND "13 july" "aleppo" AND "abducted" "journalists" AND "al-nusra" "abducted" AND "al-nusra" "aleppo syria" AND "spanish journalists" "abducted" AND "front" "aleppo syria" AND "abducted" "abducted" AND "13 july" …………… 19 Ενδεικτικά Queries μιας είδησης  “term1” AND “term1”  “term1 term2 term3” AND “term1”
  20. 20. 20
  21. 21. • Twitter REST API – Java Library Twitter4j • Tweets έως 7 ημερών • Όριο 450 requests / 15min • Paging • No Retweets • Language : English Συλλογή Tweets 21 News Date # News Average Queries/News Average Tweets/News DB Size 06/05/2016 12 464,7 60328 444.98 MB 08/05/2016 11 101,5 7368 55.92 MB
  22. 22. 22
  23. 23. • Apache Lucene 5.5.0 • Inverted index Indexing 23
  24. 24. 24
  25. 25. 25 Information Retrieval
  26. 26. • Αναπαράσταση κειμένου ως διάνυσμα • Κάθε διάσταση είναι το tf-idf μιας λέξης • Tf – Term Frequency • Idf – Inverse Document Frequency • Έστω 2 έγγραφα d1 = “w1 w2 w3” και d2 = “w2 w5 w6” • 𝑉 𝑑1 και 𝑉 𝑑2 τα διανύσματά τους • Cosine Similarity 𝑐𝑜𝑠𝑖𝑛𝑒 𝑠𝑖𝑚 𝑑1, 𝑑2 = 𝑉 𝑑1 ∙ 𝑉 𝑑2 𝑉 𝑑1 ∙ 𝑉 𝑑2 Vector Space Model 26
  27. 27. • Default Scoring Formula 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑐𝑜𝑜𝑟𝑑 𝑞, 𝑑 ∗ 𝑞𝑢𝑒𝑟𝑦𝑁𝑜𝑟𝑚 𝑞 ∗ 𝑡 𝑖𝑛 𝑞(𝑡𝑓 𝑡 𝑖𝑛 𝑑 ∗ 𝑖𝑑𝑓 𝑡 2 ∗ 𝑡. 𝑔𝑒𝑡𝑏𝑜𝑜𝑠𝑡 ∗ 𝑛𝑜𝑟𝑚(𝑡, 𝑑)) • Κλάσεις βαθμολόγησης TFIDFSimiliarity tf(t in d) = frequency½ idf(t) = 1 + log( 𝑛𝑢𝑚𝐷𝑜𝑐𝑠 𝑑𝑜𝑐𝐹𝑟𝑒𝑞+1 ) BM25Similarity 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑖=1 𝑛 𝑖𝑑𝑓 𝑞𝑖 ∗ 𝑡𝑓 𝑞 𝑖 ∗(𝑘1+1) 𝑡𝑓 𝑞 𝑖 +𝑘1(1−𝑏+𝑏 |𝐷| 𝑎𝑣𝑔𝑑𝑙 ) 𝑡𝑓 𝑞𝑖 = frequency½ 𝑖𝑑𝑓 𝑞𝑖 = log 𝑛𝑢𝑚𝐷𝑜𝑐𝑠−𝑛 𝑞 𝑖 +0.5 𝑛 𝑞 𝑖 +0.5 27 Lucene Scoring
  28. 28. Λογική Γλωσσικών μοντέλων • Έστω ένα έγγραφο D και ένα Λεξικό Σ • Υπολογισμός πιθανότητας εμφάνισης κάθε λέξης του Λεξικού Σ με βάση το έγγραφο D • Πρέπει να ισχύει η σχέση 𝑠∈Σ 𝑃(𝑠) = 1 • Δεν υπάρχουν όλες οι λέξεις στο έγγραφο D => Smoothing Μοντέλα • Query likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑞|𝛩 𝑑) • Document likelihood model 𝑠𝑐𝑜𝑟𝑒 𝑞, 𝑑 = 𝑃(𝑑|𝛩𝑞) 28 Language models
  29. 29. Ποιος είναι ο σκοπός του PRF; • Επέκταση ερωτήματος με νέους όρους Διαδικασία: • 1ο Στάδιο IR – συλλογής εγγράφων • Επιλέγονται τα Ν πρώτα • Αυτά αποτελούν το (Pseudo) Relevance Set • Αξιοποίηση του (Pseudo) Relevance Set και εξαγωγή νέων όρων • Η διαδικασία αυτή ονομάζεται (Pseudo) Relevance Feedback 29 Pseudo-Relevance Feedback
  30. 30. Λογική Σχεσιακών μοντέλων • Πιθανότητα εμφάνισης της λέξης w βάσει του συνόλου σχετικότητας R 𝑃(𝑤|𝑅) ∝ 𝑑∈𝐶 𝑃 𝑑 ∙ 𝑃 𝑤 𝑑 ∙ 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 • Η P(d) θεωρείται ομοιόμορφη • Το γινόμενο 𝑖=1 𝑛 𝑃 𝑞𝑖 𝑑 υπολογίζει την πιθανότητα ερωτήματος • Αρκεί η εκτίμηση της πιθανότητας 𝑃 𝑤 𝑑 να εμφανιστεί η λέξη w με βάση τους όρους του εγγράφου d RM3: Για την επιλογή των νέων όρων του expanded query, γίνεται γραμμική παρεμβολή με τους όρους του original query • 𝑃 𝑤 𝑞′ = 1 − 𝜆 ∙ 𝑃 𝑤 𝑞 + 𝜆 ∙ 𝑃 𝑤 𝑅 30 Relevance Models
  31. 31. • Αναζήτηση στο index με τα ίδια queries • Το ίδιο tweet επιστρέφει με πολλά queries • Ταξινόμηση tweets με βάση 3 μεθόδους - Average 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) 𝑁 - Maxscore 𝑠𝑐𝑜𝑟𝑒 = max 𝑠𝑐𝑜𝑟𝑒 1 … 𝑠𝑐𝑜𝑟𝑒 𝑁 - Sum 𝑠𝑐𝑜𝑟𝑒 = 𝑖=1 𝑁 𝑠𝑐𝑜𝑟𝑒(𝑖) Επιλογή σχετικότερων tweets 31
  32. 32. ******* TFIDF BM25 Είδηση Averag e Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 1 2 0.75 0.90 1 0.90 0.95 1 3 1 1 1 1 1 1 4 0.95 0.90 1 1 1 1 5 0.85 1 1 0.90 1 1 6 1 1 1 1 1 1 7 0.60 1 1 0.95 1 1 8 0.20 0.20 0.45 0.25 0.30 0.60 9 1 1 1 1 1 1 10 1 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.764 0.824 0.868 0.827 0.850 0.882 Επιλογή σχετικότερων tweets 32
  33. 33. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/p2cY4KWocm Yes 4 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout wit... https://t.co/BxP885EDBQ Yes 5 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with… https://t.co/lB1ePd2lcv Yes 6 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 7 Saudi Policeman Killed in Shootout With Militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iM6gzcyTGS Yes 8 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 9 #Rainbow over #Taif, #Saudi, the weather! No 10 Saudi Arabia says a policeman was killed in a shootout with militants in the western city of Taif Yes Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE 33
  34. 34. Επιλογή σχετικότερων tweets Δεδομένα : - AllTweets: Πίνακας όλων των tweets σε φθίνουσα κατάταξη - Ν: Πλήθος Φιλτραρισμένων tweets - K: Δείκτης θέσης στον πίνακα AllTweets - Similar: Ομοιότητα με φιλτραρισμένα tweets Έξοδος : - FilTweets: Top 100 tweets χωρίς duplicates Αρχή: Ν = 1 Κ = 1 FilTweets[N] = AllTweets[K] Κάνε Κ = Κ+1 Similar = Ψευδές Για i από 1 μέχρι Ν Αν CosSim( AllTweets[K] , FilTweets[i] ) > 0,5 τότε Similar = Αληθές Έξοδος Τέλος_Αν Τέλος_Επανάληψης Αν Similar == Ψευδές τότε FilTweets[N]=AllTweets[K] Τέλος_Αν Όσο{Ν<100} Τέλος MMR Filtering 34
  35. 35. # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Trophee Hassan Policeman Killed in Shootout With Militants Yes 3 Saudi policeman killed in shootout with militants - Saudi Arabia says a policeman was killed in a shootout with... https://t.co/iORDNawewq Yes 4 #Rainbow over #Taif, #Saudi, the weather! No 5 RealTimeHack: Saudi policeman killed in shootout with militants https://t.co/14Oxnj0iOL #NLU Yes 6 Saudi policeman dies in shootout as ‘terror’ plot foiled: https://t.co/mNxJl68AG0 Yes 7 Saudi Policeman Killed in Shootout With Militants - New York Times: Saudi GazetteSaudi Policeman Killed in Sh... https://t.co/gJ9bfLJAod Yes 8 Just posted a photo @ Taif, Saudi Arabia https://t.co/rgIf4LpzSS No 9 Just posted a video @ Taif, Saudi Arabia https://t.co/MzHwHw997Q No 10 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF,MAXSCORE,MMR 35
  36. 36. ******** TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.95 0.95 1 1 1 0.95 2 0.65 0.70 0.95 0.65 0.70 1 3 1 0.85 0.95 1 1 0.95 4 1 0.90 0.95 0.90 0.95 0.90 5 0.55 0.95 0.95 0.85 1 0.95 6 1 1 1 1 1 1 7 1 1 1 1 0.95 1 8 0.15 0.25 0.40 0.20 0.25 0.50 9 1 1 1 1 1 1 10 0.95 1 1 1 1 1 11 0.10 0.10 0.10 0.10 0.10 0.10 Average Precision 0.759 0.791 0.845 0.791 0.814 0.850 Επιλογή σχετικότερων tweets 36
  37. 37. Επιλογή σχετικότερων tweets Είδηση A policeman is killed in a shootout with militants in Taif, Saudi Arabia. TFIDF, MAXSCORE, MMR, new index (απαλοιφή URL) # Tweet Relevant 1 travelling to Taif, Saudi Arabia No 2 Saudi Policeman Killed in Shootout With Militants Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled Yes 4 Just posted a photo @ Taif, Saudi Arabia No 5 My design The beautiful ?? @ Taif, Saudi Arabia No 6 More of downtown Taif, Saudi Arabia. #globaledambassador #diversity… No 7 #Rainbow over #Taif, #Saudi, the weather! No 8 Militants clash with Suadi police in Taif #SuadiArabia Yes 9 Saudi soldier killed in gun battle with militants in Taif Yes 10 Militants kill eight Egyptian policeman in Cairo suburb No 37
  38. 38. Επιλογή σχετικότερων tweets ******* TFIDF BM25 Είδηση Average Maxscore Sum Average Maxscore Sum 1 0.85 1 1 0.80 1 1 2 0.35 0.40 0.65 0.55 0.45 0.65 3 0.25 0.90 0.95 0.35 0.85 0.95 4 0.55 0.85 0.85 0.70 0.80 0.85 5 0.40 0.90 1 0.45 0.90 1 6 0.75 1 1 0.90 1 1 7 0.70 0.90 1 0.75 0.90 1 8 0.10 0.15 0.55 0.10 0.30 0.55 9 0.90 1 1 0.95 1 1 10 0.65 1 1 1 1 1 11 0.05 0.05 0.05 0.05 0.05 0.05 Average Precision 0.505 0.741 0.823 0.600 0.750 0.823 38
  39. 39. • Original query : concatenated query • 1ο Στάδιο IR • 20 πιο σχετικά tweets για το original query (Default LMD, Sum) • Pseudo Relevance set – P(w|R) • RM3 παρεμβολή • 2ο Στάδιο IR με το expanded query (Πρώτα 20 , MMR) 39 Εφαρμογή LMD + PRF
  40. 40. 40 Concatenated Query Expanded Query Term Weight Term Weight saudi 0.9 says 0.009090912 arabia 0.9 shootout 0.14675325 shootout 0.9 saudi 0.14675325 militants 0.9 taif 0.12857144 taif 0.9 militants 0.13766235 policeman 0.9 policeman 0.14675325 in 0.9 in 0.12857144 ********* ********* arabia 0.13766235 ********* ********* killed 0.018181823 Επιλογή σχετικότερων tweets (LMD & PRF)
  41. 41. 41 Επιλογή σχετικότερων tweets (LMD & PRF) Tag cloud των όρων του expanded query
  42. 42. 42 # Tweet Relevant 1 Saudi Policeman Killed in Shootout With Militants: Saudi Arabia says a policeman was killed in a shootout with militants in the weste... Yes 2 Saudi policeman killed in shootout with militants: They surrendered to the police after a combing operation w... Yes 3 Saudi policeman dies in shootout as ‘terror’ plot foiled: Yes 4 BACKGROUND At least 6 people died, including policeman, consequence of shootout between police and alleged drug traffickers in #Provid?ncia No 5 KSA : 1 Saudi policeman was killed near police station in Taif, 2 suspect are wanted. Yes 6 A Saudi corporal policeman has been killed in Taif. 2 suspects are currently searched. Yes 7 Saudi Arabia - Travel News - Soldier killed in gun battle with militants following foiled attack in Taif #SaudiArabia #Taif #travelawarenes Yes 8 #Saudi soldier killed in #shootout with militants - state news agency SPA #IslamicState #oil #OPEC #Yemen #Iran Yes 9 #KSA security forces involved in another shootout with suspected #IS militants inside kingdom. Yes 10 Saudi Arabia shootout leaves militant, officer dead, @Reuters said May 9. Yes Επιλογή σχετικότερων tweets (LMD & PRF)
  43. 43. 43 ******** 06/05/2016 08/05/2016 Είδηση LMD LMD + PRF LMD LMD + PRF 1 0.8 0.6 0.85 1 2 0.1 0.1 0.4 0.7 3 0.45 0.8 0.35 0.05 4 0.5 0.6 0.6 0.05 5 0.3 0.35 0.8 1 6 0.60 0.25 0.85 0.85 7 0.65 0.85 0.8 0.95 8 0.6 0.70 0.3 0.6 9 0.15 0.45 1 1 10 0.8 1 0.95 0.95 11 0.85 1 0.05 0.05 12 0.8 1 ************ ************ Average Precision 0.559 0.645 0.635 0.655 Επιλογή σχετικότερων tweets (LMD & PRF)
  44. 44. 44
  45. 45. 45 Query quality metrics  Υπολογισμός μιας σειράς μετρικών πρόβλεψης ποιότητας ερωτημάτων  Κίνητρο: Εκτίμηση ποιότητας των αποτελεσμάτων και επιλογή των καλύτερων ερωτημάτων για την αναζήτηση πληροφορίας
  46. 46. Query quality metrics • Query Length • IDF – based features 𝐼𝐷𝐹𝑤 = 𝑙𝑜𝑔2 𝑁+0,5 𝑁 𝑤 𝑙𝑜𝑔2(𝑁+1) • Άθροισμα, τυπική απόκλιση, μέγιστο/ελάχιστο , το μέγιστο, αριθμητικός μέσος, γεωμετρικός μέσος, αρμονικός μέσος και συντελεστής διακύμανσης (coefficient of variation) για όλες τις λέξεις που το αποτελούν. 46
  47. 47. Query quality metrics • Query Scope (QS) 𝑄𝑆 = −𝑙𝑜𝑔 𝑛 𝑄 𝑁 • Similarity Collection/Query-based features (SCQ) 𝑆𝐶𝑄 𝑤 = 1 + 𝑙𝑛 𝑛 𝑤 × 𝑙𝑛 1 + 𝑁 𝑁 𝑤 • Inverse Collection Term Frequency-based features (ICTF) 𝐼𝐶𝑇𝐹𝑤 = −𝑙𝑜𝑔2 𝑛 𝑤 𝑇 47
  48. 48. Query Precision (p@10) «cairo» AND «state» 0.8 «attack» AND «state» 0.2 «gunmen» AND «attack» 0.4 «arabia» AND «saudi» 0 «aleppo» AND «front» 0 «july» AND «front» 0 «syria» AND «front» 0 «officials» AND «taliban» 0.3 «afghan» AND «taliban» 0.3 «afghan» AND «officials» 0.2 «kilis» AND «turkish» 0.7 «town» AND «turkish border» 1 «55 islamic state» AND «turkish» 1 «collision» AND «buses» 1 «at least 73 people» AND «tanker» 1 «people» AND «buses» 0 Query quality metrics Επιλογή τυχαίων queries 48
  49. 49. • Συντελεστής συσχέτισης Kendall τ • Έστω (x1,y1), (x2,y2),…, (xn,yn) ένα σύνολο παρατηρήσεων των τυχαίων μεταβλητών X και Y αντίστοιχα • Ένα ζεύγος παρατηρήσεων (xi,yi) και (xj,yj), όπου i ≠ j, θεωρείται σύμφωνο αν η κατάταξη και των 2 στοιχείων είναι όμοια: δηλαδή, όταν xi > xj και yi > yj ή xi < xj και yi < yj • Ασύμφωνο ονομάζεται όταν xi > xj και yi < yj ή xi < xj και yi > yj 𝜏 = 𝜋𝜆𝜂𝜃𝜊𝜍 𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 − 𝜋𝜆𝜂𝜃𝜊𝜍 𝛼𝜎ύ𝜇𝜑𝜔𝜈𝜔𝜈 𝜁𝜀𝜐𝛾ώ𝜈 𝑛 𝑛−1 /2 • Ο Kendall τB που χρησιμοποιείται στην εργασία, λαμβάνει μέριμνα και για τα ζεύγη που δεν είναι ούτε σύμφωνα ούτε ασύμφωνα 𝜏 𝐵 = 𝑛 𝑐 − 𝑛 𝑑 𝑛0 − 𝑛1 𝑛0 − 𝑛2 Query quality metrics 49
  50. 50. SCQarmean - Precision 0.17457525051569356 SCQgeomean - Precision 0.14595635698853068 SCQharmean - Precision 0.15168013569396327 SCQcovar - Precision 0.26615570980261477 ICTFsum - Precision 0.4035263987329966 ICTFstd - Precision 0.25470815239174965 ICTFmaxmin - Precision 0.30049838203521023 ICTFmax - Precision 0.36637935170417507 ICTFarmean - Precision 0.18602280792655873 ICTFgeomean - Precision 0.15740391439939583 ICTFharmean - Precision 0.16312769310482841 ICTFcovar - Precision 0.22608925886458675 QS - Precision 0.008585668058148864 Query quality metrics Μεταβλητές Kendall τΒ Size - Precision 0.37429560943820916 IDFsum - Precision 0.39780262002756406 IDFstd - Precision 0.24898437368631707 IDFmaxmin - Precision 0.28905082462434506 IDFmax - Precision 0.38945836598475303 IDFarmean - Precision 0.20891792274828902 IDFgeomean - Precision 0.17457525051569356 IDFharmean - Precision 0.15168013569396327 IDFcovar - Precision 0.23181303757001934 SCQsum - Precision 0.3806312839112663 SCQstd - Precision 0.28905082462434506 SCQmaxmin - Precision 0.28905082462434506 SCQmax - Precision 0.3860549463918908 Συσχετίσεις query quality metrics με Precision 50
  51. 51. Query quality metrics 6.00 6.50 7.00 7.50 8.00 8.50 9.00 9.50 10.00 10.50 11.00 0.0 0.2 0.4 0.6 0.8 1.0 1.2 ICTFmax Precision@10 Διασπορά Precision - ICTFmax 0.20 0.25 0.30 0.35 0.40 0.45 0.0 0.2 0.4 0.6 0.8 1.0 1.2 IDFmax Precision@10 Διασπορά Precision - IDFmax 51
  52. 52. Ευχαριστώ για την προσοχή σας! 52

×