Informacijos
paieška
Trumpas įvadas į Apache Lucene
Mindaugas Žakšauskas
Vilnius Kaunas Java User Group
assert this != null
Kalbėsiu apie
● Probleminę sritį
● Informacijos paieškos teoriją
● Lucene
● Solr (jei liks laiko)
● ?
Who are we?
http://nlp.stanford.edu/IR-book/
Sukaposiu gabalais
(tokenization)
Dokumentas #1:
"The quick brown fox jumps over the lazy dog.”
Word the quick brown fox
D...
Sukaposiu gabalais
(tokenization) #2
Dokumentas #2:
"I saw a brown fox yesterday. It ran away quickly.”
Word the quick bro...
Stopwords
Anglų:
- artikeliai a, the
Lietuvių:
- prielinksniai: į, nuo
- ištiktukai: oi!
- ?
Quick| ⇒ quick
quick|ly ⇒ quick
Stemming, lowercasing
Apache Lucene
● ACID (+2 phase commit)
● NoSQL (rimtai!)
● Concurrency
● Java (.NET, Python, Ruby)
● Bendruomenė
● Plačiai...
Ne caro laikų Lucene!
Indeksavimo greitis, Lucene v4
Sinonimai
● Vanduo - H2
O
● Reikia spec. žodyno (SynonymMap)
quick brown fox ⇒
"quick", "fast", "brown", "fox"
Fonetinis kodavimas
http://en.wikipedia.org/wiki/Metaphone
0BFHJKLMNPRSTWXY
Stephen Smith ⇒STFN SM0
Boosting (indexing, query)
Užklausos
● field: foo bar
● field: +foo -bar
● field: “foo bar”
● field: +“foo bar” AND blah
● field: f?o bar*
● field: f...
Rezultatų formulė
org.apache.lucene.search.similarities.TFIDFSimilarity
Finite state transducer
mop, moth, pop, star, stop, top
10 million Wikipedia index - 69Mb
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Upcoming SlideShare
Loading in …5
×

Apache Lucene Informacijos paieška

422 views

Published on

Lucene Informacijos paieška

Published in: Software, Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
422
On SlideShare
0
From Embeds
0
Number of Embeds
4
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Apache Lucene Informacijos paieška

  1. 1. Informacijos paieška Trumpas įvadas į Apache Lucene Mindaugas Žakšauskas Vilnius Kaunas Java User Group
  2. 2. assert this != null
  3. 3. Kalbėsiu apie ● Probleminę sritį ● Informacijos paieškos teoriją ● Lucene ● Solr (jei liks laiko) ● ?
  4. 4. Who are we?
  5. 5. http://nlp.stanford.edu/IR-book/
  6. 6. Sukaposiu gabalais (tokenization) Dokumentas #1: "The quick brown fox jumps over the lazy dog.” Word the quick brown fox Documents 1 1 1 1 Offsets 1[0] 1[4] 1[10] 1[16]
  7. 7. Sukaposiu gabalais (tokenization) #2 Dokumentas #2: "I saw a brown fox yesterday. It ran away quickly.” Word the quick brown fox Documents 1 1 1, 2 1, 2 Offsets 1[0] 1[4] 1[10], 2[8] 1[16], 2[13]
  8. 8. Stopwords Anglų: - artikeliai a, the Lietuvių: - prielinksniai: į, nuo - ištiktukai: oi! - ?
  9. 9. Quick| ⇒ quick quick|ly ⇒ quick Stemming, lowercasing
  10. 10. Apache Lucene ● ACID (+2 phase commit) ● NoSQL (rimtai!) ● Concurrency ● Java (.NET, Python, Ruby) ● Bendruomenė ● Plačiai naudojama
  11. 11. Ne caro laikų Lucene! Indeksavimo greitis, Lucene v4
  12. 12. Sinonimai ● Vanduo - H2 O ● Reikia spec. žodyno (SynonymMap) quick brown fox ⇒ "quick", "fast", "brown", "fox"
  13. 13. Fonetinis kodavimas http://en.wikipedia.org/wiki/Metaphone 0BFHJKLMNPRSTWXY Stephen Smith ⇒STFN SM0
  14. 14. Boosting (indexing, query)
  15. 15. Užklausos ● field: foo bar ● field: +foo -bar ● field: “foo bar” ● field: +“foo bar” AND blah ● field: f?o bar* ● field: foo~ bar~0.8 ● date_field: [2000 TO 2001] ● field: (foo AND bar) OR bob http://searchhub.org/dev/2011/12/28/why-not-and-or-and-not/
  16. 16. Rezultatų formulė org.apache.lucene.search.similarities.TFIDFSimilarity
  17. 17. Finite state transducer mop, moth, pop, star, stop, top 10 million Wikipedia index - 69Mb

×