Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Informacijos
paieška
Trumpas įvadas į Apache Lucene
Mindaugas Žakšauskas
Vilnius Kaunas Java User Group
assert this != null
Kalbėsiu apie
● Probleminę sritį
● Informacijos paieškos teoriją
● Lucene
● Solr (jei liks laiko)
● ?
Who are we?
http://nlp.stanford.edu/IR-book/
Sukaposiu gabalais
(tokenization)
Dokumentas #1:
"The quick brown fox jumps over the lazy dog.”
Word the quick brown fox
D...
Sukaposiu gabalais
(tokenization) #2
Dokumentas #2:
"I saw a brown fox yesterday. It ran away quickly.”
Word the quick bro...
Stopwords
Anglų:
- artikeliai a, the
Lietuvių:
- prielinksniai: į, nuo
- ištiktukai: oi!
- ?
Quick| ⇒ quick
quick|ly ⇒ quick
Stemming, lowercasing
Apache Lucene
● ACID (+2 phase commit)
● NoSQL (rimtai!)
● Concurrency
● Java (.NET, Python, Ruby)
● Bendruomenė
● Plačiai...
Ne caro laikų Lucene!
Indeksavimo greitis, Lucene v4
Sinonimai
● Vanduo - H2
O
● Reikia spec. žodyno (SynonymMap)
quick brown fox ⇒
"quick", "fast", "brown", "fox"
Fonetinis kodavimas
http://en.wikipedia.org/wiki/Metaphone
0BFHJKLMNPRSTWXY
Stephen Smith ⇒STFN SM0
Boosting (indexing, query)
Užklausos
● field: foo bar
● field: +foo -bar
● field: “foo bar”
● field: +“foo bar” AND blah
● field: f?o bar*
● field: f...
Rezultatų formulė
org.apache.lucene.search.similarities.TFIDFSimilarity
Finite state transducer
mop, moth, pop, star, stop, top
10 million Wikipedia index - 69Mb
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Apache Lucene Informacijos paieška
Upcoming SlideShare
Loading in …5
×

Apache Lucene Informacijos paieška

484 views

Published on

Lucene Informacijos paieška

Published in: Software, Technology
  • Be the first to comment

  • Be the first to like this

Apache Lucene Informacijos paieška

  1. 1. Informacijos paieška Trumpas įvadas į Apache Lucene Mindaugas Žakšauskas Vilnius Kaunas Java User Group
  2. 2. assert this != null
  3. 3. Kalbėsiu apie ● Probleminę sritį ● Informacijos paieškos teoriją ● Lucene ● Solr (jei liks laiko) ● ?
  4. 4. Who are we?
  5. 5. http://nlp.stanford.edu/IR-book/
  6. 6. Sukaposiu gabalais (tokenization) Dokumentas #1: "The quick brown fox jumps over the lazy dog.” Word the quick brown fox Documents 1 1 1 1 Offsets 1[0] 1[4] 1[10] 1[16]
  7. 7. Sukaposiu gabalais (tokenization) #2 Dokumentas #2: "I saw a brown fox yesterday. It ran away quickly.” Word the quick brown fox Documents 1 1 1, 2 1, 2 Offsets 1[0] 1[4] 1[10], 2[8] 1[16], 2[13]
  8. 8. Stopwords Anglų: - artikeliai a, the Lietuvių: - prielinksniai: į, nuo - ištiktukai: oi! - ?
  9. 9. Quick| ⇒ quick quick|ly ⇒ quick Stemming, lowercasing
  10. 10. Apache Lucene ● ACID (+2 phase commit) ● NoSQL (rimtai!) ● Concurrency ● Java (.NET, Python, Ruby) ● Bendruomenė ● Plačiai naudojama
  11. 11. Ne caro laikų Lucene! Indeksavimo greitis, Lucene v4
  12. 12. Sinonimai ● Vanduo - H2 O ● Reikia spec. žodyno (SynonymMap) quick brown fox ⇒ "quick", "fast", "brown", "fox"
  13. 13. Fonetinis kodavimas http://en.wikipedia.org/wiki/Metaphone 0BFHJKLMNPRSTWXY Stephen Smith ⇒STFN SM0
  14. 14. Boosting (indexing, query)
  15. 15. Užklausos ● field: foo bar ● field: +foo -bar ● field: “foo bar” ● field: +“foo bar” AND blah ● field: f?o bar* ● field: foo~ bar~0.8 ● date_field: [2000 TO 2001] ● field: (foo AND bar) OR bob http://searchhub.org/dev/2011/12/28/why-not-and-or-and-not/
  16. 16. Rezultatų formulė org.apache.lucene.search.similarities.TFIDFSimilarity
  17. 17. Finite state transducer mop, moth, pop, star, stop, top 10 million Wikipedia index - 69Mb

×