Successfully reported this slideshow.

Apache Lucene Informacijos paieška

0

Share

Upcoming SlideShare
Vaikų žaidimo aikštelės
Vaikų žaidimo aikštelės
Loading in …3
×
1 of 27
1 of 27

Apache Lucene Informacijos paieška

0

Share

Download to read offline

Description

Lucene Informacijos paieška

Transcript

  1. 1. Informacijos paieška Trumpas įvadas į Apache Lucene Mindaugas Žakšauskas Vilnius Kaunas Java User Group
  2. 2. assert this != null
  3. 3. Kalbėsiu apie ● Probleminę sritį ● Informacijos paieškos teoriją ● Lucene ● Solr (jei liks laiko) ● ?
  4. 4. Who are we?
  5. 5. http://nlp.stanford.edu/IR-book/
  6. 6. Sukaposiu gabalais (tokenization) Dokumentas #1: "The quick brown fox jumps over the lazy dog.” Word the quick brown fox Documents 1 1 1 1 Offsets 1[0] 1[4] 1[10] 1[16]
  7. 7. Sukaposiu gabalais (tokenization) #2 Dokumentas #2: "I saw a brown fox yesterday. It ran away quickly.” Word the quick brown fox Documents 1 1 1, 2 1, 2 Offsets 1[0] 1[4] 1[10], 2[8] 1[16], 2[13]
  8. 8. Stopwords Anglų: - artikeliai a, the Lietuvių: - prielinksniai: į, nuo - ištiktukai: oi! - ?
  9. 9. Quick| ⇒ quick quick|ly ⇒ quick Stemming, lowercasing
  10. 10. Apache Lucene ● ACID (+2 phase commit) ● NoSQL (rimtai!) ● Concurrency ● Java (.NET, Python, Ruby) ● Bendruomenė ● Plačiai naudojama
  11. 11. Ne caro laikų Lucene! Indeksavimo greitis, Lucene v4
  12. 12. Sinonimai ● Vanduo - H2 O ● Reikia spec. žodyno (SynonymMap) quick brown fox ⇒ "quick", "fast", "brown", "fox"
  13. 13. Fonetinis kodavimas http://en.wikipedia.org/wiki/Metaphone 0BFHJKLMNPRSTWXY Stephen Smith ⇒STFN SM0
  14. 14. Boosting (indexing, query)
  15. 15. Užklausos ● field: foo bar ● field: +foo -bar ● field: “foo bar” ● field: +“foo bar” AND blah ● field: f?o bar* ● field: foo~ bar~0.8 ● date_field: [2000 TO 2001] ● field: (foo AND bar) OR bob http://searchhub.org/dev/2011/12/28/why-not-and-or-and-not/
  16. 16. Rezultatų formulė org.apache.lucene.search.similarities.TFIDFSimilarity
  17. 17. Finite state transducer mop, moth, pop, star, stop, top 10 million Wikipedia index - 69Mb

Description

Lucene Informacijos paieška

Transcript

  1. 1. Informacijos paieška Trumpas įvadas į Apache Lucene Mindaugas Žakšauskas Vilnius Kaunas Java User Group
  2. 2. assert this != null
  3. 3. Kalbėsiu apie ● Probleminę sritį ● Informacijos paieškos teoriją ● Lucene ● Solr (jei liks laiko) ● ?
  4. 4. Who are we?
  5. 5. http://nlp.stanford.edu/IR-book/
  6. 6. Sukaposiu gabalais (tokenization) Dokumentas #1: "The quick brown fox jumps over the lazy dog.” Word the quick brown fox Documents 1 1 1 1 Offsets 1[0] 1[4] 1[10] 1[16]
  7. 7. Sukaposiu gabalais (tokenization) #2 Dokumentas #2: "I saw a brown fox yesterday. It ran away quickly.” Word the quick brown fox Documents 1 1 1, 2 1, 2 Offsets 1[0] 1[4] 1[10], 2[8] 1[16], 2[13]
  8. 8. Stopwords Anglų: - artikeliai a, the Lietuvių: - prielinksniai: į, nuo - ištiktukai: oi! - ?
  9. 9. Quick| ⇒ quick quick|ly ⇒ quick Stemming, lowercasing
  10. 10. Apache Lucene ● ACID (+2 phase commit) ● NoSQL (rimtai!) ● Concurrency ● Java (.NET, Python, Ruby) ● Bendruomenė ● Plačiai naudojama
  11. 11. Ne caro laikų Lucene! Indeksavimo greitis, Lucene v4
  12. 12. Sinonimai ● Vanduo - H2 O ● Reikia spec. žodyno (SynonymMap) quick brown fox ⇒ "quick", "fast", "brown", "fox"
  13. 13. Fonetinis kodavimas http://en.wikipedia.org/wiki/Metaphone 0BFHJKLMNPRSTWXY Stephen Smith ⇒STFN SM0
  14. 14. Boosting (indexing, query)
  15. 15. Užklausos ● field: foo bar ● field: +foo -bar ● field: “foo bar” ● field: +“foo bar” AND blah ● field: f?o bar* ● field: foo~ bar~0.8 ● date_field: [2000 TO 2001] ● field: (foo AND bar) OR bob http://searchhub.org/dev/2011/12/28/why-not-and-or-and-not/
  16. 16. Rezultatų formulė org.apache.lucene.search.similarities.TFIDFSimilarity
  17. 17. Finite state transducer mop, moth, pop, star, stop, top 10 million Wikipedia index - 69Mb

More Related Content

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all

×