Oppgradert søk på      m.fl    Hans Jørgen Hoel    Jan Høydahl
Hans Jørgen Hoel
Jan Høydahl              1995: Utvikler telecom              1998: Java-utvikler              2000: Søk - FAST            ...
Virksomhetskritisk søk           Lucene/Solr og FAST       Domenekunnskap & beste praksis!Konsulent          Kurs         ...
Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
Bakgrunn for prosjektet  Stort antall artikler både på papir og nett  FAST ESP som plattform for søk fra 2006  Apache Solr...
Arkitektur før prosjektet
Søkemotor ABC Søk er ikke database   Optimalisert for fritekst søk   Men god på AND/OR søk             X Kommersielle: Ope...
Apache Solr
Open Source søk - etterspurt??
Prosjektet  Søke-mellomvare  Nytt presentasjonslag for søk  Utfordringer  FAST ut -- Solr inn  Optimalisering/tuning
Arkitektur før prosjektet
Etter overgang til Solr                          Multi                          cores
Utfordringer  FAST er en søke-plattform, Solr er rent søk  Prosessering av kildedata  Språkstøtte  Entiteter (personer, st...
FAST - Solr forskjellerEn indeks, delt inn           Flere indekser (cores), hvermed collections               med sitt eg...
Etter overgang til Solr                          Multi                          cores
Tuning for nyhetssøk  Hva er viktigste faktor for nyhets-søk?  Ferskvare !     umiddelbar indeksering     dato-boost i søk...
Funksjoner for de fleste behov...literal()      scale()    sin()     pi()fieldvalue()   query()    cos()     e()ord()     ...
Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur,...
Upcoming SlideShare
Loading in...5
×

Dagens Næringslivs overgang til Lucene/Solr søk

1,745

Published on

Foredrag på GoOpen, Oslo, 2011 (Norwegian language)

NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene?

Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Published in: Business
1 Comment
0 Likes
Statistics
Notes
  • We added an english transcript of the presentation over at http://www.cominvent.com/2011/03/23/goopen-2011-dnno-migrating-to-solr/
       Reply 
    Are you sure you want to  Yes  No
    Your message goes here
  • Be the first to like this

No Downloads
Views
Total Views
1,745
On Slideshare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
6
Comments
1
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "Dagens Næringslivs overgang til Lucene/Solr søk"

  1. 1. Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl
  2. 2. Hans Jørgen Hoel
  3. 3. Jan Høydahl 1995: Utvikler telecom 1998: Java-utvikler 2000: Søk - FAST 2006: Lucene 2007: new Cominvent() 2009: Lucene/Solr Ca 100 prosjekter
  4. 4. Virksomhetskritisk søk Lucene/Solr og FAST Domenekunnskap & beste praksis!Konsulent Kurs Support (www.solrkurs.no)
  5. 5. Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
  6. 6. Bakgrunn for prosjektet Stort antall artikler både på papir og nett FAST ESP som plattform for søk fra 2006 Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvare Da FAST ble kjøpt opp måtte hele løsningen vurderes Endte opp med å gå for Solr Brakte inn Jan som konsulent
  7. 7. Arkitektur før prosjektet
  8. 8. Søkemotor ABC Søk er ikke database Optimalisert for fritekst søk Men god på AND/OR søk X Kommersielle: Open Source: Bruksområder: +++
  9. 9. Apache Solr
  10. 10. Open Source søk - etterspurt??
  11. 11. Prosjektet Søke-mellomvare Nytt presentasjonslag for søk Utfordringer FAST ut -- Solr inn Optimalisering/tuning
  12. 12. Arkitektur før prosjektet
  13. 13. Etter overgang til Solr Multi cores
  14. 14. Utfordringer FAST er en søke-plattform, Solr er rent søk Prosessering av kildedata Språkstøtte Entiteter (personer, steder, firmaer)
  15. 15. FAST - Solr forskjellerEn indeks, delt inn Flere indekser (cores), hvermed collections med sitt eget skjemaLemmatisering: Stemming:bil, biler, bilene => bil bil, biler, bilene => bilbillig, billigere => billig billig => bil billigere => billigerMeget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
  16. 16. Etter overgang til Solr Multi cores
  17. 17. Tuning for nyhetssøk Hva er viktigste faktor for nyhets-søk? Ferskvare ! umiddelbar indeksering dato-boost i søk Solr Function Query recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5 )^4000.0
  18. 18. Funksjoner for de fleste behov...literal() scale() sin() pi()fieldvalue() query() cos() e()ord() linear() tan() docfreq()rord() recip() asin() termfreq()sum() max() acos() idf()sub() min() atan() tf()product() ms() sinh() norm()div() rad() cosh() maxdoc()pow() deg() tanh() numdocs()abs() sqrt() ceil() dist()log() cbrt() floor() sqedist()sqrt() ln() rint() hsin()map() exp() pow() geohash()strdist() top() hypo() atan2()
  19. 19. Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur, separate kjerner og skjemaer Tjent mye på felles søkemellomvare og presentasjonslag Gode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd
  1. Gostou de algum slide específico?

    Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

×