Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Dagens Næringslivs overgang til Lucene/Solr søk

2,316 views

Published on

Foredrag på GoOpen, Oslo, 2011 (Norwegian language)

NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene?

Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Published in: Business
 • We added an english transcript of the presentation over at http://www.cominvent.com/2011/03/23/goopen-2011-dnno-migrating-to-solr/
     Reply 
  Are you sure you want to  Yes  No
  Your message goes here
 • Be the first to like this

Dagens Næringslivs overgang til Lucene/Solr søk

 1. 1. Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl
 2. 2. Hans Jørgen Hoel
 3. 3. Jan Høydahl 1995: Utvikler telecom 1998: Java-utvikler 2000: Søk - FAST 2006: Lucene 2007: new Cominvent() 2009: Lucene/Solr Ca 100 prosjekter
 4. 4. Virksomhetskritisk søk Lucene/Solr og FAST Domenekunnskap & beste praksis!Konsulent Kurs Support (www.solrkurs.no)
 5. 5. Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
 6. 6. Bakgrunn for prosjektet Stort antall artikler både på papir og nett FAST ESP som plattform for søk fra 2006 Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvare Da FAST ble kjøpt opp måtte hele løsningen vurderes Endte opp med å gå for Solr Brakte inn Jan som konsulent
 7. 7. Arkitektur før prosjektet
 8. 8. Søkemotor ABC Søk er ikke database Optimalisert for fritekst søk Men god på AND/OR søk X Kommersielle: Open Source: Bruksområder: +++
 9. 9. Apache Solr
 10. 10. Open Source søk - etterspurt??
 11. 11. Prosjektet Søke-mellomvare Nytt presentasjonslag for søk Utfordringer FAST ut -- Solr inn Optimalisering/tuning
 12. 12. Arkitektur før prosjektet
 13. 13. Etter overgang til Solr Multi cores
 14. 14. Utfordringer FAST er en søke-plattform, Solr er rent søk Prosessering av kildedata Språkstøtte Entiteter (personer, steder, firmaer)
 15. 15. FAST - Solr forskjellerEn indeks, delt inn Flere indekser (cores), hvermed collections med sitt eget skjemaLemmatisering: Stemming:bil, biler, bilene => bil bil, biler, bilene => bilbillig, billigere => billig billig => bil billigere => billigerMeget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
 16. 16. Etter overgang til Solr Multi cores
 17. 17. Tuning for nyhetssøk Hva er viktigste faktor for nyhets-søk? Ferskvare ! umiddelbar indeksering dato-boost i søk Solr Function Query recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5 )^4000.0
 18. 18. Funksjoner for de fleste behov...literal() scale() sin() pi()fieldvalue() query() cos() e()ord() linear() tan() docfreq()rord() recip() asin() termfreq()sum() max() acos() idf()sub() min() atan() tf()product() ms() sinh() norm()div() rad() cosh() maxdoc()pow() deg() tanh() numdocs()abs() sqrt() ceil() dist()log() cbrt() floor() sqedist()sqrt() ln() rint() hsin()map() exp() pow() geohash()strdist() top() hypo() atan2()
 19. 19. Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur, separate kjerner og skjemaer Tjent mye på felles søkemellomvare og presentasjonslag Gode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd

×