Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Upcoming SlideShare
2014 stsi research_meeting_mturk_pdf
Next
Download to read offline and view in fullscreen.

0

Share

Download to read offline

Dagens Næringslivs overgang til Lucene/Solr søk

Download to read offline

Foredrag på GoOpen, Oslo, 2011 (Norwegian language)

NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene?

Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Related Books

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

Dagens Næringslivs overgang til Lucene/Solr søk

  1. 1. Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl
  2. 2. Hans Jørgen Hoel
  3. 3. Jan Høydahl 1995: Utvikler telecom 1998: Java-utvikler 2000: Søk - FAST 2006: Lucene 2007: new Cominvent() 2009: Lucene/Solr Ca 100 prosjekter
  4. 4. Virksomhetskritisk søk Lucene/Solr og FAST Domenekunnskap & beste praksis!Konsulent Kurs Support (www.solrkurs.no)
  5. 5. Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
  6. 6. Bakgrunn for prosjektet Stort antall artikler både på papir og nett FAST ESP som plattform for søk fra 2006 Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvare Da FAST ble kjøpt opp måtte hele løsningen vurderes Endte opp med å gå for Solr Brakte inn Jan som konsulent
  7. 7. Arkitektur før prosjektet
  8. 8. Søkemotor ABC Søk er ikke database Optimalisert for fritekst søk Men god på AND/OR søk X Kommersielle: Open Source: Bruksområder: +++
  9. 9. Apache Solr
  10. 10. Open Source søk - etterspurt??
  11. 11. Prosjektet Søke-mellomvare Nytt presentasjonslag for søk Utfordringer FAST ut -- Solr inn Optimalisering/tuning
  12. 12. Arkitektur før prosjektet
  13. 13. Etter overgang til Solr Multi cores
  14. 14. Utfordringer FAST er en søke-plattform, Solr er rent søk Prosessering av kildedata Språkstøtte Entiteter (personer, steder, firmaer)
  15. 15. FAST - Solr forskjellerEn indeks, delt inn Flere indekser (cores), hvermed collections med sitt eget skjemaLemmatisering: Stemming:bil, biler, bilene => bil bil, biler, bilene => bilbillig, billigere => billig billig => bil billigere => billigerMeget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
  16. 16. Etter overgang til Solr Multi cores
  17. 17. Tuning for nyhetssøk Hva er viktigste faktor for nyhets-søk? Ferskvare ! umiddelbar indeksering dato-boost i søk Solr Function Query recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5 )^4000.0
  18. 18. Funksjoner for de fleste behov...literal() scale() sin() pi()fieldvalue() query() cos() e()ord() linear() tan() docfreq()rord() recip() asin() termfreq()sum() max() acos() idf()sub() min() atan() tf()product() ms() sinh() norm()div() rad() cosh() maxdoc()pow() deg() tanh() numdocs()abs() sqrt() ceil() dist()log() cbrt() floor() sqedist()sqrt() ln() rint() hsin()map() exp() pow() geohash()strdist() top() hypo() atan2()
  19. 19. Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur, separate kjerner og skjemaer Tjent mye på felles søkemellomvare og presentasjonslag Gode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd

Foredrag på GoOpen, Oslo, 2011 (Norwegian language) NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene? Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Views

Total views

2,399

On Slideshare

0

From embeds

0

Number of embeds

418

Actions

Downloads

7

Shares

0

Comments

0

Likes

0

×