Dagens Næringslivs overgang til Lucene/Solr søk

Oppgradert søk på m.fl

Hans Jørgen Hoel
Jan Høydahl

Jan Høydahl

1995: Utvikler telecom
1998: Java-utvikler
2000: Søk - FAST
2006: Lucene
2007: new
Cominvent()
2009: Lucene/Solr
Ca 100 prosjekter

Virksomhetskritisk søk
Lucene/Solr og FAST
Domenekunnskap & beste praksis!

Konsulent Kurs Support
(www.solrkurs.no)

Agenda

Bakgrunn for prosjektet
Arkitektur før
Søk ABC, intro til Solr
Prosjektgjennomføring
Oppsummering, Q&A

Bakgrunn for prosjektet

Stort antall artikler både på papir og nett
FAST ESP som plattform for søk fra 2006
Apache Solr for skattelistesøk
NHST bruker i stor grad Java og mye åpen programvare
Da FAST ble kjøpt opp måtte hele løsningen vurderes
Endte opp med å gå for Solr
Brakte inn Jan som konsulent

Søkemotor ABC

Søk er ikke database
Optimalisert for fritekst søk
Men god på AND/OR søk X
Kommersielle:

Open Source:

Bruksområder:

+++

Open Source søk - etterspurt??

Prosjektet

Søke-mellomvare
Nytt presentasjonslag for søk
Utfordringer
FAST ut -- Solr inn
Optimalisering/tuning

Etter overgang til Solr

Multi
cores

Utfordringer

FAST er en søke-plattform, Solr er rent søk
Prosessering av kildedata
Språkstøtte
Entiteter (personer, steder, firmaer)

FAST - Solr forskjeller

En indeks, delt inn Flere indekser (cores), hver
med collections med sitt eget skjema

Lemmatisering: Stemming:
bil, biler, bilene => bil bil, biler, bilene => bil
billig, billigere => billig billig => bil
billigere => billiger

Meget bra fler-språklig støtte Mer begrenset. Vi bygget inn
språk-støtte i rammeverket

Tuning for nyhetssøk

Hva er viktigste faktor for nyhets-søk?
Ferskvare !
umiddelbar indeksering
dato-boost i søk
Solr Function Query
recip(
ms(NOW,publishdate),
3.16e-11, 0.5, 0.5
)^4000.0

Funksjoner for de fleste behov...

literal() scale() sin() pi()
fieldvalue() query() cos() e()
ord() linear() tan() docfreq()
rord() recip() asin() termfreq()
sum() max() acos() idf()
sub() min() atan() tf()
product() ms() sinh() norm()
div() rad() cosh() maxdoc()
pow() deg() tanh() numdocs()
abs() sqrt() ceil() dist()
log() cbrt() floor() sqedist()
sqrt() ln() rint() hsin()
map() exp() pow() geohash()
strdist() top() hypo() atan2()

Oppsummering / gevinster

Solr mye mindre ressurskrevende enn FAST
Kan til og med kjøres virtualisert
Ryddigere arkitektur, separate kjerner og skjemaer
Tjent mye på felles søkemellomvare og presentasjonslag
Gode muligheter for tuning
Noen utfordringer, men alt i alt veldig fornøyd

Dagens Næringslivs overgang til Lucene/Solr søk

Recommended

Recommended

More Related Content

Viewers also liked

Viewers also liked (20)

Similar to Dagens Næringslivs overgang til Lucene/Solr søk

Similar to Dagens Næringslivs overgang til Lucene/Solr søk (10)

More from Cominvent AS

More from Cominvent AS (8)

Dagens Næringslivs overgang til Lucene/Solr søk