• Share
  • Email
  • Embed
  • Like
  • Save
  • Private Content
Dagens Næringslivs overgang til Lucene/Solr søk
 

Dagens Næringslivs overgang til Lucene/Solr søk

on

  • 1,994 views

Foredrag på GoOpen, Oslo, 2011 (Norwegian language) ...

Foredrag på GoOpen, Oslo, 2011 (Norwegian language)

NHST Media Group lager nettsidene for bl.a. Dagens Næringsliv, Dagens IT og en rekke engelskspråklige bransjeaviser. Systemutvikler Hans Jørgen Hoel og søke-arkitekt Jan Høydahl forteller om prosessen etter at det ble besluttet å erstatte søkeløsningen fra FAST med fri programvare Apache Solr. Vi vil forsøke å besvare bl.a.: Hvilke utfordringer møtte vi som følge av forskjeller i de to plattformene? Hvorfor bygde vi vårt eget søkerammeverk? Har det nye søket innfridd forventningene?

Se også www.goopen.no, www.cominvent.com og www.nhst.no og Twitter hashtag #GoOpen

Statistics

Views

Total Views
1,994
Views on SlideShare
1,583
Embed Views
411

Actions

Likes
0
Downloads
5
Comments
1

3 Embeds 411

http://www.cominvent.com 407
http://webcache.googleusercontent.com 2
http://www.cominvent.no 2

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

CC Attribution-ShareAlike LicenseCC Attribution-ShareAlike License

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel

11 of 1 previous next

  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
  • We added an english transcript of the presentation over at http://www.cominvent.com/2011/03/23/goopen-2011-dnno-migrating-to-solr/
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    Dagens Næringslivs overgang til Lucene/Solr søk Dagens Næringslivs overgang til Lucene/Solr søk Presentation Transcript

    • Oppgradert søk på m.fl Hans Jørgen Hoel Jan Høydahl
    • Hans Jørgen Hoel
    • Jan Høydahl 1995: Utvikler telecom 1998: Java-utvikler 2000: Søk - FAST 2006: Lucene 2007: new Cominvent() 2009: Lucene/Solr Ca 100 prosjekter
    • Virksomhetskritisk søk Lucene/Solr og FAST Domenekunnskap & beste praksis!Konsulent Kurs Support (www.solrkurs.no)
    • Agenda Bakgrunn for prosjektet Arkitektur før Søk ABC, intro til Solr Prosjektgjennomføring Oppsummering, Q&A
    • Bakgrunn for prosjektet Stort antall artikler både på papir og nett FAST ESP som plattform for søk fra 2006 Apache Solr for skattelistesøk NHST bruker i stor grad Java og mye åpen programvare Da FAST ble kjøpt opp måtte hele løsningen vurderes Endte opp med å gå for Solr Brakte inn Jan som konsulent
    • Arkitektur før prosjektet
    • Søkemotor ABC Søk er ikke database Optimalisert for fritekst søk Men god på AND/OR søk X Kommersielle: Open Source: Bruksområder: +++
    • Apache Solr
    • Open Source søk - etterspurt??
    • Prosjektet Søke-mellomvare Nytt presentasjonslag for søk Utfordringer FAST ut -- Solr inn Optimalisering/tuning
    • Arkitektur før prosjektet
    • Etter overgang til Solr Multi cores
    • Utfordringer FAST er en søke-plattform, Solr er rent søk Prosessering av kildedata Språkstøtte Entiteter (personer, steder, firmaer)
    • FAST - Solr forskjellerEn indeks, delt inn Flere indekser (cores), hvermed collections med sitt eget skjemaLemmatisering: Stemming:bil, biler, bilene => bil bil, biler, bilene => bilbillig, billigere => billig billig => bil billigere => billigerMeget bra fler-språklig støtte Mer begrenset. Vi bygget inn språk-støtte i rammeverket
    • Etter overgang til Solr Multi cores
    • Tuning for nyhetssøk Hva er viktigste faktor for nyhets-søk? Ferskvare ! umiddelbar indeksering dato-boost i søk Solr Function Query recip( ms(NOW,publishdate), 3.16e-11, 0.5, 0.5 )^4000.0
    • Funksjoner for de fleste behov...literal() scale() sin() pi()fieldvalue() query() cos() e()ord() linear() tan() docfreq()rord() recip() asin() termfreq()sum() max() acos() idf()sub() min() atan() tf()product() ms() sinh() norm()div() rad() cosh() maxdoc()pow() deg() tanh() numdocs()abs() sqrt() ceil() dist()log() cbrt() floor() sqedist()sqrt() ln() rint() hsin()map() exp() pow() geohash()strdist() top() hypo() atan2()
    • Oppsummering / gevinster Solr mye mindre ressurskrevende enn FAST Kan til og med kjøres virtualisert Ryddigere arkitektur, separate kjerner og skjemaer Tjent mye på felles søkemellomvare og presentasjonslag Gode muligheter for tuning Noen utfordringer, men alt i alt veldig fornøyd