Frokostseminar mai 2010 solr open source cominvent as

987 views
926 views

Published on

Slides fra frokostseminar om Open Souce søk med Apache Lucene/Solr i Oslo mai 2010. Dette var et arrangement av Cominvent AS og FindWise AB.

Presentation is in Norwegian language

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
987
On SlideShare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
4
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Frokostseminar mai 2010 solr open source cominvent as

  1. 1. cominvent as Enterprise Search Experts Open Source & Apache Lucene/Solr Frokostseminar Oslo 5. mai 2010 © FINDWISE, COMINVENT 2010
  2. 2. Cominvent AS: Jan Høydahl ● IT architect, 15 years with search, telecom, mobile ● Helped build FAST's Global Services as first engineer ● Founder of Cominvent AS ● Search consultant 10 years ● Certified Solr instructor cominvent as
  3. 3. Cominvent AS: Consulting – Cominvent delivers independent search consulting – Focus on Apache Lucene/Solr & Microsoft FAST ESP – Idea – architecture – implementation cominvent as
  4. 4. Cominvent AS: Commercial Support – When community & mailing list support is not enough.. – Paid support agreement for Apache Solr/Lucene – In cooperation with Lucid Imagination – Read more: http://www.cominvent.com/support/ cominvent as
  5. 5. Cominvent AS: Training – Cominvent AS delivers training public and on-site – Certified Solr Training Partner for Lucid Imagination – Certified FAST ESP Training Partner – Read more: http://www.cominvent.com/training/ cominvent as Photo: fluidpowerzone.com
  6. 6. Solr kurs cominvent as
  7. 7. Hva er Open Source? «Åpen Kildekode betyr at kildekoden tl et dataprogram er gjort tlgjengelig (ofe på Internet) for alle.» (Wikipedia) Fri programvare er programvare som gir mer frihet, eierskap og feksibilitet. Det er ingen som dikterer hva man kan gjøre eller hvilken leverandør som må benytes. Man kan gjøre endringer i programvaren eter eget ønske, og man kan dele programvaren med andre, om ønskelig. Fri programvare er ikke nødvendigvis grats for bedrifer og organisasjoner. Selv om lisensen ikke koster penger, kommer allikevel levetdskostnader. (friprog.no)
  8. 8. De mest kjente...
  9. 9. Funker det for «seriøse» bedrifter? Årsaker tl at noen er motvillige tl åpen kildekode: Hvordan kan vi vite at kvaliteten er god? Hvem ringer vi ved problemer? Hva med sikkerheten? Usikkerhet rundt fremtd og oppdateringer Forstår ikke modellen Policy FUD
  10. 10. Hvorfor Fri Programvare?
  11. 11. Open Source tar markedsandeler Open Source Sofware vinner markedsandeler hvert år. Fra 13% i 2007 tl 27% i 2010 2010 Kilde: Gartner
  12. 12. Hvorfor går folk over til Open Source Hvor viktg var reduksjonen i kostnader når du valgte Open Source? Kilde: The 451 Group
  13. 13. Hvorfor forblir folk ved Open Source? Eter å ha gjort overgangen tl åpen kildekode, hva var den største gevinsten? Kilde: The 451 Group Fra Forrester/Unisys: • 62% view open source sof ware as capable of delivering signif cant business payback t i • 80% viewed factors other than cost such as open standards support, use of code, and avoiding lock-in • 58% of IT execs reported that they now use Open Source for mission-crit cal applicat ons i i
  14. 14. Hvordan utvikles Open Source? Kildekoden er tlgjengelig for alle fra SCM Brukere og utviklere danner et fellesskap Alle kan bidra med kodeforbedringer, feilrapporter, dokumentasjon etc En kjerne av utviklere, ofe betalt av bedrifer som bruker produktet Virtuell utviklerorganisasjon Eksempel: En bruker fnner en feil og reter den samme dag. Feilfksen sendes tlbake tl fellesskapet og blir umiddelbart tlgjengelig for andre. Med lukket programvare tar det ofe uker eller måneder før en feil retes.
  15. 15. Om Apache Software Foundation •Startet i Juni 1999, ut fra Apache Web Server •Ideell organisasjon/stfelse •Ca 60 toppnivå-prosjekter med fere underprosjekter •Tekniske eksperter leder hvert prosjekt •Apache-lisensen er meget liberal og business-vennlig - I praksis kan du gjøre hva du vil med programvaren
  16. 16. Apache Lucene •Programvarebibliotek for søk, skrevet i Java •Ble et Apache-prosjekt i September 2001 •Den mest utbredte indeks-motoren på markedet •Finnes innebygget i mange andre tjenester og programmer •Powered by Lucene:
  17. 17. Apache Lucene
  18. 18. Apache Nutch •Også fra Apache Foundaton •Web-søkemotor •Bygger på Lucene •Spesialisert på å crawle og prosessere HTML + andre formater •Bygget for å skalere tl milliarder av dokumenter •Kan kombineres med Solr
  19. 19. Apache Tika •Bibliotek for å ekstrahere tekst fra rike dokumentormater •Støte for mange formater: PDF, Word, Excel, PowerPoint, Open Document – ODT, ODS, ODP, RTF •Kan også ekstrahere data fra rik media GIF, JPG, MP3, MOV... •Utvides stadig med støte for nye formater •Savner du et format? Enkelt rammeverk for å plugge inn egne parsere. •Tika er integrert i bl.a. Nutch og Solr
  20. 20. Apache Mahout •Avansert samling skalerbare maskinlærings-biblioteker •Bruker Hadoop Map/Reduce •Apache-prosjekt siden 2008 •Eksempel på bruk •Recommendatons •Clustering •Automatsk klassifsering •++ •Antas å integreres i Lucene/Solr i fremtden
  21. 21. OpenPipeline • Generisk prosesseringsmodul for søkemotorer • Laget av Dieselpoint Inc. • Ble gjort Open Source i 2008 • Skrevet som en Java web-applikasjon • Tilbyr crawling- og avansert dokument-prosessering • Let å integrere med mange ulike søkemotorer
  22. 22. Apache Solr ● Søke-server basert på Lucene ● Gjør det enkelt å legge tl søk på sin tjeneste/applikasjon ● Krever ingen programmering – alt er XML/HTTP og åpne APIer ● Utviklet av CNET Networks i 2004 ● Kildekoden donert tl Apache i 2006 ● Versjon 1.4 ble utgit november 2009 ● Brukes av store bedrifer verden over
  23. 23. Funksjonalitet • Rikt spørrespråk med bl.a. • Boolske operatorer AND, OR, NOT • Fuzzy søk og fonetsk søk • Sortering i fere nivåer • Nær sanntds indeksering av strukturerte og ustrukturerte data • Faset-navigering • Avansert kontroll over relevans • Did you mean stavekontroll • GEO-søk • Clustering • Sikkerhet
  24. 24. Bruksområder
  25. 25. Snakker med alle plattformer XML/HTTP 5
  26. 26. Data inn i søkemotoren Eksempel med XML input
  27. 27. Data ut (spørring) http://localhost:8080/solr/select?q=car&fl=id,title
  28. 28. Eller med en litt penere presentasion...
  29. 29. Eksempel på en installasjon m/feiltoleranse
  30. 30. Arkitektur 0
  31. 31. Thank You www.cominvent.com jh@cominvent.com www.twitter.com/cominvent cominvent as

×