SlideShare a Scribd company logo
WIE?
PETER GROND
@PGROND
VAN ADLIB NAAR EEN
PUBLIEK DOORZOEKBARE
COLLECTIE
WAT IS EEN GOEDE ZOEKMACHINE?
DE GEBRUIKER KAN EENVOUDIG DE MEEST
RELEVANTE GEGEVENS UIT DE DATABASE
HALEN
HOE TE ZOEKEN?
HOE TE ZOEKEN?
HOE TE ZOEKEN?
Onderzoek van de UvA in het kader van Catchproject
Multiple Search Using Metadata (MuSeUM)
Zoekmethodiek moest geschikt zijn voor
specialistische en algemene gebruikers
BESTE RESULTATEN MET...
Combinatie van gestructureerd en
ongestructureerd
Beperk het aantal velden om in te zoeken
Bepaal relevantie op basis van beide
zoekmethodes
Scheiding van gegevens voor zoeken en weergave
DEFINIEER DE ZOEKVELDEN
WIE, WAT, WAAR, HOE EN WANNEER
DEFINIEER MAPPING ADLIB NAAR DIE
VELDEN
Wie: creation_presentation, creator,
inscription.maker
Wat: description, object_name,
title.short_description, title
Waar: production.place_presentation,
production.place
Hoe: material, material_technique_presentation,
technique
Wanneer: inscription.date, production.date.start,
production.date.end, production.date_presentation,
production.period
INDEXEER NIEUWE STRUCTUUR
WELKE TOOLS?
WAAROM DRUPAL?
Belangrijkste functionaliteiten al besckikbaar
Importeren van externe data
Definiëren van objecten en velden
Uitstekende koppeling met Apache Solr
Flexibel
Gedegen kennis van het systeem
WAAROM APACHE SOLR?
Open source
Een van de snelste zoekmachines
Bewezen staat van dienst
Grote community
Volop in ontwikkeling
Uitstekende koppeling met Drupal
API VOOR GEBRUIK ZOEKMACHINE
Zoekindex geschikt voor gestructureerd en
ongestructureer zoeken
De meest relevante resultaten moeten als eerst naar
boven komen
VAN ADLIB NAAR DRUPAL
Generieke PHP component niet afhankelijk van
Drupal
Beschikbare module uitgebreid met een Fetcher en
Parser voor de import in Drupal
Te downloaden op Drupal.org
VAN DRUPAL NAAR SOLR
Beschikbare module gebruikt
Veldnamen in Solr niet dynamisch
Verder geen aanpassingen noodzakelijk
MUS API
Simpele laag voor Solr
Afhandelen van fouten en API keys
Omschrijven van request naar Solr query
Relevantiebepaling
Code beschikbaar op Github
RELEVANTIEBEPALING
Viool gemaakt door Antonio Stradivarius uit Italië
Wie: Antonio Stradivarius
Wat: Viool
Waar: Italië
Full text: Antonio Stradivarius Viool Italië
RELEVANTIEBEPALING
Standaard scoring van Solr bleek niet geschikt
Lengte van velden hadden teveel invloed
RELEVANTIEBEPALING
Standaard Solr scoring
Wie
Wat
Waar
Full text
0 2 4 6 8
Viool
Schilderij
NIEUW MODEL RELEVANTIEBEPALING
Een match in een veld levert +1 op
Relatieve score van documenten onderling die een
match hebben in een veld levert maximaal +0.2 op
NIEUW MODEL
Nieuw scoring model
Wie
Wie relatief
Wat
Wat relatief
Waar
Waar relatief
Full text
Full text relatief
0 1 2 3 4
Viool
Schilderij
RELEVANTIEBEPALING
Objecten met een match in 2 velden komen altijd
hoger in de resultaten
Onverwachte relevante of gerelateerde objecten
komen naar boven
SAMENVATTING
Zoek in 5 generieke velden + full text
Importeer gegevens uit Adlib in Drupal
Indexeer gegevens in zoekmachine Apache Solr
Interface en relevantiebepaling met API
VRAGEN?
@pgrond
peter@triquanta.nl

More Related Content

More from CrossLang / CrossCheck / CrossCast

De Cookiewetgeving doorgelicht
De Cookiewetgeving doorgelichtDe Cookiewetgeving doorgelicht
De Cookiewetgeving doorgelicht
CrossLang / CrossCheck / CrossCast
 
Digitale Regio Kortrijk
Digitale Regio KortrijkDigitale Regio Kortrijk
Digitale Regio Kortrijk
CrossLang / CrossCheck / CrossCast
 
Presentatie Google Analytics - 4 Tips
Presentatie Google Analytics - 4 TipsPresentatie Google Analytics - 4 Tips
Presentatie Google Analytics - 4 Tips
CrossLang / CrossCheck / CrossCast
 
bpost online - processen en tools
bpost online - processen en toolsbpost online - processen en tools
bpost online - processen en tools
CrossLang / CrossCheck / CrossCast
 
Drupal als platform voor overheidswebsites
Drupal als platform voor overheidswebsitesDrupal als platform voor overheidswebsites
Drupal als platform voor overheidswebsites
CrossLang / CrossCheck / CrossCast
 
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...CrossLang / CrossCheck / CrossCast
 
Managing multilingual webcontent
Managing multilingual webcontentManaging multilingual webcontent
Managing multilingual webcontent
CrossLang / CrossCheck / CrossCast
 
Kennisbeheer met Drupal
Kennisbeheer met DrupalKennisbeheer met Drupal
Kennisbeheer met Drupal
CrossLang / CrossCheck / CrossCast
 
Multilingual websites handson
Multilingual websites handsonMultilingual websites handson
Multilingual websites handson
CrossLang / CrossCheck / CrossCast
 

More from CrossLang / CrossCheck / CrossCast (19)

De Nieuwe Features van Google Analytics
De Nieuwe Features van Google AnalyticsDe Nieuwe Features van Google Analytics
De Nieuwe Features van Google Analytics
 
De Cookiewetgeving doorgelicht
De Cookiewetgeving doorgelichtDe Cookiewetgeving doorgelicht
De Cookiewetgeving doorgelicht
 
De Nieuwe Antwerpenaar
De Nieuwe AntwerpenaarDe Nieuwe Antwerpenaar
De Nieuwe Antwerpenaar
 
Drupal bij de Belgische Federale Overheid
Drupal bij de Belgische Federale OverheidDrupal bij de Belgische Federale Overheid
Drupal bij de Belgische Federale Overheid
 
Introductie Drupal voor lokale overheden
Introductie Drupal voor lokale overhedenIntroductie Drupal voor lokale overheden
Introductie Drupal voor lokale overheden
 
Mobiele sites en applicatie op Drupal
Mobiele sites en applicatie op DrupalMobiele sites en applicatie op Drupal
Mobiele sites en applicatie op Drupal
 
Digitale Regio Kortrijk
Digitale Regio KortrijkDigitale Regio Kortrijk
Digitale Regio Kortrijk
 
dotProjects visie op mobiele websites en apps
dotProjects visie op mobiele websites en appsdotProjects visie op mobiele websites en apps
dotProjects visie op mobiele websites en apps
 
Presentatie Google Analytics - 4 Tips
Presentatie Google Analytics - 4 TipsPresentatie Google Analytics - 4 Tips
Presentatie Google Analytics - 4 Tips
 
Drupal als platform voor websites in de gezondheidszorg
Drupal als platform voor websites in de gezondheidszorgDrupal als platform voor websites in de gezondheidszorg
Drupal als platform voor websites in de gezondheidszorg
 
bpost online - processen en tools
bpost online - processen en toolsbpost online - processen en tools
bpost online - processen en tools
 
Drupal als platform voor overheidswebsites
Drupal als platform voor overheidswebsitesDrupal als platform voor overheidswebsites
Drupal als platform voor overheidswebsites
 
Bedrijfspresentatie dotProjects
Bedrijfspresentatie dotProjectsBedrijfspresentatie dotProjects
Bedrijfspresentatie dotProjects
 
Terminologie in bedrijfscontext
Terminologie in bedrijfscontextTerminologie in bedrijfscontext
Terminologie in bedrijfscontext
 
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...
Succesvol terminologiebeheer in bedrijven: de voordelen van standaardisatie e...
 
Workshop terminologiebeheer in bedrijfscontext
Workshop terminologiebeheer in bedrijfscontextWorkshop terminologiebeheer in bedrijfscontext
Workshop terminologiebeheer in bedrijfscontext
 
Managing multilingual webcontent
Managing multilingual webcontentManaging multilingual webcontent
Managing multilingual webcontent
 
Kennisbeheer met Drupal
Kennisbeheer met DrupalKennisbeheer met Drupal
Kennisbeheer met Drupal
 
Multilingual websites handson
Multilingual websites handsonMultilingual websites handson
Multilingual websites handson
 

KOGK - Van adlib naar online collectie - Peter Grond