1. Verbinden van Biografie¨n aan Documenten
e 1
Verbinden van Biografie¨n aan
e
Documenten
Maarten Marx
Universiteit van Amsterdam
Den Haag 2010-12-10
2. Verbinden van Biografie¨n aan Documenten
e 2
Koppeling Bio’s en Documenten: Inhoud
• Wat is dat?
• Wat heeft dat voor nut?
• Hoe doe je dat?
• Hoe maak je een Bio-archief waardevol?
3. Verbinden van Biografie¨n aan Documenten
e 3
Koppeling Bio’s en Documenten. Wat is dat?
• Handeling zonder koppeling
• Gekoppelde Handelingen
• Gekoppelde geOCRde Handelingen
4. Verbinden van Biografie¨n aan Documenten
e 4
Archieven om naar te koppelen
• Twee op parlementari¨rs gerichte databases:
e
• parlement.com (Parlementair Documentatie Centrum)
• pentapolitica.nl (PoliticalMashup)
• Wikipedia is een mooi alternatief.
http://nl.wikipedia.org/wiki/Lijst_van_Nederlandse_
politici
5. Verbinden van Biografie¨n aan Documenten
e 5
Koppeling andersom
Dynamische Biografie¨n
e
Combinatie van
• statische achtergrond data
• dynamische groeiende gegevens.
• Voorbeelden
• http://www.pentapolitica.nl/politici/femke-halsema
• Pagina van Sophie in het Veld bij Europees Parlement
• Sophie in het Veld bij IkKiesWijzer.nl
• Pagina van David Cameron bij TheyWorkForYou.com
6. Verbinden van Biografie¨n aan Documenten
e 6
Koppeling Mens–Document. Wat is het nut? I
• Verhogen van betrouwbaarheid van de data.
• Makkelijker toegang tot de data.
• Grootscheeps automatisch (wetenschappelijk) onderzoek wordt
opeens mogelijk.
7. Verbinden van Biografie¨n aan Documenten
e 7
Koppeling Mens–Document. Wat is het nut? II
1. Normalisatie van namen door koppeling.
• Typos
• Naamswijzigingen
• OCR fouten
2. Zoeken op naam met autocompletion. Voorbeeld in DBLP.
3. Van document-centrisch naar mens-centrisch.
8. Verbinden van Biografie¨n aan Documenten
e 8
Mens-centrische informatiebehoeften
• Expert search. http://ikkieswijzer.nl/personen
• Geef me alle uitspraken van Balkenende over Suriname
• Geef alle uitspraken gedaan door allochtonen over Suriname.
• Wie spreekt het meest in de Tweede Kamer?
• Glazen Plafond Query.
De Kamer bestaat voor 40% uit vrouwen. Hoeveel % van de
uitspraken wordt door vrouwen gedaan?
• Interruptiegraaf. 2010-10-27 2010-10-26
9. Verbinden van Biografie¨n aan Documenten
e 9
Hoe maak je zo’n koppeling?
• Twee manieren.
• Van bovenaf opleggen (top-down)
• Door “slimme algorithmes” laten aanleggen (bottom up)
• Top-down werkt alleen vanaf een bepaald moment, en
• is moeilijk te onderhouden in een gedistribueerde omgeving.
10. Verbinden van Biografie¨n aan Documenten
e 10
Bottom up
• Bottom-up kan ook op historische data (zie
statengeneraaldigitaal.nl).
• Bottom-up geeft inzicht in de kwaliteit van de koppeling.
• Bottom-up algorithmes zijn herbruikbaar.
• Er is zeer veel onderzoek gedaan naar bottom up algorithmes.
• Data Deduplication
• named entity reconciliation
• Zwaan–kleef–aan effect. (Veel gebruikt systeem wordt de facto
standaard).
11. Verbinden van Biografie¨n aan Documenten
e 11
Bottom up pipeline
• Intuitie: maak het equivalent van de zoek functie in Google Maps.
• http://maps.google.com/maps?hl=en&q=Koninklijke+
Bibliotheek+Den+Haag&sa=N&tab=sl
• normalize(KB Den Haag) = (52.081273,4.328055)
• Dus nodig:
• Dimensie met unieke waardes voor elk datapunt.
• Normaliserings-functie.
• Eventueel functie terug.
12. Verbinden van Biografie¨n aan Documenten
e 12
Super goede baseline: Wikipedia
• Gebruik Wikipedia paginanamen als je dimensie.
• http://en.wikipedia.org/wiki/Jimi_Hendrix
• Gebruik Wikipedia search functie (inclusief redirects) als
normaliseringsfunctie.
• http:
//en.wikipedia.org/w/index.php?search=Jimi+Hendricks
• Prima (crowdsourced and quality-controlled) disambiguation and
redirect.
James Hendrix James Marshall Hendrix Jim Hendrix Jimi hendrix
Jimmi Hendrix Jimmy Hendricks Jimmy Hendrix Jimmy hendrix
Jimy Hendrix Johnny Allen Hendrix Johnny Hendrix
13. Verbinden van Biografie¨n aan Documenten
e 13
Concreet
Stap 1 Vind een betrouwbare, goed georganiseerde en
gedocumenteerde bron met biodata met in ieder geval
• permanente vrij beschikbare unieke identifiers voor elke entiteit.
Stap 2 Maak de normaliserings-functie.
Stap 3 Zet een kwaliteitscontrole systeem op.
• % correct gevonden (recall)
• % niet gevonden
• % verkeerd gevonden (precisie)
Stap 4 Hergebruik je functie op andere data.
14. Verbinden van Biografie¨n aan Documenten
e 14
Boodschap en Conclusies
• Een niet verbonden of niet koppelbaar archief heeft geen waarde.
• Een archief kan een bron van meerwaarde worden door openheid.
• open machine leesbare formaten
• geen maffe restricties, beperkingen, moeilijkheden
• gebruik een slim verdienmodel
• wees eerlijk
• wees niet bang
• gebruik je gebruikers (kwaliteitscontrole, crowdsourcing)
• De waarde van je archief wordt bepaald door het aantal
koppelingen.