• Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
    Be the first to like this
No Downloads

Views

Total Views
302
On Slideshare
0
From Embeds
0
Number of Embeds
1

Actions

Shares
Downloads
0
Comments
0
Likes
0

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Verbinden van Biografie¨n aan Documenten e 1 Verbinden van Biografie¨n aan e Documenten Maarten Marx Universiteit van Amsterdam Den Haag 2010-12-10
  • 2. Verbinden van Biografie¨n aan Documenten e 2 Koppeling Bio’s en Documenten: Inhoud• Wat is dat?• Wat heeft dat voor nut?• Hoe doe je dat?• Hoe maak je een Bio-archief waardevol?
  • 3. Verbinden van Biografie¨n aan Documenten e 3 Koppeling Bio’s en Documenten. Wat is dat?• Handeling zonder koppeling• Gekoppelde Handelingen• Gekoppelde geOCRde Handelingen
  • 4. Verbinden van Biografie¨n aan Documenten e 4 Archieven om naar te koppelen• Twee op parlementari¨rs gerichte databases: e • parlement.com (Parlementair Documentatie Centrum) • pentapolitica.nl (PoliticalMashup)• Wikipedia is een mooi alternatief. http://nl.wikipedia.org/wiki/Lijst_van_Nederlandse_ politici
  • 5. Verbinden van Biografie¨n aan Documenten e 5 Koppeling andersom Dynamische Biografie¨n eCombinatie van• statische achtergrond data• dynamische groeiende gegevens.• Voorbeelden • http://www.pentapolitica.nl/politici/femke-halsema • Pagina van Sophie in het Veld bij Europees Parlement • Sophie in het Veld bij IkKiesWijzer.nl • Pagina van David Cameron bij TheyWorkForYou.com
  • 6. Verbinden van Biografie¨n aan Documenten e 6 Koppeling Mens–Document. Wat is het nut? I• Verhogen van betrouwbaarheid van de data.• Makkelijker toegang tot de data.• Grootscheeps automatisch (wetenschappelijk) onderzoek wordt opeens mogelijk.
  • 7. Verbinden van Biografie¨n aan Documenten e 7 Koppeling Mens–Document. Wat is het nut? II1. Normalisatie van namen door koppeling. • Typos • Naamswijzigingen • OCR fouten2. Zoeken op naam met autocompletion. Voorbeeld in DBLP.3. Van document-centrisch naar mens-centrisch.
  • 8. Verbinden van Biografie¨n aan Documenten e 8 Mens-centrische informatiebehoeften• Expert search. http://ikkieswijzer.nl/personen• Geef me alle uitspraken van Balkenende over Suriname• Geef alle uitspraken gedaan door allochtonen over Suriname.• Wie spreekt het meest in de Tweede Kamer?• Glazen Plafond Query. De Kamer bestaat voor 40% uit vrouwen. Hoeveel % van de uitspraken wordt door vrouwen gedaan?• Interruptiegraaf. 2010-10-27 2010-10-26
  • 9. Verbinden van Biografie¨n aan Documenten e 9 Hoe maak je zo’n koppeling?• Twee manieren. • Van bovenaf opleggen (top-down) • Door “slimme algorithmes” laten aanleggen (bottom up)• Top-down werkt alleen vanaf een bepaald moment, en• is moeilijk te onderhouden in een gedistribueerde omgeving.
  • 10. Verbinden van Biografie¨n aan Documenten e 10 Bottom up• Bottom-up kan ook op historische data (zie statengeneraaldigitaal.nl).• Bottom-up geeft inzicht in de kwaliteit van de koppeling.• Bottom-up algorithmes zijn herbruikbaar.• Er is zeer veel onderzoek gedaan naar bottom up algorithmes. • Data Deduplication • named entity reconciliation• Zwaan–kleef–aan effect. (Veel gebruikt systeem wordt de facto standaard).
  • 11. Verbinden van Biografie¨n aan Documenten e 11 Bottom up pipeline• Intuitie: maak het equivalent van de zoek functie in Google Maps.• http://maps.google.com/maps?hl=en&q=Koninklijke+ Bibliotheek+Den+Haag&sa=N&tab=sl• normalize(KB Den Haag) = (52.081273,4.328055)• Dus nodig: • Dimensie met unieke waardes voor elk datapunt. • Normaliserings-functie. • Eventueel functie terug.
  • 12. Verbinden van Biografie¨n aan Documenten e 12 Super goede baseline: Wikipedia• Gebruik Wikipedia paginanamen als je dimensie.• http://en.wikipedia.org/wiki/Jimi_Hendrix• Gebruik Wikipedia search functie (inclusief redirects) als normaliseringsfunctie.• http: //en.wikipedia.org/w/index.php?search=Jimi+Hendricks• Prima (crowdsourced and quality-controlled) disambiguation and redirect. James Hendrix James Marshall Hendrix Jim Hendrix Jimi hendrix Jimmi Hendrix Jimmy Hendricks Jimmy Hendrix Jimmy hendrix Jimy Hendrix Johnny Allen Hendrix Johnny Hendrix
  • 13. Verbinden van Biografie¨n aan Documenten e 13 ConcreetStap 1 Vind een betrouwbare, goed georganiseerde en gedocumenteerde bron met biodata met in ieder geval • permanente vrij beschikbare unieke identifiers voor elke entiteit.Stap 2 Maak de normaliserings-functie.Stap 3 Zet een kwaliteitscontrole systeem op. • % correct gevonden (recall) • % niet gevonden • % verkeerd gevonden (precisie)Stap 4 Hergebruik je functie op andere data.
  • 14. Verbinden van Biografie¨n aan Documenten e 14 Boodschap en Conclusies• Een niet verbonden of niet koppelbaar archief heeft geen waarde.• Een archief kan een bron van meerwaarde worden door openheid. • open machine leesbare formaten • geen maffe restricties, beperkingen, moeilijkheden • gebruik een slim verdienmodel • wees eerlijk • wees niet bang • gebruik je gebruikers (kwaliteitscontrole, crowdsourcing)• De waarde van je archief wordt bepaald door het aantal koppelingen.