Een korte introductie

Justin van Wees               Bart de Goede
justin@vwees.net              bart@degoede.nu
@justin_v_w                   @bartdegoede
PentaPolitica.nl


• In 2009 op eigen initiatief gestart na project
  met kamervragen
• ‘Trias Politica’ (Montesquieu)
PentaPolitica.nl
• Data over personen en partijen (‘statisch’)
 • Namen, zittingen, nevenfuncties,
    opleidingen, etc.
• Uitingen in social media (‘dynamisch’)
 • Tweets, video’s (YouTube), foto’s, blogs,
    etc.
Technische details
• Importeren
 • Verschillende API’s
 • Python
• Dataopslag
 • MySQL
• Frontend
 • CakePHP
Partijen

• Naam
• Afkorting
• Datum van oprichting
• Logo
• Lidzittingen
‘Personalia’
• Voornaam                   • Levensfilosofie
• Achternaam                 • Loopbaan *
• Roepnaam                      • Periode, instituut, functie
• Initialen                  • Nevenfuncties *
• Titels                        • Periode, instituut, functie
• Geslacht *                 • Opleidingen *
• Biografie                      • Periode, instituut, functie
• Foto *                     • ‘Lidzittingen’
• PDC-code                      • Periode, Kamer en partij
• Geboorteplaats en -datum      * niet altijd volledig
• Plaats en datum van
                                Bronnen: parlement.com,
  overlijden                    tweedekamer.nl, eerstekamer.nl
Feeds
• Foto’s in verschillende formaten
  (gedownload)*
• Metadata van foto’s (datum, locatie, tags,
  etc.)
• Gebruikersinformatie (aanmaakdatum
  account, aantal views, etc.)
• Titel, beschrijving, tags, etc.
• De video zelf (in hoogst beschikbare
  kwaliteit)
• ‘Statistieken’ van video’s (aantal views,
  beoordelingen, etc.)
• Gebruikersinformatie (vrienden, aantal
  abonnementen, etc.)
• Tweets (inhoud, datum, reply op, RT, Geo-
  info, etc.)
• Gebruikersinformatie (van screen_name
  tot URL van profielachtergrondafbeelding)
• Followers en following door de tijd heen *
RSS

• (Hyves-) blogs, partijnieuws, podcasts, etc.
• Titel, samenvatting, datum van publicatie,
  etc.
• Downloaden van achterliggende pagina (of
  andere documenten; HTML + CSS + IMG,
  podcasts, PDF’s, afbeeldingen)
Wat hebben we?

• Tweede Kamer- en kabinetsleden van
  Balkenende IV
• (Handmatig) geverifieerde personalia
• (Handmatig) gevonden feeds
• (Automatisch geïmporteerde) feeditems
Wat hebben we?
‘Onvolkomenheden’
• Onzekerheid over volledigheid m.b.t.
  feeditems
• Alleen Balkenende IV en Rutte I (exclusief
  ministers)
• Rijkere informatie (nog) niet opgenomen
• ‘Archief van verwijzingen’; bron kan ‘dood’
  zijn
Wat doen we nu?

• Importeerproces herschrijven
• Formele procedures voor het toevoegen en
  beheren van personen, partijen en feeds
• Uitgebreidere personalia (automatisch)
  verzamelen
Wat willen we nog?
• Front-end uitbreiden (compatible met
  ‘nieuwe’ data)
• Meer kabinetten, meer kamers
• Normalisatie van personalia
• API
• ...
Vragen?

Pentapolitica.nl introductie

  • 1.
    Een korte introductie Justinvan Wees Bart de Goede justin@vwees.net bart@degoede.nu @justin_v_w @bartdegoede
  • 2.
    PentaPolitica.nl • In 2009op eigen initiatief gestart na project met kamervragen • ‘Trias Politica’ (Montesquieu)
  • 3.
    PentaPolitica.nl • Data overpersonen en partijen (‘statisch’) • Namen, zittingen, nevenfuncties, opleidingen, etc. • Uitingen in social media (‘dynamisch’) • Tweets, video’s (YouTube), foto’s, blogs, etc.
  • 11.
    Technische details • Importeren • Verschillende API’s • Python • Dataopslag • MySQL • Frontend • CakePHP
  • 12.
    Partijen • Naam • Afkorting •Datum van oprichting • Logo • Lidzittingen
  • 13.
    ‘Personalia’ • Voornaam • Levensfilosofie • Achternaam • Loopbaan * • Roepnaam • Periode, instituut, functie • Initialen • Nevenfuncties * • Titels • Periode, instituut, functie • Geslacht * • Opleidingen * • Biografie • Periode, instituut, functie • Foto * • ‘Lidzittingen’ • PDC-code • Periode, Kamer en partij • Geboorteplaats en -datum * niet altijd volledig • Plaats en datum van Bronnen: parlement.com, overlijden tweedekamer.nl, eerstekamer.nl
  • 14.
  • 15.
    • Foto’s inverschillende formaten (gedownload)* • Metadata van foto’s (datum, locatie, tags, etc.) • Gebruikersinformatie (aanmaakdatum account, aantal views, etc.)
  • 16.
    • Titel, beschrijving,tags, etc. • De video zelf (in hoogst beschikbare kwaliteit) • ‘Statistieken’ van video’s (aantal views, beoordelingen, etc.) • Gebruikersinformatie (vrienden, aantal abonnementen, etc.)
  • 17.
    • Tweets (inhoud,datum, reply op, RT, Geo- info, etc.) • Gebruikersinformatie (van screen_name tot URL van profielachtergrondafbeelding) • Followers en following door de tijd heen *
  • 18.
    RSS • (Hyves-) blogs,partijnieuws, podcasts, etc. • Titel, samenvatting, datum van publicatie, etc. • Downloaden van achterliggende pagina (of andere documenten; HTML + CSS + IMG, podcasts, PDF’s, afbeeldingen)
  • 19.
    Wat hebben we? •Tweede Kamer- en kabinetsleden van Balkenende IV • (Handmatig) geverifieerde personalia • (Handmatig) gevonden feeds • (Automatisch geïmporteerde) feeditems
  • 20.
  • 21.
    ‘Onvolkomenheden’ • Onzekerheid overvolledigheid m.b.t. feeditems • Alleen Balkenende IV en Rutte I (exclusief ministers) • Rijkere informatie (nog) niet opgenomen • ‘Archief van verwijzingen’; bron kan ‘dood’ zijn
  • 22.
    Wat doen wenu? • Importeerproces herschrijven • Formele procedures voor het toevoegen en beheren van personen, partijen en feeds • Uitgebreidere personalia (automatisch) verzamelen
  • 23.
    Wat willen wenog? • Front-end uitbreiden (compatible met ‘nieuwe’ data) • Meer kabinetten, meer kamers • Normalisatie van personalia • API • ...
  • 24.