Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

27.000 Recepten vinden in 8 miljoen krantenberichten

620 views

Published on

Marieke van Erp
Geesteswetenschappen op het snijvlak van taaltechnologie en big data
VOGIN-IP-lezing 21 maart 2019

Published in: Data & Analytics
  • Be the first to comment

  • Be the first to like this

27.000 Recepten vinden in 8 miljoen krantenberichten

  1. 1. 27.000 Recepten vinden in 8 miljoen krantenberichten Marieke van Erp @merpeltje Melvin Wevers @melvinwevers Hugo Huurdeman @timelessfuture Image source: https://static.ah.nl/static/recepten/img_006188_890x594_JPG.jpg
  2. 2. Photo source: https://www.huygens.knaw.nl/wp-content/uploads/2016/09/Voorzijde-Spinhuis-frontaal_-Foto-Gert-Jan-van-Rooij.jpg htttp://huc.knaw.nl
  3. 3. Boter, zout & peper • Analyse van eetcultuur: • historici • diëtisten • ethnologen • 1945 - 1995 Parool, Volkskrant, NRC & Trouw • Dataset en code beschikbaar via: https:// github.com/DHLab-nl/historical-recipe-web • Winnaar Koninklijke Bibliotheek - Rijksmuseum - Netwerk Digitaal Erfgoed HackaLOD Hackathon 2018 D I G I TA L H U M A N I T I E S L A B Image source: https://assets3.thrillist.com/v1/image/1623749/size/tl-horizontal_main_2x.jpg
  4. 4. Kranten als bron voor recepten • Perceptie van een Nederlandse eetcultuur vormde in 1950 • Kranten zijn producenten en bezorgers van het publieke discours • Kranten bevatten observaties van het dagelijks leven en gebruiken • Maar: • keyword search voor ‘recepten’ niet precies genoeg • ‘ruis’ van het digitalisatieproces bemoeilijkt analyse Image source: delpher.nl D I G I TA L H U M A N I T I E S L A B
  5. 5. ‘Recept’ als zoekterm Image source: delpher.nl D I G I TA L H U M A N I T I E S L A B
  6. 6. Maar recepten zijn ook: D I G I TA L H U M A N I T I E S L A B bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010825930:mpeg21:a0279 bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010871027:mpeg21:a0609
  7. 7. ‘ruis’ D I G I TA L H U M A N I T I E S L A B article:https://resolver.kb.nl/resolve?urn=KBNRC01:000029338:mpeg21:a0179 TONGROl TJES MET WORTELTJESSAUS krielaardappelen. Vindt u prin» seboontjes daarbij te veel van goede, dan is broccoli een 9 alternatief. Neem 12-16 visr< tjes en pocheer ze 4-5 minui» visbouillon, gemaakt van 1 <«> Smoor voor de worteltjetMj 1 een pannetje 1 fijngesnipperd lotje in 15 g boter. Smoor 250 stukjes gesneden wortelt)*' 1 mee. Voeg 1 dl water, 1/« bouillontablet en een nie'f tijm toe en kook de wor» 1 gaar in ongeveer 15 minutea reer de worteltjes en het * Doe de puree via een zeef !•'" het pannetje en verwarm I"* roerende. Breng de sau* smaak met zout en peper." serveren. Morgen het toetje: sinaatapP varois.
  8. 8. Taaltechnologie: standaard pijplijn • Taaltechnologie vaak opgebouwd via een pijplijn • Teksten worden woord-voor-woord uit elkaar getrokken en geanalyseerd • Iedere module in de pijplijn voegt een laag ‘natural language understanding’ toe • Probleem: niet opgewassen tegen niet welgevormde teksten D I G I TA L H U M A N I T I E S L A B pijplijn: NewsReader-project.eu opinion miner word sense disambiguation multiwords tagger syntactic parser tokenizer part-of-speech tagger named entity recognizer named entity disambiguation nominal coreference resolution semantic role labeler event coreference resolution time and date recognition temporal relation extraction causal relation extraction factuality detection
  9. 9. Van kranten naar een receptenweb D I G I TA L H U M A N I T I E S L A B Ingrediënten Recepttags Recept- beschrijvingen Receptartikelen Informatie Extractie en Multilabel Classificatie Verrijking Ingrediënt- and Kwantiteit-Extractie Recepttags Gestructureerde krantenrecepten Herkomst DBpedia link Wetenschappelijke naam Recepttekst-detectie Gestructureerde en verrijkte krantenrecepten Trefwoordenlijst Tekst- classificatie
  10. 10. Kranten • De Koninklijke Bibliotheek heeft 90+ miljoen boek-, kranten- en tijdschriftpagina’s gedigitaliseerd • Kranten gepubliceerd tussen 1618 en 1995 uit Nederland, Nederlands Indië, de Antillen, de VS en Suriname (~15% van alle kranten gepubliceerd in Nederland) • Beschikbaar voor analyse via delpher.nl, data dump (tot 1876) & API (via data-overeenkomst) • Dit onderzoek: 4 landelijke kranten tussen 1945 - 1995 D I G I TA L H U M A N I T I E S L A B Pagina’s Artikelen Woorden Parool 14.194 2,380,697 612,036,106 Volkskrant 13.628 2,248,652 744,275,792 NRC 7.199 947.198 489,397,816 Trouw 13.891 2,578,731 656,941,631 Totaal: 48.912 8,155,278 2,502,651,345 article: https://www.delpher.nl/nl/kranten/view?coll=ddd&identifier=ddd:010627319:mpeg21:a0067
  11. 11. Receptendataset • 16.000 Recepten van de Albert Heijn website • schema.org recept-markup • Tags, voedingswaarden, bron, rating Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B
  12. 12. Stap 1: Classificeer krantenartikelen • Seedlist: recept, recepten, gram, kilogram, pond, keuken, koken, kook, bakken, eetlepel, gerecht, theelepel, snijden • Resultaat: bijna 11.000 potentiële recepten • Handmatig geannoteerd om trainingsdata te creëeren + willekeurig sample niet-recept artikelen • Via machine learning (SVM) een additionele 16.000 recepten gedetecteerd met een f1 score van 0.96 D I G I TA L H U M A N I T I E S L A B
  13. 13. Stap 2: Recepttags • 69 mogelijke tags • soort gerecht, soort dieet, gelegenheid, kookstijl • getraind on AH receptenset • getest op krantenreceptenset • handmatig drie tags geëvalueerd • mismatch tussen moderne tags en oudere data Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B Precision Recall F1 Asian 0.97 0.72 0.83 Italian 0.83 0.84 0.84 Vegetarian 0.78 0.45 0.57
  14. 14. OCR Quality D I G I TA L H U M A N I T I E S L A B
  15. 15. Stap 3: ingrediënten en hoeveelheden • niet altijd netjes een lijstje met ingrediënten en hoeveelheden • OCR-fouten en niet-grammaticale zinnen zijn een obstakel voor taaltechnologiepijplijnen • lexicon-gebaseerde extractie van ingrediënten en hoeveelheden Image source: https://cdn.pixabay.com/photo/2014/11/15/20/30/kitchen-scale-532651_960_720.jpg D I G I TA L H U M A N I T I E S L A B
  16. 16. Evaluatie • 100 krantenartikelen handmatig geannoteerd met Recogito • OCR fouten in ingrediënten of hoeveelheden apart gemarkeerd • IAA .85 maar OCR woordgrenzen moeilijk: jºar,anen’ vs ◦ºar,anen’ (bananen) • Meest precieze lexicon: f1 = .67 • Maar: veel producten niet gevonden bv Delfiatablet, brandneteltopjes ← meer onderzoek nodig! D I G I TA L H U M A N I T I E S L A B
  17. 17. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B Stap 4: Verrijken via links naar andere datasets • Link ingrediënten naar DBpedia-nl • Van DBpedia-nl naar DBpedia-en • Van DBpedia-en naar GBIF • f1 = .65 • DBpedia heeft niet veel te zeggen over eten en etenswaren Image source: https://www.gbif.org/species/2930137
  18. 18. Resultaat: 27,411 nieuwe (oude) recepten • 34,479 Tags • 365,133 ingrediënten • >17,000 Links naar externe bronnen Bron: https://static.ah.nl/static/recepten/img_074629_890x594_JPG.jpgD I G I TA L H U M A N I T I E S L A B
  19. 19. Bron: https://resolver.kb.nl/resolve?urn=ABCDDD:010848341:mpeg21:a0207 D I G I TA L H U M A N I T I E S L A B What’s cooking? • Analyse • Welke trends kunnen we vinden in ingrediënten/ gerechten/tags? • Corresponderen deze trends met veranderingen in de maatschappij (e.g. migratiestromen, economische groei/recessie)? • Wat kunnen we leren over Nederlandse en buitenlandse eetcultuur uit historische recepten? • Uitbreidingen van de dataset: • Groter corpus • Voedingswaarden • Ingrediëntprijzen • Parallelle corpora voor andere keukens
  20. 20. Verder kijken dan eten: • Toe te passen op andere domeinen, zoals historische ecologie, journalistiek, informatie professionals • Factoren: • Datakwaliteit (born-digital vs analog content) • Wat is een acceptabele foutmarge • Human-in-the-loop D I G I TA L H U M A N I T I E S L A B Image source: https://upload.wikimedia.org/wikipedia/commons/1/1c/American_mink.jpg
  21. 21. Met dank aan: Image source: https://twelvemilesfromalemondotcom.files.wordpress.com/2014/09/img_0326.jpg

×