This document describes SHICO, a tool for studying how concepts emerge and transform over time in large digitized text corpora. SHICO uses word embeddings to create a multi-dimensional word vector space and trace concept networks over time. It visualizes concepts using stream graphs, network graphs, and vocabularies from 1940-1990 using a corpus of over 600,000 digitized Dutch newspapers. The document explains SHICO's design, how it traces and visualizes concepts, and provides screenshots of its interface showing examples analyzing the concept of "doping" over time. SHICO's code and models are publicly available online for others to use and integrate into their own tools.
Concepts Through Time: Tracing Concepts in Dutch Newspaper Discourse using Se...Melvin Wevers
This document discusses using sequential word vector spaces to trace concepts in Dutch newspaper discourse from 1890-1990. The authors describe existing challenges with top-down and predefined approaches. Their approach uses Google's word2vec model on 500,000 digitized newspaper issues to represent semantic and syntactic information geometrically across 40 sequential models spanning 10 year periods. They demonstrate tracking words associated with concepts like "buitenlanders" (foreigners) and "propaganda" over time to study changes in meaning and related terminology. The authors conclude this allows greater sensitivity to semantic changes based on the corpus and interactive concept tracing with the researcher. Future work could optimize the algorithm for different conceptual changes and use query expansion.
ROI Revolution Summit 2016 - Finding & Fixing Your Worst Pages in eCommerceMarta Dalton
Your site can always perform better, so how do you know where to start? Which pages need the most help and will give you the most "bang for your buck"? In this session, Marta will help you make the most of your time in finding your poor performers, diagnosing their problems, and fixing them quickly. Real world examples will be included from a B2C Internet Retailer Top 500 company as well as a Fortune 500 B2B company.
Presentation ikuru - familielandbruk konferanse oslo oktober 2014 finalrandilg
Mozambique has great agricultural potential but small-scale farming accounts for most employment and production. IKURU is a trading company that works with over 20,000 small-scale farmers, primarily in the Nampula region. It purchases crops from farmers and sells them locally and internationally, providing services like processing, certification, and input distribution. The goal of the joint cashew partnership between IKURU, Norges Vel, and Brynild Gruppen is to improve incomes for farmers by increasing cashew production and building strong farmer cooperatives, while also increasing profits for all partners through expanded processing, marketing, and sales of cashew in Scandinavian markets.
Introduction to Android (presented Mar 10, 2011)Charo Nuguid
This was presented at the STI Global - ICT Roadshow 2011, STI College Global City on March 10, 2011. Code sample used can be found in my website (http://www.thegeekettespeaketh.com)
If you would like me to talk about the details of this presentation with you, drop a comment and I'll see when I can conduct a zipcast for you.
Collecting a dataset of information behaviour in contextLeiden University
We collected human-computer interaction data (keystrokes, active applications, typed text, etc.) from knowledge workers in the context of writing reports and preparing presentations. This has resulted in an interesting dataset that can be used for different types of information retrieval and information seeking research. The details of the dataset are presented in this paper.
This document describes SHICO, a tool for studying how concepts emerge and transform over time in large digitized text corpora. SHICO uses word embeddings to create a multi-dimensional word vector space and trace concept networks over time. It visualizes concepts using stream graphs, network graphs, and vocabularies from 1940-1990 using a corpus of over 600,000 digitized Dutch newspapers. The document explains SHICO's design, how it traces and visualizes concepts, and provides screenshots of its interface showing examples analyzing the concept of "doping" over time. SHICO's code and models are publicly available online for others to use and integrate into their own tools.
Concepts Through Time: Tracing Concepts in Dutch Newspaper Discourse using Se...Melvin Wevers
This document discusses using sequential word vector spaces to trace concepts in Dutch newspaper discourse from 1890-1990. The authors describe existing challenges with top-down and predefined approaches. Their approach uses Google's word2vec model on 500,000 digitized newspaper issues to represent semantic and syntactic information geometrically across 40 sequential models spanning 10 year periods. They demonstrate tracking words associated with concepts like "buitenlanders" (foreigners) and "propaganda" over time to study changes in meaning and related terminology. The authors conclude this allows greater sensitivity to semantic changes based on the corpus and interactive concept tracing with the researcher. Future work could optimize the algorithm for different conceptual changes and use query expansion.
ROI Revolution Summit 2016 - Finding & Fixing Your Worst Pages in eCommerceMarta Dalton
Your site can always perform better, so how do you know where to start? Which pages need the most help and will give you the most "bang for your buck"? In this session, Marta will help you make the most of your time in finding your poor performers, diagnosing their problems, and fixing them quickly. Real world examples will be included from a B2C Internet Retailer Top 500 company as well as a Fortune 500 B2B company.
Presentation ikuru - familielandbruk konferanse oslo oktober 2014 finalrandilg
Mozambique has great agricultural potential but small-scale farming accounts for most employment and production. IKURU is a trading company that works with over 20,000 small-scale farmers, primarily in the Nampula region. It purchases crops from farmers and sells them locally and internationally, providing services like processing, certification, and input distribution. The goal of the joint cashew partnership between IKURU, Norges Vel, and Brynild Gruppen is to improve incomes for farmers by increasing cashew production and building strong farmer cooperatives, while also increasing profits for all partners through expanded processing, marketing, and sales of cashew in Scandinavian markets.
Introduction to Android (presented Mar 10, 2011)Charo Nuguid
This was presented at the STI Global - ICT Roadshow 2011, STI College Global City on March 10, 2011. Code sample used can be found in my website (http://www.thegeekettespeaketh.com)
If you would like me to talk about the details of this presentation with you, drop a comment and I'll see when I can conduct a zipcast for you.
Collecting a dataset of information behaviour in contextLeiden University
We collected human-computer interaction data (keystrokes, active applications, typed text, etc.) from knowledge workers in the context of writing reports and preparing presentations. This has resulted in an interesting dataset that can be used for different types of information retrieval and information seeking research. The details of the dataset are presented in this paper.
Silex is a brand new PHP 5.3 micro framework built on top of the Symfony2 de decoupled components. In this session, we will discover how to build and deploy powerful REST web services with such a micro framework and its embedded tools.
The first part of this talk will introduce the basics of the REST architecture. We fill focus on the main concepts of REST like HTTP methods, URIs and open formats like XML and JSON.
Then, we will discover how to deploy REST services using most of interesting Silex tools like database abstraction layer, template engine and input validation. We will also look at unit and functional testing frameworks with PHPUnit and HTTP caching with Edge Side Includes and Varnish support to improve performances.
1) O documento discute a importância de desenvolver líderes em potencial nos grupos pequenos para que esses grupos cresçam e se multipliquem.
2) Ele fornece estratégias para identificar, relacionar-se com e treinar líderes em potencial, incluindo estabelecer expectativas e visão compartilhada.
3) O objetivo final é mobilizar esses líderes desenvolvidos para liderarem seus próprios grupos, de modo a multiplicar a liderança e alcançar mais pessoas.
35831357 mateus-interlinear-grego-portuguesLuiz Augusto
1) O texto apresenta a genealogia de Jesus Cristo desde Abraão até José, marido de Maria. 2) Ao nascer em Belém, Jesus foi visitado por magos que seguiram uma estrela até encontra-lo. 3) Herodes ficou preocupado com o nascimento do "rei dos judeus" e consultou especialistas para descobrir onde ocorreria.
Symfony2 - Un Framework PHP 5 PerformantHugo Hamon
L’arrivée de PHP 5.3 en milieu d’année 2009 a bouleversé la manière de développer des applications web. En effet, cette nouvelle version a apporté de nouveaux outils au langage tels que les espaces de nommage qui favorisent la réutilisabilité du code lorsqu’ils sont employés à bon escient. Les nouveaux frameworks de développement rapide ont aussi suivi le mouvement et reposent sur la base de PHP 5.3. C’est le cas de Symfony2 dont la version stable est prévue prochainement.
Cette présentation offre un tour d’horizon de la nouvelle architecture du framework qui s’articule autour de “bundles”, de librairies externes et de nombreux composants indépendants tels que le conteneur d’injection de dépendances. Nous dresserons un panorama des principales fonctionnalités offertes par le framework telles que la couche d’ORM Doctrine 2, le moteur de templating Twig et la gestion des formulaires. Nous nous intéresserons également à la gestion du cache HTTP, à la couche de sécurité ainsi qu’aux outils de débogage destinés à améliorer la productivité du développeur et la maintenance de l’application.
Next-generation integrated business planning: The Deloitte Perspective | AnaplanAnaplan
How can smart planning help your business become more agile and connected? What business activities can benefit from an integrated, real-time planning approach?
In this informative webinar, Bart Hughes from Deloitte will share perspectives on what business planning activites to integrate and when to do so on the journey to integrated business planning (IBP). You’ll gain perspective from Deloitte planning process experts across Finance, Sales, HR, and Supply Chain on how next-generation IBP can benefit your business and the steps you can take to get there.
https://www.anaplan.com/webinars/next-generation-integrated-business/
Anaplan SPM Webinar 2: Transitioning from spreadsheet-based territory managem...Anaplan
In the second webinar in Anaplan's sales performance management series, we explore three key benefits of transitioning away from spreadsheets for managing territories and sales capacity planning.
Paradoxalement, Symfony2 n'est pas qu'un framework "full-stack". Il s'agit avant tout d'une parfaite synergie de briques logicielles autonomes qui travaillent de concert sous la baguette d'un seul chef d'orchestre : le conteneur d'injection de dépendances. Mais savez-vous que vous pouvez aussi les utiliser sans le framework ? Tous ces composants indépendants sont distribués sous licence MIT et offrent aux développeurs la liberté de les utiliser dans leurs projets PHP. Au cours de cette session, nous mettrons en lumière les fonctionnalités offertes par les principaux composants de Symfony2 tels que DependencyInjection, Console, Finder, EventDispatcher, Translation et bien d'autres encore. Vous découvrirez comment les intégrer et les utiliser dans vos projets PHP, et ainsi devenir le prochain Maestro du web.
Maandag 9 november
Sessieronde 1
Titel: Learning analytics architecturen 1
Spreker(s): Alexander Blanc (SURFnet), Herman van Dompseler (SURFnet)
Zaal: Penn I & II
Module 4 | CEST-richtlijnen voor beheerders van digitale collecties | BewarenPACKED vzw
Naarmate er meer gedigitaliseerd wordt en er meer digitale objecten in een erfgoedcollectie worden bewaard, stijgt ook het belang van een afdoende planning en infrastructuur voor het bewaren van al dat digitaal materiaal. In deze sessie worden basisbegrippen van het digitaal archiveren verklaard aan de hand van de CEST-richtlijn bewaren en het Scoremodel voor digitaal archiveren.
Silex is a brand new PHP 5.3 micro framework built on top of the Symfony2 de decoupled components. In this session, we will discover how to build and deploy powerful REST web services with such a micro framework and its embedded tools.
The first part of this talk will introduce the basics of the REST architecture. We fill focus on the main concepts of REST like HTTP methods, URIs and open formats like XML and JSON.
Then, we will discover how to deploy REST services using most of interesting Silex tools like database abstraction layer, template engine and input validation. We will also look at unit and functional testing frameworks with PHPUnit and HTTP caching with Edge Side Includes and Varnish support to improve performances.
1) O documento discute a importância de desenvolver líderes em potencial nos grupos pequenos para que esses grupos cresçam e se multipliquem.
2) Ele fornece estratégias para identificar, relacionar-se com e treinar líderes em potencial, incluindo estabelecer expectativas e visão compartilhada.
3) O objetivo final é mobilizar esses líderes desenvolvidos para liderarem seus próprios grupos, de modo a multiplicar a liderança e alcançar mais pessoas.
35831357 mateus-interlinear-grego-portuguesLuiz Augusto
1) O texto apresenta a genealogia de Jesus Cristo desde Abraão até José, marido de Maria. 2) Ao nascer em Belém, Jesus foi visitado por magos que seguiram uma estrela até encontra-lo. 3) Herodes ficou preocupado com o nascimento do "rei dos judeus" e consultou especialistas para descobrir onde ocorreria.
Symfony2 - Un Framework PHP 5 PerformantHugo Hamon
L’arrivée de PHP 5.3 en milieu d’année 2009 a bouleversé la manière de développer des applications web. En effet, cette nouvelle version a apporté de nouveaux outils au langage tels que les espaces de nommage qui favorisent la réutilisabilité du code lorsqu’ils sont employés à bon escient. Les nouveaux frameworks de développement rapide ont aussi suivi le mouvement et reposent sur la base de PHP 5.3. C’est le cas de Symfony2 dont la version stable est prévue prochainement.
Cette présentation offre un tour d’horizon de la nouvelle architecture du framework qui s’articule autour de “bundles”, de librairies externes et de nombreux composants indépendants tels que le conteneur d’injection de dépendances. Nous dresserons un panorama des principales fonctionnalités offertes par le framework telles que la couche d’ORM Doctrine 2, le moteur de templating Twig et la gestion des formulaires. Nous nous intéresserons également à la gestion du cache HTTP, à la couche de sécurité ainsi qu’aux outils de débogage destinés à améliorer la productivité du développeur et la maintenance de l’application.
Next-generation integrated business planning: The Deloitte Perspective | AnaplanAnaplan
How can smart planning help your business become more agile and connected? What business activities can benefit from an integrated, real-time planning approach?
In this informative webinar, Bart Hughes from Deloitte will share perspectives on what business planning activites to integrate and when to do so on the journey to integrated business planning (IBP). You’ll gain perspective from Deloitte planning process experts across Finance, Sales, HR, and Supply Chain on how next-generation IBP can benefit your business and the steps you can take to get there.
https://www.anaplan.com/webinars/next-generation-integrated-business/
Anaplan SPM Webinar 2: Transitioning from spreadsheet-based territory managem...Anaplan
In the second webinar in Anaplan's sales performance management series, we explore three key benefits of transitioning away from spreadsheets for managing territories and sales capacity planning.
Paradoxalement, Symfony2 n'est pas qu'un framework "full-stack". Il s'agit avant tout d'une parfaite synergie de briques logicielles autonomes qui travaillent de concert sous la baguette d'un seul chef d'orchestre : le conteneur d'injection de dépendances. Mais savez-vous que vous pouvez aussi les utiliser sans le framework ? Tous ces composants indépendants sont distribués sous licence MIT et offrent aux développeurs la liberté de les utiliser dans leurs projets PHP. Au cours de cette session, nous mettrons en lumière les fonctionnalités offertes par les principaux composants de Symfony2 tels que DependencyInjection, Console, Finder, EventDispatcher, Translation et bien d'autres encore. Vous découvrirez comment les intégrer et les utiliser dans vos projets PHP, et ainsi devenir le prochain Maestro du web.
Maandag 9 november
Sessieronde 1
Titel: Learning analytics architecturen 1
Spreker(s): Alexander Blanc (SURFnet), Herman van Dompseler (SURFnet)
Zaal: Penn I & II
Module 4 | CEST-richtlijnen voor beheerders van digitale collecties | BewarenPACKED vzw
Naarmate er meer gedigitaliseerd wordt en er meer digitale objecten in een erfgoedcollectie worden bewaard, stijgt ook het belang van een afdoende planning en infrastructuur voor het bewaren van al dat digitaal materiaal. In deze sessie worden basisbegrippen van het digitaal archiveren verklaard aan de hand van de CEST-richtlijn bewaren en het Scoremodel voor digitaal archiveren.
Open education en learning analytics - Sander Latour en Robert Schuwer - OWD13SURF Events
Sessieronde 2
Zaal: Diamond l
Titel: Open education en learning analytics: een gouden combinatie?
Sprekers: Sander Latour (Universiteit van Amsterdam), Robert Schuwer (Open Universiteit)
‘Big models’: the success and pitfalls of Transformer models in natural langu...Leiden University
Abstract: Large Language Models receive a lot of attention in the media these days. We have all experienced that generative language models of the GPT family are very fluent and can convincingly answer complex questions. But they also have their limitations and pitfalls. In this presentation I will introduce Transformer-based language models, explain the relation between BERT, GPT, and the 130 thousand other models available on https://huggingface.co. I will discuss their use and applications and why they are so powerful. Then I will point out challenges and pitfalls of Large Language Models and the consequences for our daily work and education.
This document discusses text mining of patient discussion forums to extract health knowledge and experiences. It describes how forums provide information on patient journeys, side effects, coping strategies, and quality of life that can complement medical data. As an example, a gastrointestinal tumor forum was analyzed to extract mentions of adverse drug events and related treatments. Automated methods were able to extract this information with over 70% accuracy compared to human annotations. The extracted data provided additional insights into reported side effects compared to clinical trial data. The document also discusses ongoing work to extract patients' coping strategies for side effects.
Suzan Verberne gave a workshop on using text mining for lexicography. She discussed using word embeddings to help discover and select new lemmas for dictionaries. Word2Dict is a lexicographic tool that uses word embeddings to present words semantically related to the lemma being described. Word embeddings learn dense vector representations of words by predicting words in context using neural networks, improving on the traditional sparse vector space model. Word embeddings can be trained using the Word2Vec algorithm and analyzed using the Gensim Python package to gain linguistic insights and improve natural language processing applications.
General background and conceptual explanation of word embeddings (word2vec in particular). Mostly aimed at linguists, but also understandable for non-linguists.
Leiden University, 23 March 2018
- The document discusses automatic summarization of discussion forum threads to help mobile users access long threads more easily.
- Researchers collected forum threads annotated by human raters to identify important posts, finding low agreement between raters.
- They trained classifiers on this data to select important posts and sentences, evaluating against human summaries. The model achieved a Cohen's Kappa of 0.138, higher than baselines and human-human agreement. In a blind comparison, people preferred the model's summary over a human summary 51.7% of the time.
Leer je digitale klanten kennen: hoe zoeken ze en wat vinden ze?Leiden University
Het is niet eenvoudig te achterhalen wat de gebruiker van een zoeksysteem precies wil weten. Queries zijn namelijk bijna altijd ondergespecificeerd en welke resultaten relevant zijn, hangt af van de individuele gebruiker. Eén manier om de gebruiker toch zo goed mogelijk van dienst te zijn, is diversiteit aanbrengen in de zoekresultaten, en in de interface van het zoeksysteem. Ik laat in mijn presentatie verschillende soorten zoektechnologie zien, die u allemaal kent uit de praktijk. Een andere manier om de gebruiker beter te ondersteunen, is door te personaliseren: de zoekresultaten af te stemmen op de individuele gebruiker. Als we willen weten hoe een zoeksysteem gebruikt wordt, kunnen in de logdata duiken. Wat je daar niet uit kunt afleiden, is wat het doel van de gebruiker was en of hij tevreden was. Om dat te achterhalen, moeten we een gebruikersstudie opzetten. Ik geef een voorbeeld van zo’n gebruikersstudie, en laat zien wat de uitkomst was.
Search engines for the humanities that go beyond GoogleLeiden University
Suzan Verberne discusses limitations of using Google to search specialized text collections for the humanities. Current search systems only highlight query terms and do not provide guidance through retrieved documents. The presentation proposes extracting important entities, labeling them, and collecting facts from texts to enrich documents with contextual information. This would allow search systems to better guide users through relevant information in response to their specific questions. Technology like named entity recognition and parsing sentences into facts could help realize this vision of more specialized search engines for the humanities.
2. Wie ben ik
• PhD from Radboud University in 2010, on Information Retrieval / Natural
Language Processing
• Research topics since then:
- Text classification
- Information Extraction
- Personalized content filtering
- Information seeking behavior
- Information access for the humanities
- Summarization of discussion forum threads
• Teaching:
- Text Mining
- Information Retrieval
7. Tekstclassificatie
• Op basis van welke kenmerken heb je je beslissing genomen?
• Classificatieprobleem: kiezen tussen twee of meer alternatieven (classes)
• De kenmerken die je gebruikt om je beslissing te maken zijn features
• Voor tekstclassificatie worden meestal de woorden uit het document
gebruikt als features
17. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie
18. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie
19. Definieer je taak
• Wat is de teksteenheid die je wilt classificeren?
- Hele documenten (denk aan een e-mailarchief: classificatie per bericht)
- Secties? (denk aan notulen, of partijprogramma’s)
- Zinnen? (denk aan taalherkenning of sentimentclassificatie)
• Wat zijn de categorieën?
• Voorbeeld-probleem:
Verkiezingsprogramma’s geannoteerd door Isaac Lipschits
20.
21.
22.
23. Lipschits-classificatie-probleem
Doelen (PoliticalMashup project):
1. Digitaliseer de 1977–1998 Lipschits collecties
2. Bouw een automatische classifier voor recentere, ongeannoteerde edities
Aanpak:
1. Zet de gescande PDF’s uit 1986, 1994 en 1998 om naar teksten met labels
2. Train en evalueer hiermee een classifier
3. Pas de classifier toe op de 2006-2012 data
24. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie
27. Hoe kom je aan voorbeelddata?
1. Bestaande data
- Door experts gemaakte indelingen, bijvoorbeeld
– Patentclassificatie
– Partijprogramma’s, door Isaac Lipschits van trefwoorden voorzien
- Door leken gemaakte indelingen (user-generated content), bijvoorbeeld
– Hashtags als categorieën: #fail voor negatief sentiment
28. Hoe kom je aan voorbeelddata?
2. Voorbeelddata (laten) maken
- Maak een selectie van documenten
- Definieer een set van categorieën
- Menselijke classificatie
– Experts
– Crowdsourcing (Amazon Mechanical Turk, Crowdflower)
• Hoeveel voorbeelddata heb je nodig?
- Minimaal enkele tientallen/honderden per categorie
- Hoe meer, hoe beter
- Hoe moeilijker het probleem, hoe meer voorbeelden nodig
Mechanical Turk, an expression used for
machines or devices that can purportedly do a
fully automated task, but which in reality is
done by a hidden person
30. Inter-rater agreement
• 2 menselijke classifiers zijn het nooit 100% met elkaar eens
• Laat altijd een deel van de voorbeelddata door 2 of 3 mensen classificeren
• En bereken dan hun onderlinge overeenstemming (agreement)
• Dan weet je hoe betrouwbaar de voorbeelddata is
• Referentie-data = ‘gold standard’ / ‘ground truth’
voor wie meer wil weten:
Cohen’s Kappa
31. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie
33. Woorden zijn features
Doc id Content Class
1 request urgent interest urgent Spam
2 assistance low interest deposit Spam
3 symposium defense june No spam
4 notas symposium deadline june No spam
5 registration assistance symposium deadline ?
• Keuzes in het maken van de features:
- Wel of niet stopwoorden (functiewoorden) weggooien
- Hoeveel features gebruiken (grootte van vocabulaire van de classifier)
- Wel of niet lemmatiseren (interests interest)
- Wel of niet woordgroepen meenemen als features (“PhD defense”)
- Featurewaarde binair (wel/niet voorkomen), het aantal keer, of een gewogen score
34. Classificatie-methoden
• Veel gebruikte methoden:
- Bereken de kans op het voorkomen van elke term gegeven elke categorie op basis van de
voorkomens in de trainingsdata (Naïve Bayes)
- Leer regels, bijvoorbeeld “als de e-mail het woord ‘urgent’ bevat dan is het spam” (Decision
Trees)
- Bepaal waar precies de verschillen tussen twee categorieën zitten; zoek voorbeelden in de
trainingsdata die precies op de grens tussen twee categorieën zitten (Support Vector
Machines)
- Vind de voorbeelden in de trainingsdata die het meest lijken op het te classificeren
document (kNN)
• Meestal werken we met een experimentele omgeving waar we methoden
kunnen vergelijken. Bijvoorbeeld Scikit-learn in Python
35. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie
36. Evaluatie
• Hoe goed is de classifier?
• meten op voorbeelddata (want daarvan weten we de categorieën)
- Splits de voorbeelddata in een trainingset en een testset
- Bijvoorbeeld 80% om te trainen en 20% om te testen
- Of, als je niet zoveel data hebt, steeds roterende 80-20 (cross validation)
• In het geval van Lipschits:
- Trainen op 1986 en 1994
- Toepassen op 1998 (met labels, dus bruikbaar als testset)
- Na optimalisatie toepassen op 2006-2012 data (zonder labels)
37. Evaluatiematen
• Menselijke classificatie = referentie
• Classificatie door automatische classifier
• 8 ware categorieën
- waarvan 5 toegekend
- Recall = 5/8
• 6 toegekende categorieën
- waarvan 5 correct
- Precisie = 5/6
• We rapporteren meestal
het gemiddelde:
F1 = 2×
precision ×recall
precision + recall
38. Resultaten: wat kun je verwachten?
• Waar hangt de kwaliteit van de classifier van af?
- De moeilijkheid van de taak: hoe meer categorieën, hoe moeilijker (de inter-
rater agreement is een indicator)
- De hoeveelheid trainingsdocumenten en de kwaliteit van de handmatige
classificatie
- De lengte van de documenten: korte documenten zijn moeilijker te
classificeren
39. Resultaten: wat kun je verwachten?
• Wat is een reële F-score?
- Makkelijke binaire classificatietaak: 90-99%
– Bijvoorbeeld: herken book search requests op een lezers-discussie-forum
- Moeilijke multi-label classificatietaak: 30-70%
– De categorieën met weinig voorbeelden halen de gemiddelde nauwkeurigheid
omlaag
– Bijvoorbeeld: patentclassificatie, Lipschits partijprogramma’s
• Resultaten voor de 1998-partijprogramma’s (Lipschits-classificatie)
- Precisie: ~70%
- Recall: 37%
40. Wat is nodig voor tekstclassificatie
• Definitie van de taak
• Voorbeelddata
• Feature-extractie
• Classificatiemethode
• Evaluatie