Talk I gave at the Data Science Northeast Netherlands Meetup, where I detail the custom in-house entity linking framework, sentiment analysis, and entity salience scoring model we developed for Company.info, in addition to showing some example applications of our corpus of news articles linked to organization profiles.
Slides of the talk I gave at PyData Amsterdam.
Abstract:
"The FD Mediagroep collects, analyses and filters valuable and relevant information, 24/7, for an influential group of professionals, business executives and high net worth individuals. Company.info (part of FDMG) provides complete, reliable, up-to-date company information and business news about no less than 2.7 million companies and other legal entities in the Netherlands. For Company.info we continuously monitor and crawl hundreds of (online) news sources, resulting in a large archive of (Dutch) business-related news, spanning hundreds of thousands of articles. These articles are automatically enriched, by linking the profiles of companies that are mentioned in the articles, using a custom in-house entity linking framework built in Python. In this talk, I will briefly explain the entity linking task, I will detail the implementation of our custom entity linking framework, and our pipeline for crawling and enriching news articles."
Ben Companjen, Peter Verhaar en Laurents Sesink, all from the Centre for Digital Scholarship, act together in an elaborate overview of the ins and outs of text and data mining and the services provided by Leiden University Libraries.
Rotterdam Open Data initiatief zoekt partnersSuzanne Hansen
Presentatie van mei 2012. Het Rotterdam Open Data project groeit! Van een onderwijsinitiatief van de Hogeschool Rotterdam samen met de gemeente Rotterdam en 3 partners, ambieert het Open Data project om veel meer partijen in Rotterdam te verbinden en te inspireren. We werken aan een datastore gericht op het faciliteren van een groeiende community van mensen die met open data apps en toepassingen willen maken en/of een meer transparante overheid nastreven.
Workshop op de studiedag van Digitaal Erfgoed Nederland: Baas over eigen metadadata, gegeven door Open Cultuur Data en de Open Knowledge Foundation. Onderwerp: de risico's en voordelen van open data.
28 juni 2012, Utrecht, Geldmuseum
www.opencultuurdata.nl
Op 2 november 2016 vond in Dutch Game Garden Utrecht de door CLICKNL|Games en DGA georganiseerde financieringsvoorlichting plaats. Bekijk hier de opties die besproken zijn.
Slides of the talk I gave at PyData Amsterdam.
Abstract:
"The FD Mediagroep collects, analyses and filters valuable and relevant information, 24/7, for an influential group of professionals, business executives and high net worth individuals. Company.info (part of FDMG) provides complete, reliable, up-to-date company information and business news about no less than 2.7 million companies and other legal entities in the Netherlands. For Company.info we continuously monitor and crawl hundreds of (online) news sources, resulting in a large archive of (Dutch) business-related news, spanning hundreds of thousands of articles. These articles are automatically enriched, by linking the profiles of companies that are mentioned in the articles, using a custom in-house entity linking framework built in Python. In this talk, I will briefly explain the entity linking task, I will detail the implementation of our custom entity linking framework, and our pipeline for crawling and enriching news articles."
Ben Companjen, Peter Verhaar en Laurents Sesink, all from the Centre for Digital Scholarship, act together in an elaborate overview of the ins and outs of text and data mining and the services provided by Leiden University Libraries.
Rotterdam Open Data initiatief zoekt partnersSuzanne Hansen
Presentatie van mei 2012. Het Rotterdam Open Data project groeit! Van een onderwijsinitiatief van de Hogeschool Rotterdam samen met de gemeente Rotterdam en 3 partners, ambieert het Open Data project om veel meer partijen in Rotterdam te verbinden en te inspireren. We werken aan een datastore gericht op het faciliteren van een groeiende community van mensen die met open data apps en toepassingen willen maken en/of een meer transparante overheid nastreven.
Workshop op de studiedag van Digitaal Erfgoed Nederland: Baas over eigen metadadata, gegeven door Open Cultuur Data en de Open Knowledge Foundation. Onderwerp: de risico's en voordelen van open data.
28 juni 2012, Utrecht, Geldmuseum
www.opencultuurdata.nl
Op 2 november 2016 vond in Dutch Game Garden Utrecht de door CLICKNL|Games en DGA georganiseerde financieringsvoorlichting plaats. Bekijk hier de opties die besproken zijn.
Workshop gegeven op de SION conferentie "Digitale Informatiehuishouding in het onderwijs" op 24 april 2015 door Jelle Nauta van Cap Gemini/programma architect Doorontwikkeling Bron, Dienst Uitvoering Onderwijs (DUO, Ministerie van OCW) en Walter Grabner, standaardisatie expert bij EduStandaard/Kennisnet.
Onderwerp: de rol van semantiek, specifiek het Kernmodel Onderwijs Informatie (KOI) bij het delen van gegevens binnen het onderwijsveld. Het KOI wordt beheerd door EduStandaard/Kennisnet.
HSB - NWO Onderzoeksprojecten - Jan Piet BarthelSplend
De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) is een van de grootste wetenschapsfinanciers in Nederland. Op basis van de Nationale Cyber Security Research Agenda (NCSRA-II), die invulling geeft aan één van de speerpunten uit Nationale Cyber Security Strategie (NCSS2), voert NWO in samenwerking met de Rijksdienst voor Ondernemend Nederland een omvangrijk Cyber Security Onderzoeksprogramma uit.
Presentatie verzorgd op het Natinaal Congres Open Data 2013, te Eindhoven. Centrale boodschap: Ken je data! Presentatie laat zien hoe je uit data verhalen / kennis maakt, maar dit eigenlijk alleen kan doen als je de (herkomst van de) data kent!
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyDavid Graus
Lezing op de VOGIN-IP-lezing op 28 maart 2018 bij de Openbare Bibliotheek Amsterdam.
DISCLAIMER: dit praatje is een mooi stukje ouderwetse (menselijke) manipulatie: expert komt met een 5-tal aanbevelingen :-).
"Tegenwoordig kijkt men steeds vaker met argusogen naar technologiebedrijven die op grote schaal gebruikersgedrag verzamelen. In dit praatje zet ik uiteen waarom het inzetten van gebruikersgedrag van belang is, en hoe het wordt gebruikt om informatie effectief te kunnen ontsluiten en doorzoekbaar maken, of het nu gaat om een zoekmachine als Google, die zich een weg moet banen door een web van miljarden pagina’s, of een service als Spotify, die haar gebruikers graag de juiste muziek blijft aanbieden."
Non-profitorganisaties toonden hun weerstand en innovatie in 2020 om een zeer moeilijk jaar te overwinnen, ik ben verheugd om te zien dat de non-profitsector buiten de gebaande paden blijft denken voor 2021.
Ontdek hoe Fintech je kan helpen bij fondsenwerving in deze webinar recording: https://app.livestorm.co/techne/ontdek-hoe-4-technologieen-helpen-bij-fondsenwerving?type=detailed
Op 11 december organiseerde provincie Vlaams-Brabant 'Vlaams-Brabant groeit slim, duurzaam en inclusief in Europa' over de nieuwe Europese programmaperiode.
Vleva presenteerde er de trends en de subsidieprogramma's van de nieuwe periode 2014-2020.
Pragmatic ethical and fair AI for data scientistsDavid Graus
1. David Graus presented on pragmatic and fair AI for recruitment and news recommendations.
2. He discussed how algorithms can unintentionally learn and reflect human biases around gender and race. However, AI may also help address these biases, such as through representational ranking in recruitment to achieve demographic parity.
3. Graus also explored using editorial values like diversity, dynamism and serendipity to guide news recommendations, and found their system could increase dynamism without loss of accuracy through constrained intervention.
Slidedeck of my lecture at SIKS Course "Advances in Information Retrieval"
Read more here: https://graus.nu/blog/bias-in-recommendations-lecture-siks-course-on-advances-in-ir/
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.David Graus
The document summarizes research on recommender systems in the media industry. It discusses how FD Mediagroup uses recommender systems for their SMART Radio and SMART Journalism products. Key aspects of building a recommender system that FD focuses on include relevance, usefulness, and trust. Relevance is evaluated using metrics like NDCG, MAP, and R-Precision. Usefulness considers both algorithmic goals like diversity and business goals. Trust is evaluated based on whether users engage with the recommender system.
Workshop gegeven op de SION conferentie "Digitale Informatiehuishouding in het onderwijs" op 24 april 2015 door Jelle Nauta van Cap Gemini/programma architect Doorontwikkeling Bron, Dienst Uitvoering Onderwijs (DUO, Ministerie van OCW) en Walter Grabner, standaardisatie expert bij EduStandaard/Kennisnet.
Onderwerp: de rol van semantiek, specifiek het Kernmodel Onderwijs Informatie (KOI) bij het delen van gegevens binnen het onderwijsveld. Het KOI wordt beheerd door EduStandaard/Kennisnet.
HSB - NWO Onderzoeksprojecten - Jan Piet BarthelSplend
De Nederlandse Organisatie voor Wetenschappelijk Onderzoek (NWO) is een van de grootste wetenschapsfinanciers in Nederland. Op basis van de Nationale Cyber Security Research Agenda (NCSRA-II), die invulling geeft aan één van de speerpunten uit Nationale Cyber Security Strategie (NCSS2), voert NWO in samenwerking met de Rijksdienst voor Ondernemend Nederland een omvangrijk Cyber Security Onderzoeksprogramma uit.
Presentatie verzorgd op het Natinaal Congres Open Data 2013, te Eindhoven. Centrale boodschap: Ken je data! Presentatie laat zien hoe je uit data verhalen / kennis maakt, maar dit eigenlijk alleen kan doen als je de (herkomst van de) data kent!
Zoeken, vinden, en aanbevelen: personalisatie vs. privacyDavid Graus
Lezing op de VOGIN-IP-lezing op 28 maart 2018 bij de Openbare Bibliotheek Amsterdam.
DISCLAIMER: dit praatje is een mooi stukje ouderwetse (menselijke) manipulatie: expert komt met een 5-tal aanbevelingen :-).
"Tegenwoordig kijkt men steeds vaker met argusogen naar technologiebedrijven die op grote schaal gebruikersgedrag verzamelen. In dit praatje zet ik uiteen waarom het inzetten van gebruikersgedrag van belang is, en hoe het wordt gebruikt om informatie effectief te kunnen ontsluiten en doorzoekbaar maken, of het nu gaat om een zoekmachine als Google, die zich een weg moet banen door een web van miljarden pagina’s, of een service als Spotify, die haar gebruikers graag de juiste muziek blijft aanbieden."
Non-profitorganisaties toonden hun weerstand en innovatie in 2020 om een zeer moeilijk jaar te overwinnen, ik ben verheugd om te zien dat de non-profitsector buiten de gebaande paden blijft denken voor 2021.
Ontdek hoe Fintech je kan helpen bij fondsenwerving in deze webinar recording: https://app.livestorm.co/techne/ontdek-hoe-4-technologieen-helpen-bij-fondsenwerving?type=detailed
Op 11 december organiseerde provincie Vlaams-Brabant 'Vlaams-Brabant groeit slim, duurzaam en inclusief in Europa' over de nieuwe Europese programmaperiode.
Vleva presenteerde er de trends en de subsidieprogramma's van de nieuwe periode 2014-2020.
Pragmatic ethical and fair AI for data scientistsDavid Graus
1. David Graus presented on pragmatic and fair AI for recruitment and news recommendations.
2. He discussed how algorithms can unintentionally learn and reflect human biases around gender and race. However, AI may also help address these biases, such as through representational ranking in recruitment to achieve demographic parity.
3. Graus also explored using editorial values like diversity, dynamism and serendipity to guide news recommendations, and found their system could increase dynamism without loss of accuracy through constrained intervention.
Slidedeck of my lecture at SIKS Course "Advances in Information Retrieval"
Read more here: https://graus.nu/blog/bias-in-recommendations-lecture-siks-course-on-advances-in-ir/
RecSys in the Media Industry: Relevance, Recency, Popularity, and Diversity.David Graus
The document summarizes research on recommender systems in the media industry. It discusses how FD Mediagroup uses recommender systems for their SMART Radio and SMART Journalism products. Key aspects of building a recommender system that FD focuses on include relevance, usefulness, and trust. Relevance is evaluated using metrics like NDCG, MAP, and R-Precision. Usefulness considers both algorithmic goals like diversity and business goals. Trust is evaluated based on whether users engage with the recommender system.
Layman's Talk: Entities of Interest --- Discovery in Digital TracesDavid Graus
The document outlines a program that includes a committee grilling a speaker at 10:00, the committee retreating afterwards, a ceremony at 10:15, and a reception downstairs from 11:00 to 12:30.
De Macht van Data --- Hoe algoritmen ons leven vormgevenDavid Graus
Slides of the introductory talk I gave at an event at De Balie: "De macht van data" on June 18th, 2017.
For a video recording of the talk see: http://graus.co/blog/mini-college-algoritmen/
Dynamic Collective Entity Representations for Entity RankingDavid Graus
This document proposes using collective intelligence to dynamically enrich entity representations from multiple sources like knowledge bases, anchors, tags, and tweets. It presents an adaptive ranking model that learns optimal weights for ranking features like field similarity and importance over time. An experiment on query logs shows expanding entities with different sources improves ranking and retraining the ranker with new content further enhances performance.
Dynamic Collective Entity Representations for Entity RankingDavid Graus
This document proposes using dynamic collective entity representations to improve entity ranking. It describes enriching static entity representations from knowledge bases with descriptions from dynamic sources like tweets, queries, and tags. An adaptive ranking model individually weights each description source and retrains over time using clicks. Experimental results show expanding representations and retraining the ranker improves ranking performance compared to a non-adaptive model, with different sources providing varying benefits depending on their dynamic nature and entity coverage.
David Graus presents his research on using semantic search techniques to improve information retrieval for digital forensic evidence from emails and other electronic documents. He discusses using social network analysis of communication patterns and language models of email content to predict likely recipients of emails. By combining these approaches, he is able to more accurately rank potential recipients than using either technique alone. Future work includes incorporating organizational structure and decay of communication patterns over time.
David Graus - Entity Linking (at SEA), Search Engines Amsterdam, Fri June 27thDavid Graus
David Graus from the University of Amsterdam gave a presentation on entity linking at the Search Engines Amsterdam conference on June 27th. He began by defining entity linking as linking mentions of entities in text to their corresponding entities in a knowledge base. He then gave an example of entity linking and discussed ranking entity candidates based on their prior probabilities like link probability and commonness. Finally, he described using both local and global features in supervised learning models to improve entity linking accuracy.
This document discusses understanding email traffic patterns through recipient recommendation. It explores using social network analysis and language models of email content to predict likely recipients of a given email. Specifically, it examines using measures of node importance in the network, strength of connections between nodes, and similarity between language models of communication profiles to rank and select recipient nodes. The findings indicate that combining social network analysis and language modeling performs better than either approach individually, and that language model similarity is most important for interpersonal communication, while network metrics are more informative for highly active users. Recipient recommendation could help with applications like anomaly detection in e-discovery.
Generating Pseudo-ground Truth for Detecting New Concepts in Social StreamsDavid Graus
The manual curation of knowledge bases is a bottleneck in fast paced domains where new concepts constantly emerge. Identification of nascent concepts is important for improving early entity linking, content interpretation, and recommendation of new content in real-time applications. We present an unsupervised method for generating pseudo-ground truth for training a named entity recognizer to specifically identify entities that will become concepts in a knowledge base in the setting of social streams. We show that our method is able to deal with missing labels, justifying the use of pseudo-ground truth generation in this task. Finally, we show how our method significantly outperforms a lexical-matching baseline, by leveraging strategies for sampling pseudo-ground truth based on entity confidence scores and textual quality of input documents.
yourHistory - entity linking for a personalized timeline of historic eventsDavid Graus
The document describes an entity linking approach to generate a personalized timeline of historic events for a user. It involves 4 main parts: (1) fetching candidate historic events from DBpedia, (2) generating a user profile based on information extracted from the user's Facebook profile, (3) matching the candidate events to the user's interests in their profile, and (4) scoring and ranking the events to produce the final personalized timeline. The approach uses entity linking techniques to associate mentions of entities in the user's profile with the corresponding entries in a knowledge base, in order to identify the user's interests.
This document discusses research on applying text mining and information retrieval techniques for fact finding in regulatory investigations from electronic documents. The researchers are developing methods for semantic search in e-discovery to iteratively retrieve relevant evidence from emails, forums, and other sources by integrating structural context and extracting knowledge from unstructured text. Their current work includes using Twitter mining as a form of conversational search and entity linking to semantically enrich documents.
Semantic Annotation of the Cyttron DatabaseDavid Graus
Final Presentation for my MSc Graduation Project.
Abstract:
"Semantic annotation uses human knowledge formalized in ontologies to enrich texts, by providing structured and machine-understandable information of its content. This paper proposes an approach for automatically annotating texts of the Cyttron Scientific Image Database, using the NCI Thesaurus ontology. Several frequency-based keyword extraction algorithms were implemented and evaluated, aiming to extract important concepts and exclude less relevant ones. Furthermore, topic classification algorithms were applied to identify important concepts which do not occur in the text. The algorithms were evaluated by comparison to annotations provided by experts. Semantic networks were generated from these annotations and an ontology-based similarity metric was applied to perform the comparison. Finally the networks were visualized to provide further insights into the differences of the semantic structure generated by humans, and the algorithms."
More information: http://graus.nu/category/thesis
1. Onderdeel van FD MediagroepOnderdeel van FD Mediagroep
Financial News Mining
Data Science Northeast Netherlands Meetup, 16 Nov 2017
Onderdeel van FD Mediagroep
2. Onderdeel van FD Mediagroep
Who am I?
•
• BA. Media Studies (UvA)
• Science editor (NTR)
• MSc. Media Technology (Leiden)
• Ph.D Information Retrieval @ UvA (2017)
• “Entities of Interest --- Discovery in Digital Traces”
• Data Scientist at FD Mediagroep/Company.info
2
3. Onderdeel van FD Mediagroep
Outline
• Financial News @ FDMG/Company.info
• Entity Linking
• What is
• Entity Linking with custom KB:
• Approach
• Results
• Applications
3
15. Onderdeel van FD Mediagroep
Data
• News articles:
• Hundreds of sources (Dutch, online)
• From Het Financieele Dagblad to the Groninger Gezinsbode
• Thousands of articles per day
• Multiple years of archive
• Knowledge Base:
• ~2.7M companies & organisations
• Rich metadata: sector information, financial information, people,
buildings, etc…
15
16. Onderdeel van FD Mediagroep
Linking companies in news
• Before: humans
• Now: machines
16
20. Onderdeel van FD Mediagroep
Step 1: NER
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
20
21. Onderdeel van FD Mediagroep
Step 1: NER
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
21
22. Onderdeel van FD Mediagroep
Step 2: EL
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
• Hoge Dennen Capital -> 32102936 0000
• Pseudonimiseer -> 58388702 0000
22
23. Onderdeel van FD Mediagroep
Step 2: EL
• De Hoge Dennen Capital heeft een minderheidsbelang genomen in
Pseudonimiseer, een Amsterdamse start-up die is gespecialiseerd in
privacybescherming bij data-analyse.
• Hoge Dennen Capital -> 32102936 0000 (De Hoge Dennen Capital B.V.)
• Pseudonimiseer -> 58388702 0000 (Viacryp B.V.)
23
24. Onderdeel van FD Mediagroep
Challenges
• A single entity mention can refer to multiple entities
24
25. Onderdeel van FD Mediagroep
Challenges
• A single entity can be referred to by multiple entity mentions
25
27. Onderdeel van FD Mediagroep
Approach: NER
• NER: Sequence Prediction
• Based on [Graus et al., ECIR ‘14]
• B-I-O scheme
• Beginning of entity mention
• Inside entity mention
• Outside entity mention
• E.g.: “Daarnaast sloot het bedrijf twee nieuwe
overeenkomsten met Xenos en Big Bazar
voor in totaal 2000 vierkante meter voor
een periode van 10 jaar.”
27
Daarnaast
sloot
het
bedrijf
twee
nieuwe
overeenkomsten
met
Xenos
en
Big
Bazar
voor
in
totaal
2000
vierkante
meter
voor
een
periode
van
10
jaar
.
28. Onderdeel van FD Mediagroep
Approach: NER
• NER: Sequence Prediction
• Based on [Graus et al., ECIR ‘14]
• B-I-O scheme
• Beginning of entity mention
• Inside entity mention
• Outside entity mention
• E.g.: “Daarnaast sloot het bedrijf twee nieuwe
overeenkomsten met Xenos en Big Bazar
voor in totaal 2000 vierkante meter voor
een periode van 10 jaar.”
28
Daarnaast O
sloot O
het O
bedrijf O
twee O
nieuwe O
overeenkomsten O
met O
Xenos B-ORG
en O
Big B-ORG
Bazar I-ORG
voor O
in O
totaal O
2000 O
vierkante O
meter O
voor O
een O
periode O
van O
10 O
jaar O
. O
29. Onderdeel van FD Mediagroep
Approach: NER
• Features (for token t in sentence s):
• Token-identity: token=Xenos
• Word-shape: TokenIsCaps={1,0},
TokenIsNumber={1,0}, …
• Context: prevToken=met, nextToken=en, …
• Dictionary: TokenInCompanyDict={1,0},
InPersonNameDict={1,0}, …
• Corpus: token’s TF-IDF weight, token’s word-cluster
membership, …
• And more…
• Structured Perceptron
• Predict tag {B, I, O}
29
Daarnaast O
sloot O
het O
bedrijf O
twee O
nieuwe O
overeenkomsten O
met O
Xenos B-ORG
en O
Big B-ORG
Bazar I-ORG
voor O
in O
totaal O
2000 O
vierkante O
meter O
voor O
een O
periode O
van O
10 O
jaar O
. O
30. Onderdeel van FD Mediagroep
Approach: EL
• Common: Linking to Wikipedia
30
31. Onderdeel van FD Mediagroep
EL 2 Wikipedia
• Use mappings;
• Anchor texts to Wikipedia pages.
• Kendrick Lamar -> Kendrick_Lamar
• Kendrick Duckworth -> Kendrick_Lamar
• Use statistics;
• How often are words used as anchor?
• To which pages do they link?
31
32. Onderdeel van FD Mediagroep
Approach: EL
• Custom KB – Custom features
• Based on [Meij et al., WSDM ‘12]
1. Binary classification, for each mention m:
• Retrieve candidate organisations (query CI database with m)
2. For c in candidates:
• Entity features: Turnover, Size, etc…
• Mention features: MentionLength, etc…
• Entity-Mention features: MentionTitleOverlap, etc…
• Doc features: WoonplaatsInDocument, etc…
• Classify(m, c, doc) -> score
3. Take top-ranked entity
32
33. Onderdeel van FD Mediagroep
Data
• Multiple years of (hand-labeled) articles.
• NER:
• Split article into sentences
• Filter sentences with at least 2 entity mentions
• EL:
• Apply NER to article
• For each mention (m) in doc:
• Query KB (retrieve 20 candidates)
• For each <m, c, doc>-tuple:
• Extract features
• Label: If c == groundtruth: label POS, else NEG
• Train binary classifier
33
34. Onderdeel van FD Mediagroep
Evaluation
• Take data, make train/test-split
• NER: ~85%
• EL: ~85%
• But: Data is noisy/biased
• + Manual inspection
34
35. Onderdeel van FD Mediagroep
Bonus: Entity Salience
• Based on [Reinanda et al., CIKM ‘16]
• Simple baseline approach:
• Prominence: where in the document is entity first mentioned?
• Frequency: how often is entity mentioned?
• Salience: math.sqrt(Prominence*Frequency)
35
36. Onderdeel van FD Mediagroep
Bonus: Sentiment analysis
• Simple Bag-of-Words binary classifier (Naive Bayes)
• Trained on hand-labeled data (~10k articles) (labeled POS/NEG.)
• Given article (TF-IDF weighted vector), predict {POS, NEG}
36
37. Onderdeel van FD Mediagroep
Document Enrichment
• On average; 0.24s/article;
1. NER: Feature extraction + Prediction
2. EL: Retrieve Candidates (one query per mention)
3. EL: Feature Extraction+Classification (for each candidate)
4. Entity Salience Scoring
5. Sentiment analysis
• Number of published articles per day: approx. +160%
• Number of linked orgs: approx. +310%
• Works 24h/day
• More “long tail” articles
37
39. Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
39
Nederlandse Aardolie Maatschappij B.V.
40. Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
40
2016-08
• Groen licht voor oliewinning in Drenthe
• Robotkraan RoBorg aan boord van de Kroonborg
• Afvalwater NAM weer door Hardenberg naar Twente
• Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem
• Nam hervat volgende maand waterinjectie
• “Vertrouwen in NAM en CVW naar absoluut dieptepunt.”
• Groen licht voor herstart oliewinning in Schoonebeek
• Groen licht voor oliewinning in Drenthe
• Oliewinning in Schoonebeek half september hervat
• TU Delft: 'Schadeonderzoek Arcadis deugt niet'
Nederlandse Aardolie Maatschappij B.V.
41. Onderdeel van FD Mediagroep
Burst detection/summarization
• Simple burst detection algo:
• Take rolling average of time series
• Take cutoff (e.g., mean+std)
• Any point over cutoff = burst
41
2016-08
• Groen licht voor oliewinning in Drenthe
• Robotkraan RoBorg aan boord van de Kroonborg
• Afvalwater NAM weer door Hardenberg naar Twente
• Minister Kamp: NAM mag weer afvalwater injecteren in Twentse bodem
• Nam hervat volgende maand waterinjectie
• “Vertrouwen in NAM en CVW naar absoluut dieptepunt.”
• Groen licht voor herstart oliewinning in Schoonebeek
• Groen licht voor oliewinning in Drenthe
• Oliewinning in Schoonebeek half september hervat
• TU Delft: 'Schadeonderzoek Arcadis deugt niet'
2017-03
- NAM aansprakelijk voor immateriële schade aardbevingen
- NAM aansprakelijk psychologische schade aardbevingen
- Aardbevingsellende: 'Het vreet aan ons'
- NAM aansprakelijk voor psychische schade bewoners aardbevingsgebied
- NAM aansprakelijk immateriële schade inwoners Groningenveld
- NAM ook aansprakelijk voor immateriële schade door aardbevingen
- Live: Rechtszaak immateriële schade door aardbevingen [afgelopen]
- NAM moet ook immateriële schade aardbevingen vergoeden
- 'Uitspraak is een mokerslag voor NAM en minister Kamp'
Nederlandse Aardolie Maatschappij B.V.
47. Onderdeel van FD Mediagroep
Fin
Questions?
@dvdgrs
www.graus.co
david.graus@fdmediagroep.nl
Refs:
D. Graus, M. Tsagkias, L. Buitinck, and M. de Rijke, “Generating pseudo-ground truth for predicting new concepts in social streams,” ECIR 2014
E. Meij, W. Weerkamp, and M. de Rijke, “Adding semantics to microblog posts,” WSDM 2012
R. Reinanda, E. Meij, and M. de Rijke, “Document Filtering for Long-tail Entities,” CIKM 2016
47
Editor's Notes
- age-old problem, particularly when ‘clean data’ is available pretty much solved
10 years ago very popular.
Adding semantics to documents, more explicit than implicit models (e.g., topic models).
Some issues w/ evaluation; the ‘ground truth’ data is biased, manual inspection