1. Faktenextraktion aus Forschungspublikationen mittels
semantischer Technologien und Crowdsourcing
Erste Ergebnisse aus dem Forschungsprojekt CODE –
Commercially Empowered Linked Open Data Ecosystems for
Research
Michael Granitzer
University of Passau
FP 7 Strep No. 296150
1
2. nani gigantum humeris insidentes
Wir stehen auf den Schultern von
Giganten
– Forschung basiert auf
Erkenntnissen aus der
Vergangenheit
– Wurzel unserer Zivilisation
2
3. Aber wir ertrinken in einer Flut von Dokumenten
mit widersprüchlichen Fakten
mit fehlenden Daten
mit geringer Vergleichbarkeit
Metastudien sind schwer durchzuführen
Einige Beispiele
– “Improvements that don‟t add up”
Armstrong et. al. 2009
– “Why most research results are false”
Ioannidis, 2005
Welche Lösungsmöglichkeiten stehen
im Raum?
3
4. Lösungsansatz in CODE
Explizierung wissenschaftlicher Fakten aus unterschiedlichen Quellen
unter Anwendung semantischer Technologien
– Überführung unstrukturierter und semi-strukturierter Forschungsdatenquelle in
semantische Form
– Publikation dieser Forschungsdatenquellen als offene Daten
– Entwicklung/Anpassung von Analyse- und Visualisierungswerkzeugen
– Integration einer breiten Benutzerbasis zur Qualitätssicherung (Crowdsourcing)
Fokus auf
– Empirischen Beobachtungen
– Linked Open Data als gemeinsame Beschreibungsprache
– Informatik und Biomedizin als erster Anwendungsfall
4
5. Allgemeiner Workflow
Überblick
Kollaboration &
Extraktion Integration/Aggregation Analyse & Organisation
Crowdsourcing
Dependency and Frequency Analysis
Graph Depencies
Machine
Algorithm
Learning
CRF SVM
Biomedical
Data Set 1
Gesamtergebnis"
Algorithms"
(Leer)"
SVM" Domain"
DataSet2"
Experiment"
DataSet1"
CRF" (Leer)"
Biomedical" Gesamtergebnis"
0" 5" 10" 15" 20"
Visual Analytics &
Text, Linked Science Kollaborative Analyse Crowdsourcing &
Linked (Open) Data Data Warehouse; Kollaboration über
Experimente Offene Standards Web-Technologien
und Datenmarktplätzen
5
6. Inhalte dieses Vortrags
Extraktion von Fakten aus Forschungspublikationen
– Strukturanalyse von PDFs
– Automatische Annotation von PDFs
Semantische Integration
– Disambiguierung von extrahierter Entitäten/Fakten
– Semantisches Format zur Repräsentation von Fakten
– Web-basierte Zugriff mittels RDF/SPARQL
(Visuelle) Analyse
– Abfrage von Fakten
– Visuelle Analyse
Crowdsourcing & Teilen von Forschungsdaten
– Überblick
6
8. Extraktion von Fakten aus Publikationen
Überblick
Extraktion struktureller Elemente
– Tabellen, Abbildungen (Kapitel und Unterkapitel)
– Extraktion von Fakten aus Tabellen
Extraktion von Fakten aus Texten
– Named Entity Recognition (e.g. algorithms, data sets, genes, significance levels
etc.)
– Relationen Extraktion (e.g. Medikament A senkt Blutdruck um B)
Semi-automatische Ansätze zur Qualitätskontrolle durch den Benutzer
– User in the Loop
8
9. Extraktion von Fakten aus Publikationen
Ein motivierendes Beispiel
Dimensionen/Entitäten
Messgröße
Fakten
Ranking Facts
9
10. Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion
Hauptformat: PDF
– Optimiert für die Darstellung, jedoch schwierig zu analysieren
– Z.B. “Ä” besteht aus dem Zeichen “A” und zwei Punkten
– Metadaten Qualität in PDFs unzuverlässig
– Robuste, frei verfügbare Tools zur PDF Analyse existieren nicht.
Ansatz – Divide and Conquer
– Extraktion struktureller Blöcke in PDFs auf Basis der Layout Information
– Klassifikation der Blöcke
• e.g. Title, Haupttext, Abstract, Referenzen
– Klassifikation/Extraktion der Inhalte in Blöcken
• Klassifikation von Strukturen (z.B. Tabellen)
• Extraktion von Namen, Entitäten, Adressen etc.
10
11. Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion
Extraktion struktureller Blöcke
– Verwendung unterschiedlicher, Layout bezogener Merkmale
• Zeichengröße, Zeichensatz, Position (absolut, relativ)
– Anwendung verschiedener Clustering Algorithmen
• Clustering: Gegeben eine Menge von Objekten finde jene Gruppen von Objekten bei
denen die “Ähnlichkeit” innerhalb der Gruppe maximal und zwischen Gruppen
minimal wird.
• Cluster = Block
• Fehler Backtracking über sukzessives zusammenfassen und teilen
– Clustering Stack
• Merge: Zeichen Wörter
• Split: Wort Wörter (Fehlerbehandlung)
• Merge: Wörter Zeilen
• Split: Zeile Zeilen (Fehlerbehandlung
• Merge: Zeilen Blöcken
• Split: Block Blöcken (Fehlerbehandlung)
11
12. Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion
Klassifikation von Textblöcken
Überwachte Lernverfahren: Maximum Entropy Klassifikatoren
– Vorgabe von Trainingsdaten, i.e. Zuordnung von Klassen zu
Blöcken
– Lernen eines entsprechenden Modells und Anwendung auf nicht
klassifizierte Blöcke
– Merkmale: Wortstatistiken (z.B. f. Namen), Layout, Formatierung,
Heuristiken (e.g. e-Mail)
Beispiele für Blöcke
– Titel, Abstract, Haupttext, Autorblock, Bibliographiedaten
– Tabellen/Tabellenüberschriften
– Abbildung/Abbildungsüberschriften
R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine,
vol. 18, no. 7/8, 2012. 12
13. Extraktion von Fakten aus Publikationen
Ansatz zur Extraktion
Extraktion von Entitäten innerhalb der Blöcke
– Blocktyp als Selektionskriterium
(e.g. Autorblock wird weiter zerlegt)
– Named Entity Recongition mittels überwachter Lernverfahren
– Maximum Entropy Klassifikatoren mit Beam Search
Ermittlung der Lesereihenfolge der Blöcke
– Oben/Unten und Links/Rechts der Haupttexte, Überschriften, Abstract
– Interessant für Information Retrieval Anwendungen
Offene Punkte
– Relations- bzw. Prädikatextraktion
– Open Information Extraction – Lernen von Modellen ohne Vorgabe von
Trainingsdaten
– Modellgenerierung durch den Benutzer/die Benutzerin
– Benutzer Feedback
• Explizit: Akzeptieren oder verwerfen v. Annotationen
• Implizit: Analyse der Nutzung (z.B. für Navigation)
R. Kern, K. Jack, M. Granitzer, and M. Hristakeva, “TeamBeam - Meta-Data Extraction from Scientific Literature,” DLib Magazine, vol. 18, no.
7/8, 2012. 13
14. Extraktion von Fakten aus Publikationen
Online Demonstrator - http://knowminer.at:8080/code-demo
14
16. Semantische Integration
Zielsetzung
Extraktion liefert natürlich sprachlichen Textteilen, nicht jedoch deren Bedeutung
– Mehrdeutigkeiten: Synonyme, Homonyme
• Z.B. H1N1, Vogelgrippe, Grippe
– Keine Verknüpfung zu entsprechenden Thesauri/Wissensbasen
– Fehlendes gemeinsames Format
Ansatz: Nutzung von Linked Open Data und Semantic Web Technologien
– Überführung extrahierter Fakten in ein einheitliches, offenes Format
• Mit Fokus auf Tabellen
– Disambiguierung von Entitäten und Fakten durch Verknüpfung von Phrasen mit
vorhandenen Wissensbasen (in der LOD Cloud)
– Semi-automatische Ansätze – Genauigkeit automatischer Analyseverfahren nicht
hinreichend.
16
17. Semantische Integration
Was ist Linked Open Data?
Das Web der Daten – Grundprinzipien
1. URI„s zur Identifikation von Dingen
2. HTTP als Lookup von Informationen zu Dingen
3. Verwende maschinen-lesbare Formate zur
Beschreibung von Dingen
(i.e. RDF – Resource Description Framework)
4. Die Beschreibung von Dingen enthält Links
zu anderen Dingen
Aktuelle mehrere Milliarden Tripel aus
unterschiedlichen Domänen
– Bibliographische Daten (e.g. DBLP, PubMed)
– Biomedizinische Daten
• Gene-Ontology, Drug-Bank, Diseases etc.
– Allgemeinwissen - DBPedia
– Öffentliche Daten (e.g. Census, EU Förderprogramme)
17
18. Semantische Integration
Linked Open Data
Drei Funktionen im Projekt
1. Integration und Disambiguierung durch Verknüpfung semi-strukturierter Inhalte
mit Konzepten der LOD
2. Vereinheitlichung und Publikation von Forschungsdaten unter Nutzung
statistischer Vokabularien
3. Als web-basierte Datenquelle für (offene) Forschungsdaten (od. deren
Anreicherung)
Linked Data als weltweite Datenbank
„virtuelle“ Forschungsumgebungen
18
19. Semantische Integration
Linked Open Data - Funktion 1: Disambiguierung
Beispiel
http://dbpedia.org/page/F1_score
http://dbpedia.org/page/Orthography
Bedeutung durch eindeutige Benennung
19
20. Semantische Integration
Linked Open Data - Funktion 1: Disambiguierung
Herausforderungen
– Qualität abhängig von der Domäne und Größe der Wissensbasis
– Abhängig vom Kontext
• Disambiguierung im Text: natürlich-sprachliche Beschreibung als Kontext
• Disambiguierung in Tabelle: Relationen Struktur als Voraussetzung
– Qualität und Art der zugrunde liegenden Wissensbasis
• Entitäts-zentriert: Thesaurus, Ontologie
• Dokument-zentriert: Vorkommnisse in anderen Dokumenten
Eigenschaften von Linked Data
– Sehr große Wissensbasis (Milliarden von Einträgen)
– Hohe Anzahl unterschiedlicher Domänen
– Stark variierende Qualität
– Offene, nicht-vollständige Wissensbasis
20
21. Semantische Integration
Linked Open Data - Funktion 2: Disambiguierung
Ansatz und aktueller Status
– Semi-automatische Annotation mittels maschineller Lernverfahren
• Benutzer erhält Vorschläge zu Annotation
• Akzeptiert/verwirft Vorschläge
Adaption der Disambiguierung
– Unterschiedliche Modelle pro Domäne
– Automatische Konstruktion von Wissensbasen unter Verwendung
• Regelbasierter Auswahlverfahren (e.g. spezif. Schemata wie SKOS)
• Statistischer Verfahren zur Identifikation von qualitative hochwertigen Konzepten
Erste Ergebnisse im Bereich Biomedizinischer Daten
Qualität der Wissensbasis
als größtes Problem
21
22. Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
Dimensionen/Entitäten
Messgröße
Fakten
Wie werden Fakten repräsentiert?
- Eine Beobachtung besteht aus
- Messgröße/abh. Variable: Beschreibung der Wirkung
- Dimension/Stellgröße/Unabh. Variable: Beschreibung der Ursache
- Fakten: Messwert der Messung
Überführung der statistischen Tabellen in ein „normalisiertes“ Format
22
23. Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
Nominal Nominal [0;1] [0;1]
Schema
Method Features Cosine Jaccard - Name
ANDD-Raw Unigram 0.956 0.952 - Einheit
Normalisierung TFIDF Unigram 0.884 0.874 - Ausprägung
Binary Unigram 0.861 0.852
SpotSigs Unigram 0.953 0.952
ANDD-Raw Trigram 0.936 0.91
Beobachtungen
TFIDF Trigram 0.875 0.873
Binary Trigram 0.869 0.867
SpotSigs Trigram NA NA
Zusätzliche Tabelle
Hinzufügen v. Tabellen in gleiche Repräsentation
Datensatz Method Features Cosine Jaccard
Quelle 1 ANDD-Raw Unigram 0.956 0.952
Quelle 1 TFIDF Unigram 0.884 0.874
Quelle 1 Binary Unigram 0.861 0.852
Quelle 1 SpotSigs Unigram 0.953 0.952
Quelle 1 ANDD-Raw Trigram 0.936 0.91
Quelle 1 TFIDF Trigram 0.875 0.873
Quelle 1 Binary Trigram 0.869 0.867
Quelle 1 SpotSigs Trigram NA NA
Quelle 2 ANDD-Raw NA 0.674 0.7
Quelle 2 TFIDF NA 0.625 0.626
Quelle 2 Binary NA 0.622 0.622
Quelle der Tabellen: H. Hajishirzi, W. Yih, and A. Kolcz, “Adaptive near-duplicate
detection via similarity learning,” in Proceeding of the 33rd international ACM SIGIR Quelle 2 SpotSigs NA 0.257 0.258
conference on Research and development in information retrieval, 2010, pp. 419–
426.
23
24. Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
RDF Data Cube Vokabular
– W3C Vorschlag zur Repräsentation statistischer Daten in RDF
– Definition der Struktur
• Dimensionen & Dimensions-
hierarchien
• Messgrößen
– Angabe von Beobachtungen
Vorteile von RDF
– Verknüpfungen zu beliebigen RDF
Endpoints möglich
– Zusammenhänge zwischen
Datensätzen erkennbar
– Wiederverwendbarkeit des Formats
Nachteile von RDF
– Overhead bei Anfragen
– Standardtechnologien sind neu zu entwickeln (z.B. Data Warehouses)
http://www.w3.org/TR/vocab-data-cube/#ref_qb_measureType 24
25. Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
Beisipiel
Datensatz Beschreibung
code:mydataset a qb:DataSet;
rdfs:isDefinedBy <http://www.dummy.de/>;
rdfs:label “NER Vergleiche";
qb:structure code:dsd_ner.
Datensatz Struktur
code:dsd_ner a qb:DataStructureDefinition;
qb:component [ qb:dimension code:Methode];
qb:component [ qb:measure code:Cosine;
qb:conept <http://dbpedia.org/page/Cosine_similarity> ];
qb:component [ qb:measure code:Jaccard ];
Datenpunkte
Linked Data
code:obs1 a qb:Observation;
code:Methode [ rdfs:label “TFIDF" ];
code:Cosine [ rdfs:label "0.625" ];
code:Jaccard [ rdfs:label "0.622" ];
qb:dataSet code:mydatase.
25
26. Semantische Integration
Linked Open Data - Funktion 2: Einheitliches Format
Semantisches Microformat zur
Auszeichnung statistischer Tabellen
API für den Upload von Excel und CSV
Dateien
Grafische Benutzeroberfläche zur
Normalisierung von Tabellen
– Selektion und Spezifikation von
Dimensionen
– Selektion und Spezifikation von
Maßzahlen
– Selektion und Spezifikation von
Beobachtungen
26
27. Semantische Integration
Linked Open Data - Funktion 3: Forschungsdatenbank
Integration vieler unterschiedlicher Datenquellen
– Publikationen
– Evaluierungs- und Experimentumgebungen
• TPC-H Consortium (Internationels Datenbank Benchmarking Konsortium)
• TIRA Benchmarking Umgebung für Information Retrieval (Uni Weimar)
Bereitstellen eines SPARQL Endpoints für RDF Data Cubes
– Ziel ist die Schaffung eines (verteilten) Repositories wissenschaftlicher
Primärdaten
Uni-Passau
SPARQL
Endpoint
27
29. Visuelle Analyse
Suche nach Daten und Fakten (für nicht Informatiker)
Herausforderung
– RDF Zugriff erfolgt meist über deklarative Abfragesprachen (SPARQL)
– Keine Nutzungsmöglichkeit ohne Informatikstudium!
Zielsetzung
– „Google-ähnlicher“ Zugriff auf Linked Open Data im Allgemeinen und Cubes
im Speziellen
– Prototyp unter http://code.know-center.tugraz.at/search
29
30. Visuelle Analyse
Web basierte, interaktive Visualisierung von RDF Cubes
Ziel: Visuelle Analyse integrierter Daten soll in web-basierten Umgebungen einfach
möglich sein
– RDF-basierte Beschreibungen möglicher Visualisierungen für einen gegebenen
Datencube
• Verbindet Visualisierung und RDF Data Cubes
• Kein technische Wissen vorausgesetzt, lediglich statistisches Wissen
• Interaktive Analyse (Visual Analytics)
– HTML 5 als technologische Grundlage
Erster Testprototyp unter http://code.know-center.tugraz.at/vis
30
32. Crowdsourcing
Teilen von Forschungsdaten
Metadaten f. Provenance/Herkunft essentiell für Qualität und
Vertrauen in die Daten
– Woher kommen die Daten?
– Von wem wurden die Daten integriert, annotiert, bearbeitet?
Teilen aggregierter Datensätze und der Annotationsmodelle
– Direkte Verwendung der Ergebnisse anderer Forscher-
gruppen in der eigenen Arbeit
– Verwendung von Annotationsmodellen auf eigenen Daten
Teilen der visuellen Analyse
– Kollaborative Analyse der Visualisierung
– Zugriff auf den Visualisierung zugrunde liegenden
Rohdaten
32
33. Crowdsourcing
Warum sollten Nutzer annotieren, integrierern etc.?
Offener Marktplatzkonzept für Forschungsdaten
Forschungsdaten stellen eine wertvolle Informationsquelle dar. Ähnlich dem Open
Source Model sollte diese entsprechenden Verwertungsrechten unterliegen.
Untersuchung verschiedener Modelle nach Fertigstellung der Dienste geplant
Erhöhte Möglichkeiten für Forscher und Forschungsinstitutionen
33