0
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftl...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Schelp - ...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Datenhalt...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - Projektgruppe
Clusteran...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Motivation - HCPA Computercluster
17...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Grundlagen
Schelp - Varlemann - Wilk...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Big Data
Bezeichnet die Verarbeitung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp -...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp -...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp -...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Batch- / Streamverarbeitung
Schelp -...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Hadoop / MapReduce
Reducer PhaseShuffl...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Storm
Schelp - Varlemann - Wilke
10
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Feste Kommunikationskanäle in Storm
...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase
verteilte Datenhaltung
nicht-r...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
HBase: Datenlokatität vs. Verteilung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Extraktion Metadaten
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC: Near Copy Detection in large...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://de.guttenpl...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Motivation
http://commons.wik...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Schelp - Varlem...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was ist ein Plagiat?
Ein Plagiat umf...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied ...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Unterschied ...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Aufgabenstellung
Intrinsische...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- E...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- E...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- E...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- E...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- S...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- S...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- S...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Was hat NCD mit Big Data zu tun?
- S...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Fuzzyset NCD
ToolsM...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Calculate
Fuzzyset ...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
CRITIC Umsetzung
Job1_1
Job1_2
Job1_...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
INSPIRE: Insight to Scientific Public...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
5-Phasen-Modell
XML
JSON
TupelPDF
PD...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 1: Konvertierung
Eingabe > 650...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2: Extraktion
Eingabe Datensät...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 2→3: XML Felder zur Identifikat...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration
Eingabe Metadat...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration und Normalisier...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 3: Integration von Referenzen
...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 4: Deduplikation
Eingabe Metad...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Phase 5: Präsentation
Eingabe Dokume...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie
Bibliografische
Kopplung...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Distanz von Zitationen...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Bibliometrie: Beipiel zur Distanz vo...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ähnlichkeitsbestimmung
wissenschaftl...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Ziele
Datenaufbereitung
→ Flexibles ...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Anforderungen
Be...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Konzept
Verteilt...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Bus Konzept
«com...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Topologieaufbau
...
Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos
Datenaufbereitung - Vernetzung
Schel...
Upcoming SlideShare
Loading in...5
×

INSPIRE: Insight to Scientific Publications and References

360

Published on

Ähnlichkeitsbestimmung wissenschaftlicher Publikationen
CRITIC: Near Copy Detection in large text corpora
INSPIRE: Insight to Scientific Publications and References

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
360
On Slideshare
0
From Embeds
0
Number of Embeds
1
Actions
Shares
0
Downloads
2
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Transcript of "INSPIRE: Insight to Scientific Publications and References"

  1. 1. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Nicolas Schelp CRITIC: Near Copy Detection in large text corpora Tobias Varlemann INSPIRE: Insight to Scientific Publications and References Adrian Wilke 27. Juni 2013 Schelp - Varlemann - Wilke 1
  2. 2. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Schelp - Varlemann - Wilke 2
  3. 3. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Datenhaltung in einer MySQL Datenbank → nicht verteilt → begrenzte Speicherkapazität → Zugriffszeiten Datenaufbereitung zentralisiert auf einem Server → nicht skalierend → lange Laufzeiten Ähnlichkeiten zwischen Publikationen nur aus Clusteranalyse abgeleitet Ergebnisse der Ähnlichkeitsbestimmung nicht interpretierbar → Welche Dokumente sind zu ähnlich? → Welche passen inhaltlich nicht zum Korpus? → Wann handelt es sich um Plagiate? Schelp - Varlemann - Wilke 3
  4. 4. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - Projektgruppe Clusteranalyse wurde vorberechnet → Bei neuen Dokumenten nicht erweiterbar Keine verteilte Berechnung des Dokumenten-Netzwerks (Publikationen und Referenzen) → lange Laufzeiten Relativ schlechte Datenqualität bei der Extraktion der Bibliometriken Vorschläge nur rudimentär aus der Clusteranalyse → Keine Empfehlungen anhand der Bibliometriken Schelp - Varlemann - Wilke 4
  5. 5. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Motivation - HCPA Computercluster 17 Slaves 96 Prozessorkerne 248GB Arbeitsspeicher 102TB Festplattenkapazität + Master (64GB RAM) + NAS (5,4TB) Schelp - Varlemann - Wilke 5
  6. 6. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Grundlagen Schelp - Varlemann - Wilke 6
  7. 7. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Schelp - Varlemann - Wilke 7
  8. 8. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Schelp - Varlemann - Wilke 7
  9. 9. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Schelp - Varlemann - Wilke 7
  10. 10. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data Bezeichnet die Verarbeitung von Datensets die zu groß sind um sie mit herkömmlichen Programmen zu verarbeiten. Bezieht sich nicht nur auf die Eingabedaten sondern auch auf Zwischenergebnisse. Neue Wege für die Verarbeitung dieser Daten. Spezielle Frameworks für die Skalierung auf viele hundert Rechenkerne. Schelp - Varlemann - Wilke 7
  11. 11. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  12. 12. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  13. 13. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  14. 14. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Batch- / Streamverarbeitung Schelp - Varlemann - Wilke 8
  15. 15. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Hadoop / MapReduce Reducer PhaseShuffle and SortMapper PhaseInputsplit Tasktrackernode 2 Tasktrackernode 1 Block A Map Block B Map Block C Map Block D Map Reduce Block A Reduce Block A K V K V K V K V Inputfile Outputfile Schelp - Varlemann - Wilke 9
  16. 16. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Storm Schelp - Varlemann - Wilke 10
  17. 17. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Schelp - Varlemann - Wilke 11
  18. 18. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Schelp - Varlemann - Wilke 11
  19. 19. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Feste Kommunikationskanäle in Storm Feste Zuordnung von Knoten zu Channels Publish–Subscribe Pattern Lose Kopplung einzelner Komponenten Schelp - Varlemann - Wilke 11
  20. 20. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase verteilte Datenhaltung nicht-rational Terabytes – Petabytes Zeilen: Rowkeys Zeilen in Regionen zusammengefasst Schelp - Varlemann - Wilke 12
  21. 21. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos HBase: Datenlokatität vs. Verteilung Schelp - Varlemann - Wilke 13
  22. 22. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Extraktion Metadaten Schelp - Varlemann - Wilke 14
  23. 23. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC: Near Copy Detection in large text corpora Schelp - Varlemann - Wilke 15
  24. 24. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://de.guttenplag.wikia.com/wiki/GuttenPlag_Wiki Schelp - Varlemann - Wilke 16
  25. 25. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Motivation http://commons.wikimedia.org/wiki/File:Zuguttenberg_presseportrait.jpg?uselang=de Schelp - Varlemann - Wilke 17
  26. 26. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  27. 27. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  28. 28. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  29. 29. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  30. 30. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Schelp - Varlemann - Wilke 18
  31. 31. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was ist ein Plagiat? Ein Plagiat umfasst unter anderem die Unterlassung von geeigneten Quellenhinweisen bei der Verwendung der Formulierungen oder besonderen Wortwahl eines anderen, der Zusammenfassung der Argumente von anderen oder die Darstellung vom Gedankengang eines anderen. Joseph Gibaldi: MLA Handbook for Writers of Research Papers (2003) Schelp - Varlemann - Wilke 19
  32. 32. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Schelp - Varlemann - Wilke 20
  33. 33. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Unterschied Plagiatesfindung und NCD Unterschiedliche Zitationsstile Schwerig zu unterscheiden Anderes Themengebiet -> Near copy detection (NCD) Formen von Textübernahmen Direkte Kopie Entfernen/Hinzufügen/Verändern von Worten Entfernen/Hinzufügen/Verändern von Sätzen Übersetzen von Texten Schelp - Varlemann - Wilke 20
  34. 34. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Schelp - Varlemann - Wilke 21
  35. 35. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Aufgabenstellung Intrinsische Algorithmen Stylometriken Zeichen-/Wortfrequenzen POS Frequenzen Identifikation der Autoren anhand unterschiedlicher Schreibstile Extrinsische Algorithmen Verwendung eines externen Korpus Suche nach Verweisen im Korpus Fuzzyset Schelp - Varlemann - Wilke 21
  36. 36. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  37. 37. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  38. 38. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  39. 39. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Ein großer Korpus wird benötigt. Schelp - Varlemann - Wilke 22
  40. 40. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort Schelp - Varlemann - Wilke 23
  41. 41. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Schelp - Varlemann - Wilke 23
  42. 42. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  43. 43. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Was hat NCD mit Big Data zu tun? - Synonym Disambiguierung W1 W2 W3 W4 W5 Ziel Wort B21 B32 B31 B52 B51 B43 B42 B41 B13 B12 B11 Bedeutungsscore Schelp - Varlemann - Wilke 23
  44. 44. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Fuzzyset NCD ToolsMa pred Tools-Driver HBaseUser 5.4: writeNCDData 5.3: CalculateNCD 5.2: Data 5.1: getData 5: updateNCD 4: writeMISCData 3.1: Texts 3: getTexts2.6: MISC 2.5.3: writeWordnet 2.5.2: Texts POS Lemata 2.5.1: getTexts getPOS getLemata 2.5: Wordnet 2.4.3: writeLemata 2.4.2: Texts 2.4.1: getTexts 2.4: Lemmatize 2.3.3: writePOS 2.3.2: Texts 2.3.1: getTexts 2.3: POS 2.2.3: writeTexts 2.2.2: PDFs 2.2.1: getPDFs 2.2: PDF2TXT 2.1: 2: Preprocess PDFs 1: Upload PDFs Schelp - Varlemann - Wilke 24
  45. 45. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Calculate Fuzzyset NCD Similarity Write Results Choose Candidate Schelp - Varlemann - Wilke 25
  46. 46. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Umsetzung Job1_1 Job1_2 Job1_3 Job1_4 Job2_1 Job3_1 Job3_2 Job3_3Job2_2 Job4_1_1 Job4_1_2 Job4_2_1 <<datastore>> Sentence Table <<datastore>> NewSentence Sequencefile <<datastore>> NewDocuments Sequencefile <<datastore>> sourceSentences BDB <<datastore>> WordLookup Table <<datastore>> Job1_3 SequenceFile <<datastore>> targetSentences BDB <<datastore>> Document Table <<datastore>> SentenceSim Sequencefile <<datastore>> DocSentSim Sequencefile <<datastore>> Block Sequencefile sentence <<datastore>> DocSim Table <<datastore>> SimDoc Table <<datastore>> DocDocBlock Table Job 4_2_2 <<datastore>> DocDocSim Sequencefile Calculate Prepare Write Lookup get write Schelp - Varlemann - Wilke 26
  47. 47. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos INSPIRE: Insight to Scientific Publications and References Verteilte Berechnung von Bibliometriken auf großen Datenmengen Schelp - Varlemann - Wilke 27
  48. 48. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos 5-Phasen-Modell XML JSON TupelPDF PDF, txt XML JSON Tupel PDF, txt Schreibender Zugriff Lesender Zugriff MySQL Konvertierung Extraktion Integration Deduplikation PräsentationDateisystem HBase 1 2 3 4 5 Schelp - Varlemann - Wilke 28
  49. 49. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 1: Konvertierung Eingabe > 650.000 PDF-Dateien Ziel Datenaufbereitung: Eingabeformat für Extraktion Ausgabe Volltexte Schelp - Varlemann - Wilke 29
  50. 50. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2: Extraktion Eingabe Datensätze als Volltexte und PDF Ziel Extraktion von Metadaten Berechnung Software: ParsCit, GROBID Ausgabe Metadaten in 3 XML-Formaten Auszug: GROBID Header <title level="a" type="main">PLME as a Cognitive Tool for Knowledge Achievement and Informal Learning </title> [...] <author> <persName> <forename type="first">Johannes</forename> <surname>Magenheim</surname> </persName> <affiliation> <orgName type="institution">University of Paderborn</orgName> <address><country key="DE">Germany</country></address> </affiliation> </author> Schelp - Varlemann - Wilke 30
  51. 51. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 2→3: XML Felder zur Identifikation Tabelle: ParCit 11 Mio. Ref. Schlüssel Anzahl % rawString 11.023.889 1,00 marker 11.023.889 1,00 context 10.695.648 0,97 author 10.523.513 0,95 date 10.378.402 0,94 title 9.361.532 0,85 pages 7.765.207 0,70 journal 6.838.383 0,62 volume 6.776.944 0,61 location 2.319.741 0,21 booktitle 1.519.236 0,14 publisher 1.354.680 0,12 issue 888.605 0,08 institution 359.638 0,03 note 318.288 0,03 editor 311.625 0,03 tech 146.817 0,01 Tabelle: GROBID 2 Mio. Ref. Schlüssel Anzahl % title 2.110.480 1,00 surname 1.897.603 0,90 date 1.894.521 0,90 forename 1.703.017 0,81 biblScope 1.683.384 0,80 publisher 209.928 0,10 pubPlace 143.760 0,07 address 90.667 0,04 editor 63.894 0,03 note 45.233 0,02 Schelp - Varlemann - Wilke 31
  52. 52. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration Eingabe Metadaten in 3 unterschiedlichen XML-Formaten Ziel Zusammenführung für jede Publikation Ausgabe Metadaten im JSON-Format Levenshtein-Distanz: Minimale Anzahl der Operationen Einfügen, Löschen und Ersetzen von Zeichen Schelp - Varlemann - Wilke 32
  53. 53. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration und Normalisierung 1. Falls der Titel mit „http://“ startet, verwende Titel ohne Normalisierung 2. Ersetze die Umlaute (Ä, Ae), (ä, ae), (Ö, Oe), (ö, oe), (Ü, Ue) und (ü, ue) 3. Ersetze die Zeichenketten (A¨, Ae), (a¨, ae), (O¨, Oe), (o¨, oe), (U¨, Ue) und (u¨, ue) 4. Entferne die Satzzeichen „.“, „!“, „?“ und „-“ 5. Entferne alle diakritischen Zeichen 6. Ersetze das Zeichen (ß, ss) 7. Entferne alle Zeichen außer Buchstanben, Zahlen und dem Leerzeichen 8. Entferne alle Leerzeichen am Anfang und am Ende der Zeichenkette Schelp - Varlemann - Wilke 33
  54. 54. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 3: Integration von Referenzen Schelp - Varlemann - Wilke 34
  55. 55. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 4: Deduplikation Eingabe Metadaten im JSON-Format Ziel Aufbau des Dokumenten-Netzwerks Ausgabe Graph der Publikationen und Referenzierungen Schelp - Varlemann - Wilke 35
  56. 56. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Phase 5: Präsentation Eingabe Dokumenten-Netzwerk Ziel Berechnung vom Literaturempfehlungen Ausgabe Listen mit verlinkten Ergebnissen Schelp - Varlemann - Wilke 36
  57. 57. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie Bibliografische Kopplung (Kessler 1963) Fester Wert Im Beispiel: BK(A, B) = 3 Kozitation Small (1973) und Marshakova (1973) Wert wächst Im Beispiel: K(A, B) = 3 Z Y X A B Z Y X A B Schelp - Varlemann - Wilke 37
  58. 58. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Distanz von Zitationen In-text Citation Distance Analysis (ICDA)“ Gipp, Beel & Hentschel (2009) Citation Proximity Analysis (CPA) Gipp & Beel (2009) Distanz-Klasse Gewichtung Gleiches Dokument 1 Gleicher Abschnitt 2 Gleicher Absatz 3 Gleicher Satz 4 Gleiche Markierung [1,2] 5 Schelp - Varlemann - Wilke 38
  59. 59. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Bibliometrie: Beipiel zur Distanz von Zitationen Schelp - Varlemann - Wilke 39
  60. 60. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung wissenschaftlicher Publikationen Identifikation von Grundähnlichkeiten und Implementierung eines Algorithmus für dynamisch erweiterbare Clusterings Schelp - Varlemann - Wilke 40
  61. 61. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ziele Datenaufbereitung → Flexibles Echtzeitsystem Ähnlichkeitsbestimmung → Einfluss der Parameter → Identifikation von Ausreißern Erweiterbare Clusterings → Hinzufügen von neuen Publikationen ohne Neuberechnung Schelp - Varlemann - Wilke 41
  62. 62. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Anforderungen Berechnungen in Echtzeit Skalierbar Ausgelegt für größere Datenmengen Verteilt auf einem Computercluster Austauschbare Komponenten in der Verarbeitungskette Verarbeitungsprozess beliebig erweiterbar Schelp - Varlemann - Wilke 42
  63. 63. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Konzept Verteilte Berechnungen in Echtzeit auf dem Computercluster → Storm Projekt Verarbeitungsschritte sind unterschiedliche, voneinander abhängige Aufgaben → Jeweils eine Topologie in Storm Kommunikation untereinander wird benötigt → ActiveMQ Topics → Publisher/Subscriber Modell Schelp - Varlemann - Wilke 43
  64. 64. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Bus Konzept «component» ActiveMQ «component» PDFUploader Topologie «component» PDFConverter Topologie «component» ParsCit Topologie «component» HBase Nachrichten verschicken/empfangen Datenbankzugriff Nachrichten verschicken/empfangen Nachrichten verschicken/empfangen ... Datenbankzugriff Datenbankzugriff Weitere Topologien Schelp - Varlemann - Wilke 44
  65. 65. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Topologieaufbau «component» Spout «component» Bolt «component» ActiveMQ «component» HBase 1: benachrichtigt 7: bestätigt 2: leitet Nachricht weiter 3: prüft/holt Eingabefelder 4: beantwortet 5: verarbeitet 6: bestätigt Schelp - Varlemann - Wilke 45
  66. 66. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Vernetzung Schelp - Varlemann - Wilke 46
  67. 67. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Laufzeiten Topologie Laufzeit Dokumente Fehler Geschwindigkeit Geschwindigkeit Bolt Latenz hh:mm:ss Dokumente / s ms / Dokument ms PDFUploader 04:53:19 602.122 383 34,21 29,23 234 PDFConverter 12:59:25 601.739 5.310 12,87 77,72 522 ParsCit 12:59:35 596.429 163.824 12,75 78,43 4.909 Tokenizer 12:59:40 432.605 571 9,25 108,14 428 POSTagger 12:59:40 432.034 0 9,24 108,28 571 Lemmatizer 12:59:40 432.034 0 9,24 108,28 888 Stemmer 12:59:40 432.034 0 9,24 108,28 49 Springer 12:59:40 602.122 170.088 12,87 77,69 7.601 → Fehlerquote: 28,25% → Speedup: 97,8 PDFUploader 00:24:14 40.125 0 27,60 36,24 414 PDFConverter 00:48:26 40.125 114 13,81 72,42 557 ParsCit 01:04:54 40.011 43 10,28 97,32 5.240 Tokenizer 01:05:59 39.968 0 10,10 99,05 659 POSTagger 01:05:59 39.968 0 10,10 99,05 834 Lemmatizer 01:05:59 39.968 0 10,10 99,05 1.150 Stemmer 01:05:59 39.968 0 10,10 99,05 64 PLosONE 01:05:59 40.125 157 10,14 98,67 8.918 → Fehlerquote: 0,39% → Speedup: 90,4 Schelp - Varlemann - Wilke 47
  68. 68. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - Übersicht Terme Korpus Dokumente Unikate Ø Terme Ø Unikate ECTEL 331 29.887 3.646 891 EdITLib 24.092 383.513 2.644 737 ICWL 424 31.950 3.144 807 PLosONE 39.968 2.398.936 5.546 1.263 Springer 432.034 12.062.250 4.036 902 Springer/Behavioral Science 71.123 2.044.854 4.844 1.068 Springer/Biomedical and Life Sciences 32.621 1.455.362 3.446 891 Springer/Business and Economics 53.821 2.079.857 5.543 1.129 Springer/Chemistry and Materials Science 66.091 1.746.941 2.088 582 Springer/Computer Science 34.640 1.885.056 6.060 1.114 Springer/Earth and Environmental Science 27.372 1.577.741 4.724 1.064 Springer/Engineering 23.745 800.269 2.835 679 Springer/Humanities, Social Sciences and Law 19.791 1.183.543 6.011 1.338 Springer/Mathematics and Statistics 32.381 1.835.413 3.477 719 Springer/Medicine 36.117 1.076.790 3.099 793 Springer/Physics and Astronomy 34.332 1.089.731 2.932 680 Zusammenfassung 496.849 13.852.836 4.089 923 Schelp - Varlemann - Wilke 48
  69. 69. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenaufbereitung - EDMEDIA Nomen Schelp - Varlemann - Wilke 49
  70. 70. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung Verteilte Berechnung der paarweisen Ähnlichkeiten → MapReduce-Job in Hadoop Quadratisch zur Anzahl Dokumente → Sehr großer Speicherbedarf → SequenceFiles in HDFS pro Korpus/Ordner Einfluss der Parameterauswahl auf Verteilung Ziel: Identifizierung von auffälligen Paaren → Zu ähnlich ⇒ Plagiate? → Geringe Ähnlichkeit ⇒ Fach-/Korpusfremd? Konzept: Statistische Analyse → Finden von Ausreißern Schelp - Varlemann - Wilke 50
  71. 71. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - kurze Wiederholung Wie wird die Proximität berechnet? 1. Festlegung Retrieval-Modell → Vector Space Model → Dokumente = Merkmalsvektoren 2. Merkmalsauswahl/-extraktion → Terme/Lemmas/Nomen... 3. Merkmalsgewichtung → Relative Termhäufigkeit (TF) → + inverse Dokumenthäufigkeit (TF-IDF) 4. Proximitätsbestimmung → Distanzmaße (Euklidische Distanz) → Ähnlichkeitsmaße (Kosinusähnlichkeit) Schelp - Varlemann - Wilke 51
  72. 72. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Auswirkung Gewichtung Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Cosinus) Ähnlichkeit (in %) AnzahlderDokumentpaare(inMio.) 0 10 20 30 40 50 60 70 80 90 100 012345678910 TF−IDF TF Schelp - Varlemann - Wilke 52
  73. 73. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Verteilung Tanimoto Verteilung der Ähnlichkeiten (EDMEDIA, Terme, Tanimoto) Ähnlichkeit (in %) AnzahlderDokumentpaare(in100.000) 0 2 4 6 8 10 12 14 16 18 20 22 24 26 28 30 00.511.522.533.54 Schelp - Varlemann - Wilke 53
  74. 74. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Statistische Analyse Ausreißerkandidat unterer Whisker oberer Whisker Median oberes Quartil unteres Quartil Ausreißerkandidat Ausreißerkandidat Schelp - Varlemann - Wilke 54
  75. 75. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Gegenüberstellung Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen Terme Lemmas Stämme Nomen 5 10 15 20 25 30 35 Boxplot der Ähnlichkeiten (Tanimoto) Ähnlichkeit(in%) EDMEDIA ECTEL ICWL Schelp - Varlemann - Wilke 55
  76. 76. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ähnlichkeitsbestimmung - Kombination Terme Tanimoto 863 (extrem) Terme Euklid TF 3047 (mild) Nomen Cosinus TF 3242 (mild) 211 97 Schelp - Varlemann - Wilke 56
  77. 77. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Clusteranalyse durchgeführt → Statisches Clustering erstellt Neue Publikationen kommen hinzu → Clusteranalyse muss komplett neu gestartet werden Neues Dokument Bestehendes Clustering ? Schelp - Varlemann - Wilke 57
  78. 78. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Bestehende Cluster werden durch neue Dokumente erweitert, indem diese mit Hilfe des gewählten Proximitätsmaßes den nächst gelegenen, zuvor berechneten Cluster- Schwerpunkten (Centroiden) zugeordnet werden. Neues Dokument Bestehendes Clustering 0.3 0.25 0.54 0.86 0.1 ! Schelp - Varlemann - Wilke 58
  79. 79. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings Vorteile Einfache Berechnung → Clusteranzahl entsprechend viele Berechnungen Stabil bei hinreichend großen Clustern → Änderungen durch Erweiterungen klein Nachteile Falsche Startparameter → Auswahl der Parameter zu Beginn der Clusteranalyse Probleme mit kleinen Clustern → Größerer Einfluss auf kleine Cluster Anzahl Fehler nimmt mit jeder Erweiterung zu → Qualität nimmt mit Fehlern ab Schelp - Varlemann - Wilke 59
  80. 80. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Strategien zur Neuberechnung Manuelle Neuberechnung Kontinuierliche Neuberechnung → Fehleranzahl so gering wie möglich → Aber: Verbraucht die meisten Ressourcen Neuberechnung nach Zeit t Neuberechnung nach x neuen Dokumenten → Nach wie vielen? → Abschätzen! Schelp - Varlemann - Wilke 60
  81. 81. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Abschätzung + ? ReferenzReferenz Dokument- menge Schelp - Varlemann - Wilke 61
  82. 82. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Erweiterbare Clusterings - Fehlerquote Tabelle: Gemessene Fehlerquote bei der dynamischen Erweiterung des Clusterings der EDMEDIA-Publikationen Publikationen Anteil Fehler Fehlerquote Trefferquote 10 0,13% 0 0,0% 100,0% 50 0,67% 3 6,0% 94,0% 100 1,35% 7 7,0% 93,0% 500 7,13% 46 9,2% 90,8% 1.000 15,36% 138 13,8% 86,2% 0 200 400 600 800 1000 020406080100120140 Fehlerhäufigkeit EDMEDIA Anzahl der neu hinzugefügten Publikationen AnzahlderFehler Schelp - Varlemann - Wilke 62
  83. 83. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Livedemo Livedemo Startpunkt Schelp - Varlemann - Wilke 63
  84. 84. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Big Data: HBase Tabellen Größe Dokumenten Tabelle: 940GB Fuzzyset Tabellen: 690GB Schelp - Varlemann - Wilke 64
  85. 85. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Datenhaltung Dokumentengraph Kandidaten Neo4j, eine Not only SQL (NoSQL) Graphdatenbank Titan, eine verteilte Graphdatenbank mit Verwendung von HBase als Backend MySQL, als Vertreter relationaler Datenbanken Auswahl Methode Benchmark Fokus Live-Berechnung Literaturempfehlungen Schelp - Varlemann - Wilke 65
  86. 86. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 1: Aufbau Netzwerk & Bibliometriken 1 10 100 1000 10000 100000 0 2 4 6 8 10 12 14 16 18 20 DurchschnittlicheZeitfürBerechnung(ms) Anzahl der Knoten im Netzwerk (Mio.) Bibliografische Kopplung MySQL Kozitation MySQL Bibliografische Kopplung Neo4j Kozitation Neo4j Bibliografische Kopplung Titan Kozitation Titan Schelp - Varlemann - Wilke 66
  87. 87. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Benchmark 2: Parallele Anfragen Auswahl links: 10 Mio., rechts: 20 Mio. · Anfragen oben: 10 unten: 20 0 1000 2000 3000 4000 5000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 1000 2000 3000 4000 5000 6000 7000 8000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation 0 500 1000 1500 2000 2500 3000 3500 MySQL Neo4j Titan ZeitfürBerechnung(ms) Bibliografische Kopplung Kozitation Schelp - Varlemann - Wilke 67
  88. 88. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Ergebnisse: Demonstration des Frontends Schelp - Varlemann - Wilke 68
  89. 89. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos Vielen Dank für Ihre Aufmerksamkeit. Fragen? Schelp - Varlemann - Wilke 69
  90. 90. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 70
  91. 91. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 71
  92. 92. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 72
  93. 93. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 73
  94. 94. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 74
  95. 95. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 75
  96. 96. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 76
  97. 97. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 77
  98. 98. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 78
  99. 99. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 79
  100. 100. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 80
  101. 101. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 81
  102. 102. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 82
  103. 103. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 83
  104. 104. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 84
  105. 105. Motivation Grundlagen Near Copy Detection Bibliometriken Ähnlichkeitsbestimmung Demos CRITIC Ergebnisse Livedemo Alternative Schelp - Varlemann - Wilke 85
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×