Analysis and integration of Web 2.0 data sources
    into a system for analysis and storage of
            Artefact-Actor-...
Ziele


Zielsetzung der Bachelorarbeit

 Aus der Zielvereinbarung:
     Datenquellen f¨r Artefact-Actor-Networks System
  ...
Ziele


Zielsetzung der Bachelorarbeit

 Aus der Zielvereinbarung:
     Datenquellen f¨r Artefact-Actor-Networks System
  ...
¨
                                                                          Ubersicht


¨
Ubersicht Vortrag
 I. Artefact-A...
Vorstellung AAN                                                                  I. Artefact-Actor-Networks


 I. Vorstell...
Dokumentennetzwerke                                                                                       I. Artefact-Acto...
Soziale Netzwerke                                                                                 I. Artefact-Actor-Networ...
Konsolidierung                                                                       I. Artefact-Actor-Networks


 Konsoli...
Semantische Relationen                                                                                    I. Artefact-Acto...
Semantische Relationen                                                                          I. Artefact-Actor-Networks...
Semantische Relationen                                                                          I. Artefact-Actor-Networks...
Stand der Dinge                                                                I. Artefact-Actor-Networks


 Stand der Din...
Datenformate                                                                II. Datenformate


 II. Datenformate




    B...
RDF                                                                                              II. Datenformate


 Resou...
RDFS                                                                        II. Datenformate


 RDF Schema (RDFS)

   Zur ...
OWL                                                                            II. Datenformate


 Web Ontology Language (...
AAN Ontologie (Version 2)                                                             II. Datenformate

                  ...
Web 2.0 Datenquellen                                                     III. Web 2.0 Netzwerke als Datenquellen


 III. N...
Web 2.0 Datenquellen                                                    III. Web 2.0 Netzwerke als Datenquellen




    Kr...
Web 2.0 Datenquellen                                                     III. Web 2.0 Netzwerke als Datenquellen




    K...
Delicious                                                      III. Web 2.0 Netzwerke als Datenquellen


 Delicious: Socia...
Delicious                                                   III. Web 2.0 Netzwerke als Datenquellen




            AAN: A...
SlideShare                                                   III. Web 2.0 Netzwerke als Datenquellen




             AAN:...
Scribd                                                   III. Web 2.0 Netzwerke als Datenquellen




         AAN: Analysi...
Dokumentennetzwerke                                                   III. Web 2.0 Netzwerke als Datenquellen




        ...
Schnittstellen                                                               III. Web 2.0 Netzwerke als Datenquellen


 Sc...
Schnittstellen: Delicious                                                    III. Web 2.0 Netzwerke als Datenquellen


 Sc...
Schnittstellen: Delicious                                                     III. Web 2.0 Netzwerke als Datenquellen


 G...
Schnittstellen: Delicious                                                               III. Web 2.0 Netzwerke als Datenqu...
Schnittstellen: Delicious                                                       III. Web 2.0 Netzwerke als Datenquellen


...
AAN Framework                                                                 IV. AAN Framework


 IV. Das AAN Framework

...
OSGi                                                                       IV. AAN Framework


 OSGi Service Platform

   ...
AAN Framework                                                           IV. AAN Framework


 Architektur AAN Framework



...
Entwickelte Komponenten                                                           V. Entwickelte Komponenten


 V. Entwick...
Entwickelte Komponenten                                                           V. Entwickelte Komponenten


 Entwickelt...
Workflows                                                             V. Entwickelte Komponenten


 Workflows Crawling Kompo...
Workflows                                                              V. Entwickelte Komponenten


 Workflow Scribd Parser
...
Workflows                                                              V. Entwickelte Komponenten


 Workflow Delicious Craw...
Workflows                                                              V. Entwickelte Komponenten


 Workflow Delicious Craw...
Ergebnisse und Ausblick                                                           VI. Ergebnisse und Ausblick


 VI. Ergeb...
Ergebnisse                                                                        VI. Ergebnisse und Ausblick


 Ergebniss...
Ergebnisse                                                             VI. Ergebnisse und Ausblick


 Beschr¨nkungen Delic...
Ergebnisse                                                                          VI. Ergebnisse und Ausblick


 Delicio...
Ergebnisse                                                                    VI. Ergebnisse und Ausblick


 Delicious Ana...
Ausblick                                                                       VI. Ergebnisse und Ausblick


 Ausblick



...
Fazit                                                                            VI. Ergebnisse und Ausblick


 Pers¨nlich...
Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010




                   Grundontologie



AAN: Analysis and integration...
Upcoming SlideShare
Loading in …5
×

Extension of AANs with SlideShare, Delicious, and Scribd (by Adrian Wilke)

770 views

Published on

Adrian Wilke wrote his Bachelor thesis about the integration of additional Research 2.0 services into the infrastructure of Artefact-Actor-Networks. See his slides from the defense.

Published in: Technology
0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
770
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
0
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Extension of AANs with SlideShare, Delicious, and Scribd (by Adrian Wilke)

  1. 1. Analysis and integration of Web 2.0 data sources into a system for analysis and storage of Artefact-Actor-Networks Adrian Wilke wilke@[REMOVE]campus.upb.de 09. September 2010
  2. 2. Ziele Zielsetzung der Bachelorarbeit Aus der Zielvereinbarung: Datenquellen f¨r Artefact-Actor-Networks System u Ontologien definieren Crawler- und Parser-Komponenten entwickeln AAN: Analysis and integration of Web 2.0 data sources 2
  3. 3. Ziele Zielsetzung der Bachelorarbeit Aus der Zielvereinbarung: Datenquellen f¨r Artefact-Actor-Networks System u Ontologien definieren Crawler- und Parser-Komponenten entwickeln Konkrete Arbeitsschritte: Relevante Daten? Nutzbare Schnittstellen? Einbettung Ontologie? Konzeption & Implementierung Komponenten AAN: Analysis and integration of Web 2.0 data sources 2
  4. 4. ¨ Ubersicht ¨ Ubersicht Vortrag I. Artefact-Actor-Networks Vorstellung des Konzepts II. Datenformate Wie werden Daten abgelegt? III. Web 2.0 Netzwerke als Datenquellen Analyse von Delicious, SlideShare und Scribd IV. AAN Framework Vorstellung des Systems V. Entwickelte Komponenten Netzwerke durchlaufen, Daten-Extraktion und -Speicherung VI. Ergebnisse und Ausblick Aktuelle und zuk¨nftige Projekte u AAN: Analysis and integration of Web 2.0 data sources 3
  5. 5. Vorstellung AAN I. Artefact-Actor-Networks I. Vorstellung Artefact-Actor-Networks (AAN) Artefact-Actor-Networks - Was steckt dahinter? Dokumentennetzwerke einfaches Beispiel: Verlinkte Webseiten Soziale Netzwerke In Organisationen oder auch im Web (Facebook) Ansatz: Zusammenschluß beider Netzwerkarten Neue (indirekte) Verbindungen AAN: Analysis and integration of Web 2.0 data sources 4
  6. 6. Dokumentennetzwerke I. Artefact-Actor-Networks Konsolidierung von Dokumentennetzwerken Network in World Wide Web Network of documents Consolidated artefact network I Document D B Website B D C Document C A Website A (1) (2) (3) Consolidated artefact network I Network with bookmarks Consolidated artefact network II Website B Bookmark E (1) (2) (3) AAN: Analysis and integration of Web 2.0 data sources 5
  7. 7. Soziale Netzwerke I. Artefact-Actor-Networks Konsolidierung sozialer Netzwerke Actor network of company Private actor network Consolidated actor network Person Y Person Y Person Z Person Z Person X Person X Person X (1) (2) (3) Verbindung uber berufliches und privates Umfeld von Person X ¨ AAN: Analysis and integration of Web 2.0 data sources 6
  8. 8. Konsolidierung I. Artefact-Actor-Networks Konsolidierung beider Netzwerkarten Consolidated artefact network II Consolidated actor network Typen semantischer Relationen AAN: Analysis and integration of Web 2.0 data sources 7
  9. 9. Semantische Relationen I. Artefact-Actor-Networks Semantische Relationen zwischen Akteuren Zusammenschluß der verschiedenartigen Netzwerkarten: 3 Typen von semantischen Relationen hasInBuddyList : relates : ACT² relates : ACT² isInBuddyList : isRelatedBy : ACT² isRelatedBy : ACT² Actor Y Actor X Actor Z Eigenschaften in Abbildungen: Vererbung, Inversion Standards, Vokabularien: FOAF, RELATIONSHIP AAN: Analysis and integration of Web 2.0 data sources 8
  10. 10. Semantische Relationen I. Artefact-Actor-Networks Relationen zwischen Artefakten, Relationen zwischen Akteuren und Artefakten Standards, Vokabularien: Dublin Core, SIOC linksTo : references : ART² references : ART² hasLink : isReferencedBy : ART² isReferencedBy : ART² Website A Website B Document C AAN: Analysis and integration of Web 2.0 data sources 9
  11. 11. Semantische Relationen I. Artefact-Actor-Networks Relationen zwischen Artefakten, Relationen zwischen Akteuren und Artefakten Standards, Vokabularien: Dublin Core, SIOC linksTo : references : ART² references : ART² hasLink : isReferencedBy : ART² isReferencedBy : ART² Website A Website B Document C bookmarkerOf : ACT-ART hasBookmarker : ART-ACT Actor Y Bookmark Q AAN: Analysis and integration of Web 2.0 data sources 9
  12. 12. Stand der Dinge I. Artefact-Actor-Networks Stand der Dinge Nutzen und Mehrwert durch lokalen Zugriff und neu erschließbare Verbindungen Wolfgang Reinhardt et al.: Artefact-Actor-Networks Tobias Varlemann: Konzeption und Entw. Architektur Außerdem: Twitter, HTML Matthias Moi: Anwendung im Kontekt von Wikis ¨ Außerdem: Semantische Ahnlichkeit (SemSim) Zusammen mit ihnen: Modeling, obtaining and storing data ” from social media tools with Artefact-Actor-Networks“, ABIS 2010 Workshop, 4.-6. Oktober in Kassel AAN: Analysis and integration of Web 2.0 data sources 10
  13. 13. Datenformate II. Datenformate II. Datenformate Bisher: Konzept von Artefact-Actor-Networks Aber: Speicherung semantisch angereicherter Daten? Drei aufeinander aufbauende Formate: RDF, RDFS, OWL AAN: Analysis and integration of Web 2.0 data sources 11
  14. 14. RDF II. Datenformate Resource Description Framework (RDF) Tripel: Subjekt, Pr¨dikat, Objekt a http://www.cs.uni-paderborn.de Subjekt: Resource http://www.terms.example.org/has-working-group (URI oder Blank Node) http://ddi.uni-paderborn.de Pr¨dikat: Resource, a http://purl.org/dc/elements/1.1/description keine Blank Nodes Didactics of Informatics Objekt: Resource oder Literal Terminologie: Ressource hat Eigenschaft mit Eigenschafts-Beschreibung Repr¨sentation von Informationen a Semantische Beschreibung? AAN: Analysis and integration of Web 2.0 data sources 12
  15. 15. RDFS II. Datenformate RDF Schema (RDFS) Zur Definition von Ontologien hasEmployee rdfs:domain rdfs:range Corporation Person rdfs:subClassOf University Ontologie (im Kontext des Semantic Web): Terme zur Beschreibung und Repr¨sentation eines Wissensgebiets. a Bereitstellen von Beschreibungen der Konzepte Klasse, Beziehung, Eigenschaft. AAN: Analysis and integration of Web 2.0 data sources 13
  16. 16. OWL II. Datenformate Web Ontology Language (OWL) Repr¨sentation der Bedeutung von Termen in Vokabularien a und den Beziehungen zwischen solchen Termen. Hatten wir das nicht gerade? Ja, aber OWL kann mehr, z.B.: Inversion, Transitivit¨t, a Symmetrie, Beschr¨nkungen in der Kardinalit¨t ... a a Die AAN Ontologie basiert auf OWL. AAN: Analysis and integration of Web 2.0 data sources 14
  17. 17. AAN Ontologie (Version 2) II. Datenformate AAN Grundontologie <!– http://AAN/AANBase #bookmarkerOf –> <owl:ObjectProperty rdf:about= ”http://AAN/AANBase #bookmarkerOf”> <rdfs:subPropertyOf rdf:resource= ”http://AAN/AANBase #act art”/> </owl:ObjectProperty> AAN := artefact-actor- networks.net/ontologies/ 2010/03 ¨ Ubersicht Ontologie AAN: Analysis and integration of Web 2.0 data sources 15
  18. 18. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen III. Netzwerke als Datenquellen Bisherige Grundlagen: Artefact-Actor-Networks Konzept Ablage von semantischen Daten Welche Daten der Netzwerke sind relevant? AAN: Analysis and integration of Web 2.0 data sources 16
  19. 19. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen Kriterien f¨r Daten u Relevanz f¨r AAN u ¨ Offentliche Daten Statische Eingenschaften Konsistente Nutzung AAN: Analysis and integration of Web 2.0 data sources 17
  20. 20. Web 2.0 Datenquellen III. Web 2.0 Netzwerke als Datenquellen Kriterien f¨r Daten u Relevanz f¨r AAN u ¨ Offentliche Daten Statische Eingenschaften Konsistente Nutzung Verf¨gbare Datentypen u Klassen Relationen Eigenschaften AAN: Analysis and integration of Web 2.0 data sources 17
  21. 21. Delicious III. Web 2.0 Netzwerke als Datenquellen Delicious: Social Bookmarking AAN: Analysis and integration of Web 2.0 data sources 18
  22. 22. Delicious III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 19
  23. 23. SlideShare III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 20
  24. 24. Scribd III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 21
  25. 25. Dokumentennetzwerke III. Web 2.0 Netzwerke als Datenquellen AAN: Analysis and integration of Web 2.0 data sources 22
  26. 26. Schnittstellen III. Web 2.0 Netzwerke als Datenquellen Schnittstellen der Netzwerke Kriterien f¨r Schnittstellen u ¨ Offentlich zug¨ngliche Daten a Alle zuvor gew¨hlten Daten a M¨glichst keine st¨renden Restriktionen o o M¨glichst strukturierte Daten o AAN: Analysis and integration of Web 2.0 data sources 23
  27. 27. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: Delicious API: Zugriff pers¨nlicher Daten (Login) o Feeds: Beschr¨nkungen a 1 Aufruf pro Sekunde Maximal 100 zur¨ckgegebene Bookmarks u HTML: Nicht strukturiert ¨ Offentlich Strukturiert API - Feeds HTML - AAN: Analysis and integration of Web 2.0 data sources 24
  28. 28. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Genutzte Delicous Feeds (10/23) Tag bmPopularByTag URL(s) Tag(s) bmByTags Actor URL bmByUrl Bookmarks URL Actor bmByUser Tag(s) Tag(s) Actor bmByUserAndTags Actor networkFans Users Actor(s) Actor networkMembers Actor tagsByUser Tags Tag(s) Tag(s) Actor tagsByUserAndTags URL urlInfo URL Tag(s) URL Input classes Feed patterns Output schemes Output classes AAN: Analysis and integration of Web 2.0 data sources 25
  29. 29. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: SlideShare get_user_contacts(username) Actor Keyword API: 4 von 13 Methoden decken Bedarf get_slideshows_by_user(username) get_slideshows_by_tag(tag) semantischer Daten Artefact HTML: Zus¨tzlich f¨r a u search_slideshows(query) get_slideshow(id | url) Volltexte und Query ID | URL Kategorien API method XML Response AAN: Analysis and integration of Web 2.0 data sources 26
  30. 30. Schnittstellen: Delicious III. Web 2.0 Netzwerke als Datenquellen Schnittstellen: Scribd ACT² Actor Keyword Keywords API: AA of Artefact 1 von 24 Methoden liefert verwendbare AA docs.search(@tag) Daten HTML: Artefact F¨r zus¨tzlichen u a docs.search(query) Bedarf API method Query HTML parser AAN: Analysis and integration of Web 2.0 data sources 27
  31. 31. AAN Framework IV. AAN Framework IV. Das AAN Framework Wir kennen: Artefact-Actor-Networks Konzept Ablage von semantischen Daten Daten in Netzwerken Jetzt wird es praktischer: Das AAN Framework Grundlage: Die OSGi Service Platform (Java) Architektur des AAN Frameworks In Arbeit entwickelte Komponenten AAN: Analysis and integration of Web 2.0 data sources 28
  32. 32. OSGi IV. AAN Framework OSGi Service Platform Spezifikation der OSGi Alliance Verschiedene Implementationen, u.a. Equinox (Eclipse Foundation) Java-basiert → Portabilit¨t a Abh¨ngigkeitsmanagement operiert auf Versionierung a Bundles: Ressourcen und Klassen Statischer Export oder dynamisch angebotene Services Implementierungen von Interfaces, registriet bei Service Registry AAN: Analysis and integration of Web 2.0 data sources 29
  33. 33. AAN Framework IV. AAN Framework Architektur AAN Framework AAN: Analysis and integration of Web 2.0 data sources 30
  34. 34. Entwickelte Komponenten V. Entwickelte Komponenten V. Entwickelte Komponenten Bisher behandelt: AAN Konzept Semantische Daten Daten in Netzwerken AAN Framework Nun zu den entwickelten Komponenten. F¨r jede der 3 Datenquellen war zu entwickeln: u Crawler Komponente Parser Komponente AAN: Analysis and integration of Web 2.0 data sources 31
  35. 35. Entwickelte Komponenten V. Entwickelte Komponenten Entwickelte OSGi Bundles Crawler Komponenten: Schnittstellen: Webservice, Observierung, Job Behandlung Durchlaufen der Netzwerk-Strukturen Parser Komponenten: Schnittstellen: Parsen m¨glich? Parsen. o Extraktion relevanter Daten Speicherung im Modell Erstellen von Folgeauftr¨gen a AAN: Analysis and integration of Web 2.0 data sources 32
  36. 36. Workflows V. Entwickelte Komponenten Workflows Crawling Komponenten AAN: Analysis and integration of Web 2.0 data sources 33
  37. 37. Workflows V. Entwickelte Komponenten Workflow Scribd Parser AAN: Analysis and integration of Web 2.0 data sources 34
  38. 38. Workflows V. Entwickelte Komponenten Workflow Delicious Crawler Manager AAN: Analysis and integration of Web 2.0 data sources 35
  39. 39. Workflows V. Entwickelte Komponenten Workflow Delicious Crawler Manager AAN: Analysis and integration of Web 2.0 data sources 36
  40. 40. Ergebnisse und Ausblick VI. Ergebnisse und Ausblick VI. Ergebnisse und Ausblick Behandelt wurden: AAN Konzept Semantische Daten Daten in Netzwerken AAN Framework Entwickelte Komponenten ¨ Abschließend eine Ubersicht der Ergebnisse und ein Ausblick AAN: Analysis and integration of Web 2.0 data sources 37
  41. 41. Ergebnisse VI. Ergebnisse und Ausblick Ergebnisse Komplette Daten Ontologie aus allen Netzwerken Vollst¨ndige Ergebnisse f¨r SlideShare und Scribd a u Volltexte f¨r Delicious und SlideShare u Keine Volltexte aus Scribd (Optionale Anforderung in der Zielvereinbarung) In Zukunft: Daten aus PDFs extrahieren? Keine vollst¨ndigen Ergebnisse f¨r Delicious a u Warum? AAN: Analysis and integration of Web 2.0 data sources 38
  42. 42. Ergebnisse VI. Ergebnisse und Ausblick Beschr¨nkungen Delicious Feeds a AAN: Analysis and integration of Web 2.0 data sources 39
  43. 43. Ergebnisse VI. Ergebnisse und Ausblick Delicious Analyse Fallbeispiel Job: Delicios Tag fsln10“ ” Es gibt 387 BM von 12 Akteuren, 384 BM ohne Doppel-Eintr¨ge a Job mit rekursiven Anfragen, interner Tiefe 1 (ca. 25 Minuten) 630 Artefakte von 7 Akteuren wurden gecrawlt Das sind 327 BM (grep -o http://delicious.com/url/ artefact-list.xml | wc -w) Job mit rekursiven Anfragen, interner Tiefe 2 733 Artefakte von 10 Akteuren wurden gecrawlt Das sind 383 BM AAN: Analysis and integration of Web 2.0 data sources 40
  44. 44. Ergebnisse VI. Ergebnisse und Ausblick Delicious Analyse Fallbeispiel Benutzer Webseite Job 1 Differenz Job 2 Differenz jul. 120 120 0 120 0 wol. 126 126 0 126 0 syw. 97 52 45 96 1 seb. 9 9 0 9 0 Den. 12 12 0 12 0 rol. 1 1 0 1 0 mey. 7 7 0 7 0 chr. 1 0 1 1 0 eva. 10 0 10 10 0 dig. 2 0 2 1 1 moi. 1 0 1 1 0 cwa. 1 0 1 0 1 Gesamt 387 327 60 383 3 oder 4 AAN: Analysis and integration of Web 2.0 data sources 41
  45. 45. Ausblick VI. Ergebnisse und Ausblick Ausblick Analyse: Auswertung zu Delicious und Slideshare im Journal of Computer Science and Technology (Beitr¨ge bis 1. Oktober 2010) a Aktive Weiterentwicklung Visualisierung und Analyse im Fachgebiet DDI Projektgruppe: knowAAN Voraussichtlich im WS 2010/11 Seminar: Future Social Learning Networks im WS 2010/11 AAN: Analysis and integration of Web 2.0 data sources 42
  46. 46. Fazit VI. Ergebnisse und Ausblick Pers¨nliches Fazit o Wissen in verschiedenen Bereiche erworben: Theorie (z.B. Repr¨sentation von Semantiken) a Technik (z.B. Architektur OSGi Platform & AAN Framework) Praxis (Entwurf & Entwicklung der Komponenten) Teamarbeit, Englisch-Kenntnisse Vielen Dank! AAN: Analysis and integration of Web 2.0 data sources 43
  47. 47. Anhang: Vereinfachte Ontologie V2, Stand: Juli 2010 Grundontologie AAN: Analysis and integration of Web 2.0 data sources 44

×