Your SlideShare is downloading. ×
Korpusbasierte Online-Dialoganalyse am Beispiel Twitter
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Saving this for later?

Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime - even offline.

Text the download link to your phone

Standard text messaging rates apply

Korpusbasierte Online-Dialoganalyse am Beispiel Twitter

959
views

Published on

Dieser Artikel diskutiert das Vorgehen und die Ergebnisse einer Dialoganalyse auf der Microbloggingplattform Twitter. Dialoge werden zum einen durch Metadaten aus der Twitter API und zum andern durch …

Dieser Artikel diskutiert das Vorgehen und die Ergebnisse einer Dialoganalyse auf der Microbloggingplattform Twitter. Dialoge werden zum einen durch Metadaten aus der Twitter API und zum andern durch korpuslinguistische Annotation des Machinese Phrase Taggers von Connexor eruiert. Die Ergebnisse der Untersuchungen zeigen, dass die Metainformationen von Twitter Konversationen auffindbar machen können, jedoch sind zusätzliche Informationen nötig, um einen thematischen Dialog aus diesen Konversationen zu filtern. Für diese Problematik wird hier der Vergleich von Nominalphrasen als ein möglicher Lösungsansatz untersucht.

Published in: Design

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
959
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Korpusbasierte Online-Dialoganalyse am Beispiel Twitter Agnes Mainka Heinrich-Heine-Universität Düsseldorf 2. DGI-Konferenz 22. und 23. März 2012, Düsseldorf
  • 2. Fragestellungen 1. Kann man Dialoge auf Twitter automatisch extrahieren? 2. Gibt es eine typische Zeitspanne für Dialoge? 3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“-Analyse finden? 23.03.2012 @Agnieszka_M 2
  • 3. Neue Herausforderungen der Dialoganalysedurch Onlinediskurse Analyse von oralen Konversationen: „Die Kunst des Gesprächs“ Neue Technologien wie Handys verändern Gesprächsverläufe Gespräche finden zunehmend in sozialen Netzwerken statt Smartphones machen es möglich, von überall an Online-Dialogen teilzunehmen 23.03.2012 @Agnieszka_M 3
  • 4. Dialoge auf Twitter RT @Irgendwer Reden über @Irgendwer Umgangssprache @Paul Paul Emoticons @Hans Lara Mehrsprachig @Paul Paul @Lara Abkürzungen Tippfehler Lara @Paul 23.03.2012 @Agnieszka_M 4
  • 5. Korpuserstellung Zugriff auf die Tweets über die Twitter-API Möglichkeiten und Begrenzung des Zugriffs auf die Dialoge über die Twitter-Timeline: • Lokale Sicherung der Timeline ist nur begrenzt möglich • Es sind max. 100 Anfragen pro Stunde über die Twitter-API möglich • Abrufe der Timelines sind auf die letzten 200 Tweets begrenzt • Daten können als JSON oder XML gespeichert werden 23.03.2012 @Agnieszka_M 5
  • 6. Korpuserstellung Arbeitsschritte: 31.08.2011: Download der Timelines der ersten 20 Nutzer (JSON) 31.08.2011: Speicherung der Tweets vom 29.8. bis 31.8. 31.08.2011: Herausfiltern aller @Mentions aus dem Tweetbestand ohne RT @User 31.08.2011: Download aller Timelines der @Mentions 31.08.2011: Wiederholung der Schritte 3 und 4 (viermal) 02.09.2011: Aktualisierung der vorhandenen Timelines 05.09.2011: Aktualisierung der vorhandenen Timelines 23.03.2012 @Agnieszka_M 6
  • 7. Korpuserstellung Daten der 20 Start- Twitternutzer Min. Max. Korpus: Account erstellt 2006 2011 Tweets gepostet 386 45957 Follower 80 1148 In Listen 5 166 • „RT @User“ wurden aus dem Untersuchungskorpus herausgefiltert • 241 Timelines wurden lokal gespeichert • Untersuchungsgegenstand sind alle öffentlich geposteten Tweets zwischen Montag dem 29. August 2011 und Sonntag dem 04. September 2011 • Nur 19 % (5.570 Tweets) des Korpus für die weitere Untersuchung verwendet, da sie min. eine @Mention enthalten 23.03.2012 @Agnieszka_M 7
  • 8. Fragestellung 1:Kann man Dialoge auf Twitter automatisch extrahieren? Metainformationen der JSON-DateiBezeichnung in der Json Datei Bedeutung(Twitter-Timeline)„screen_name“ Enthält den Benutzernamen des Nutzers, der den Tweet verfasst hat. (Jeder Benutzername ist eindeutig, da er nur einmal an einen Benutzer vergeben wird)„id“ Enthält eine eindeutige ID, die jedem Tweet zugeordnet wird.„text“ Enthält den Text des Tweets.„created_at“ Enthält das Datum, an dem der Tweet gepostet wurde.„in_reply_to_status_id“ Enthält die ID des Tweets auf den der Text Bezug nimmt.„in_reply_to_screen_name“ Enthält den Benutzernamen des Nutzers, auf den der Text Bezug nimmt. 23.03.2012 @Agnieszka_M 8
  • 9. Automatische Extraktion von Dialogen Extraktion von Dialogketten mit Python Tweet 1 Tweet 2 Tweet 3 … id = 1 in reply to = 1 in reply to = 2 id = 2 id = 3 23.03.2012 @Agnieszka_M 9
  • 10. Automatische Extraktion von Dialogen Extraktion von Dialogketten mit Python Anzahl der Dialogketten Anzahl der Turns 23.03.2012 @Agnieszka_M 10
  • 11. Fragestellung 2:Gibt es eine typische Zeitspanne für Dialoge? Zeitlicher Abstand zwischen Tweets in einem Dialog • Untersuchung der Zeit im Mittel hat kein eindeutiges Ergebnis gebracht • Nur in 14 der 86 Dialogketten haben sich drei Twitternutzer beteiligt, sonst waren es zwei Nutzer • Durchschnittlicher Turnwechsel zwischen zwei und sieben Minuten • Schnellste Antwort: acht Sekunden • Späteste Antwort: eine Woche 23.03.2012 @Agnieszka_M 11
  • 12. Fragestellung 2:Gibt es eine typische Zeitspanne für Dialoge? Zeitlicher Abstand zwischen Tweets in einem Dialog 23.03.2012 @Agnieszka_M 12
  • 13. Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden? Twitternutzer 5 Automatische Annotation durch den Machinese Phrase Tagger von Connexor token len text lemma syntax morpho form time noun phrase 1462216 7 grenzen grenzen @MAIN V INF 1462224 3 los los @ADVL ADV 1462228 3 ich ich @NH PRON 1462232 4 frag fragen @MAIN V IMP 1462237 4 mich ich @NH PRON 1462242 3 bis bis @PREMARK CS 1462246 5 heute heute @ADVL ADV 1462252 3 wie wie @PREMARK PREP 1462256 2 du du @NH PRON 1462259 4 dein dein @PREMOD PRON 1462264 3 Abi Abi @NH N Prop NP-Single 1462268 9 geschafft schaffen @MAIN V PCP PERF 1462278 4 hast haben @MAIN V IND PRES 23.03.2012 @Agnieszka_M 13
  • 14. Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden?Was ist eine Nominalphrase (NP) ?Was ist ein Nominalkopf (NH)? Satz NP Nominal- Verbal- phrase phrase NH Artikel Nomen Verb Nominal- NP phrase NH Der Mann isst Artikel Nomen den Apfel 23.03.2012 @Agnieszka_M 14
  • 15. Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden? Anzahl der erkannten Nominalköpfe in einem Tweet Beispiel für 16 NHs: 23.03.2012 @Agnieszka_M 15
  • 16. Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden? Anzahl der erkannten Nominalphrasen in einem Tweet 23.03.2012 @Agnieszka_M 16
  • 17. Fragestellung 3:Kann man thematische Dialoge mittels POS-Tagging finden? 23.03.2012 @Agnieszka_M 17
  • 18. Probleme der Phrasenanalyse Paula @Sahra Verwendung von Pronomen Sahra @Paula Geplauder ohne Themenbezug Paula @Sahra Frage: „wa“ – Antwort „jepp“ ??? Bernd @Sahra Ausruf auf ersten Tweet – keine NP Peter @Sahra „Sowas“ – Bezug auf das Ereignis ohne übereinstimmenden NH 23.03.2012 @Agnieszka_M 18
  • 19. Probleme der Phrasenanalyse• Nur ein kleiner Teil der Dialoge kann so erkannt werden: • 10,7 % der 402 untersuchten Dialogketten weisen eine Übereinstimmung der Nominalköpfe auf• Initiale Tweets, die kein „Thema“ haben, können demnach auch nicht thematisch passend beantwortet werden• @-Funktion beabsichtigt nicht immer einen Dialog• Linguistische Schwierigkeiten: • Verwendung von Pronomen und Ellipsen • Semantik 23.03.2012 @Agnieszka_M 19
  • 20. Zusammenfassung1. Kann man Dialoge auf Twitter automatisch extrahieren? • Metainformationen der JSON (oder XML)-Ausgabe machen es möglich über die Angabe „in_reply_to_status_id“ Dialoge automatisch zu finden2. Gibt es eine typische Zeitspanne für Dialoge? • Ein Großteil der untersuchten Twitternutzer antworten in weniger als fünf Minuten auf einen Tweet3. Kann man thematische Dialoge mittels automatischer „Part of Speech Tagging“- Analyse finden? • Nur 10 % der Twitternachrichten, die mit dem „reply_to_status_id“-Wert deklariert werden, besitzen einen gleichen NominalkopfAndere Möglichkeiten?• Verbesserung der Ergebnisse durch Verwendung von Thesauri oder Ontologien• Die Auswertung eignet sich nur für Konversationen die ein Thema diskutieren und nicht nur Geplauder enthalten 23.03.2012 @Agnieszka_M 20
  • 21. Vielen Dank! Heinrich-Heine-Universität Düsseldorf agnes.mainka@hhu.de @Agnieszka_M Folien auf Slideshare: Agnes Mainka23.03.2012 @Agnieszka_M 21
  • 22. Quellen:Cheng, N., Chandramouli, R., & Subbalakshmi, K. P. (2011). Author gender identification from text. Digital Investigation, 8(1), 78-88.Crystal, D. (2011). Internet Linguistics. New York: Routledge.Finin, T., Murnane, W., Karandikar, A., Keller, N., Martineau, J., & Dredze, M. (2010). Annotating named entities in Twitter data with crowdsourcing. In: Association forComputational Linguistics (Hrsg.), Proceedings of the NAACL Workshop on Creating Speech and Text Language Data With Amazons Mechanical Turk.Fraas, C., & Pentzold, C. (2008). Online-Diskurse – Theoretische Prämissen, methodische Anforderungen und analytische Befunde. In: I. H. Warnke & J. Spitzmüller (Hrsg.), Methodender Diskurslinguistik. Sprachwissenschaftliche Zugänge zur transtextuellen Ebene (S. 291-326).Franke, W. (2000). Konzepte linguistischer Dialogforschung. In: K. Brinker (Hrsg.), Text- und Gesprächslinguistik: ein internationales Handbuch zeitgenössischer Forschung (S. 346-362). Walter de Gruyter.Galanova, O., & Sommer, V. (2011). Neue Forschungsfelder im Netz. Erhebung, Archivierung und Analyse von Online-Diskursen als digitale Daten. In: S. Schomburg, C. Leggewie, H.Lobin & C. Puschmann (Hrsg.), Digitale Wissenschaft: Stand und Entwicklung digital vernetzter Forschung in Deutschland (S. 89-97). HBZ: Köln.Garton, L., Haythornthwaite, C., & Wellman, B. (1999). Studying On-Line Social Networks. In: S. Jones (Hrsg.), Doing Internet Research: Critical Issues and Methods for Examining theNet (S. 75-105). Thousand Oaks, CA: SAGE Publications, Inc.Jansen, B. J., Zhang, M., Sobel, K., & Chowdury, A. (2009). Twitter power: Tweets as electronic word of mouth. Journal of the American Society for Information Science andTechnology, 60(11), 2169-2188.Java, A., Song, X., Finin, T., & Tseng, B. (2007). Why we twitter: Understanding microblogging usage and communities. In: Proceedings of the 9th WebKDD and 1st SNA-KDD 2007Workshop on Web Mining and Social Network Analysis at ACM SIGKDD, San Jose, California (S. 56-65). New York: ACM.Kress, G. R. (2009). Multimodality: a social semiotic approach to contemporary communication. London: Taylor & Francis.Kress, G. R., & van Leeuwen, T. (2001). Multimodal discourse. The modes and media ofcontemporary communication. London: Arnold.Mainka, A. (2010). Twitter: „Gezwitscher“ oder gezielte Informationsvermittlung? Information, Wissenschaft & Praxis, 61(2), 77-82.McEnery, T. (2003). Corpus Linguistics. In: R. Mitkov (Hrsg.), The Oxford Handbook of Computational Linguistics. Oxford Handbooks in Linguistics (S. 448–463). Oxford: OxfordUniversity Press.McEnery, T., & Wilson, A. (1996). Corpus Linguistics. Edinburgh: Edinburgh University Press.Meier, S. (2008). (Bild-)Diskurs im Netz. Konzept und Methode für eine semiotische Diskursanalyse im World Wide Web. Köln: Halem.O’Reilly, T., Milstein, S., & Lang, J. W. (2009). Das Twitter-Buch. Köln: O’Reilly Verlag.Schmölders, C. (1986). Die Kunst des Gesprächs. München: Deutscher Taschenbuchverlag München.Stringhini, G., Kruegel, C., & Vigna, G. (2010). Detecting spammers on social networks. In: Proceedings of the 26th Annual Computer Security Applications Conference on - ACSAC ’10 .Thimm, C., Dang-Anh, M., & Einspänner, J. (2011). Diskurssystem Twitter: Semiotische und handlungstheoretische Perspektiven. In: M. Anastasiadis & C. Thimm (Hrsg.), SocialMedia – Theorie und Praxis digitaler Sozialität (S. 265-286). Frankfurt/New York: Peter Lang (i.Dr.).Weller, K., Dröge, E., & Puschmann, C. (2011). Citation Analysis in Twitter: Approaches for Defining and Measuring Information Flows within Tweets during Scientific Conferences. In:M. Rowe, M. Stankovic, A. Dadzie, & M. Hardey (Hrsg.), CEUR Workshop Proceedings Vol. 718. (S. 1-12). Crete, Greece.Zappavigna, M. (2011). Ambient affiliation: A linguistic perspective on Twitter. New Media & Society, 13(5), 788 -806.Bilder:http://www.flickr.com/photos/matthamm/3383916444/http://kfolta.blogspot.com/2010/12/scintillating-dinner-conversations.htmlTwittertoaster: http://twitoaster.com/ 23.03.2012 @Agnieszka_M 22