SchemaCMD - An XML-based storage schema for the compilation of mixed-source CMD corpora

SchemaCMD An XML-based storage schema for the compilation of mixed-source CMD corpora Cornelius Puschmann University of Düsseldorf [email_address] Towards a Reference Corpus of Web Genres University of Birmingham 27 July 2007

Contents of this presentation ,[object Object],[object Object],[object Object],[object Object],[object Object]

A) Problems of classifying digital genres

Approaches to genre and text typology ,[object Object],[object Object],[object Object],[object Object],[object Object]

A faceted classification scheme (Herring 2007) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Aspects of digital genres concrete abstract

Are blogs a genre? ,[object Object],[object Object]

B) Granularity and meta-data in blogs

Blog content syndication ,[object Object],[object Object],[object Object],[object Object],[object Object]

A sample RSS 2.0 feed ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

C) An example: the corporate web log corpus

The corpus tool ,[object Object],[object Object],[object Object],[object Object]

MySQL data structure - sources - BNC top 100 words - sub-types of corp. blogs - blogs, press eds., ... - n-grams (not computed due to cost) - POS frequencies by post - post data (via RSS/Atom) - additional post statistics - tokens (depends on types) - types (string + POS)

Corpus data ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Measuring text formality via f-scores ,[object Object],[object Object],[object Object]

Example: high f-score (press release) ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

Example: low f-score (blog entry) ,[object Object],[object Object],[object Object],[object Object],[object Object]

F-score over time for two sources light blue = Jonathan Schwartz (blog); dark blue = New York Times (editorials)

F-score and standard deviation for all sources x-axis = stdev; y-axis = f-score; dot size = number of posts editorials press releases

Observations ,[object Object],[object Object],[object Object],[object Object],[object Object],[object Object]

SchemaCMD - An XML-based storage schema for the compilation of mixed-source CMD corpora

Recommended

Recommended

More Related Content

Similar to SchemaCMD - An XML-based storage schema for the compilation of mixed-source CMD corpora

Similar to SchemaCMD - An XML-based storage schema for the compilation of mixed-source CMD corpora (20)

More from Cornelius Puschmann

More from Cornelius Puschmann (20)

Recently uploaded

Recently uploaded (20)

SchemaCMD - An XML-based storage schema for the compilation of mixed-source CMD corpora