読解支援6 26
- 4. u 新聞記事
u 1990年~2004年までの15年分の日経新聞
u Wikipedia
u 2014年3月時点の全日本語記事の本文
u 論文
u ANLP-20コーパスとして公開されている自然言語処
理年次大会予稿集のうち、論文PDFの抽出テキスト
記事数
単語数
異なり単語数
新聞記事
2,479,065
703,761,303
151,514
Wikipedia
853,134
357,761,882
158,971
論文
4,082
14,787,129
37,282