日本語の語彙特性について
- 6. 「日本語の語彙特性」の概要
第1巻 単語親密度
単語がどの程度の馴染みがあると感じられるか
約7万語に対する単語親密度が音声呈示、文字呈示、
音声文字呈示の3種類について収録
第2巻 単語表記データベース
約7万語に対する可能な表記法22万項目についてその
妥当性を実数値(1~7)で収録
第3巻 単語アクセントデータベース
約7万語に対するアクセントの妥当性を実数値(1~7)で
収録
第4巻 品詞データベース
約7万語に対する品詞が収録
- 7. 「日本語の語彙特性」の概要
第5巻 文字データベース
文字特性データベース
文字親密度、主観的複雑度、既知率、画数(新明解漢
和辞典)、客観的複雑度など
漢字読みデータベース
単語表記データベースに収録された単語における各
漢字の読みと新明解漢和辞典に示されている漢字の
読み、および評定実験で求めた漢字の読みの妥当性
漢字部首データベース
新明解漢和辞典に示されている部首、日本工業規格
情報交換用漢字符号に示されている部首
- 8. 「日本語の語彙特性」の概要
第6巻 文字-単語データベース
単語中の各文字の出現位置や読み方等の情報が収録
第7巻 単語・文字頻度データベース
1985年から1998年までの朝日新聞の紙面に基づいて
朝日新聞社が作成したデータ
単語頻度データベース
朝日新聞の記事データを形態素解析システム「すも
も」を使用
文字頻度データベース
日本工業規格情報交換用漢字符号に規定された
6879文字から罫線素片32文字を除外した6847文字
で朝日新聞の記事データ中に出現した回数
Editor's Notes
- 単語頻度ベース
形態素二億9千万単語から約34万語の頻度がこのデータに掲載されている
動詞形容詞形容動詞などの活用のある単語は各活用を終止形に変換した