SlideShare a Scribd company logo
1 of 21
NTTデータベースシリーズ
「日本語の語彙特性」について
天野成昭 近藤公久
Journal of the Phonetic Society of Japan, Vol,4 No.2
August 2000,pp.44-50
発表者:朝倉康伸
概要
1. 語彙特性データベースの重要性
2. 「日本の語彙特性」について
3. 単語親密度について
はじめに
 言語機能の解明を目指す学問分野の研究基盤となる語彙
特性を収録したデータベースが必要
たとえば・・・
言語機能の特性である親
密度が異なるとそれに応じ
て人間が雑音中で音声単
語の認知率は大きく変動
する
図1:単語親密度による音声単語の認知率
1. 各単位における要素数が多い
 文字は数千から数万の要素が存在
 単語は数万から数十万の要素が存在
2. 各単位における要素が複数の特性を持つ
 文字数
 音韻数
 主観的複雑度(文字が複雑に見える程度)
 親密度(馴染み深く感じられる程度)
 頻度(新聞等に出現した回数)
言語的単位の特徴
「日本語の語彙特性」の概要
• 第7巻構成
• 1~6巻は単語・文字の主観的特性値を掲載
• 7巻は単語・文字の頻度
• 各巻の内容
1. 単語親密度データベース
2. 単語表記データベース
3. 単語アクセントデータベース
4. 品詞データベース
5. 文字データベース
6. 文字-単語データベース
7. 単語頻度データベース
「日本語の語彙特性」の概要
 第1巻 単語親密度
 単語がどの程度の馴染みがあると感じられるか
 約7万語に対する単語親密度が音声呈示、文字呈示、
音声文字呈示の3種類について収録
 第2巻 単語表記データベース
 約7万語に対する可能な表記法22万項目についてその
妥当性を実数値(1~7)で収録
 第3巻 単語アクセントデータベース
 約7万語に対するアクセントの妥当性を実数値(1~7)で
収録
 第4巻 品詞データベース
 約7万語に対する品詞が収録
「日本語の語彙特性」の概要
 第5巻 文字データベース
 文字特性データベース
 文字親密度、主観的複雑度、既知率、画数(新明解漢
和辞典)、客観的複雑度など
 漢字読みデータベース
 単語表記データベースに収録された単語における各
漢字の読みと新明解漢和辞典に示されている漢字の
読み、および評定実験で求めた漢字の読みの妥当性
 漢字部首データベース
 新明解漢和辞典に示されている部首、日本工業規格
情報交換用漢字符号に示されている部首
「日本語の語彙特性」の概要
 第6巻 文字-単語データベース
 単語中の各文字の出現位置や読み方等の情報が収録
 第7巻 単語・文字頻度データベース
 1985年から1998年までの朝日新聞の紙面に基づいて
朝日新聞社が作成したデータ
単語頻度データベース
朝日新聞の記事データを形態素解析システム「すも
も」を使用
文字頻度データベース
日本工業規格情報交換用漢字符号に規定された
6879文字から罫線素片32文字を除外した6847文字
で朝日新聞の記事データ中に出現した回数
「日本語の語彙特性」の特徴
• データベースの規模
• 単語頻度データベースの単語数約34
万
• 単語親密度データベース、単語表記
データベース、単語アクセントデータ
ベースの単語数約7万語
• 文字の特性データベースが最大約7
千万時
• 特性の種類の豊富さ
• 数十種の特性を収録し、それらの相
互参照が用意
「日本語の語彙特性」の特徴
• 信頼性の高さ
• 単語頻度のデータベースは14年分の全新聞記事を用い
て頻度を計数
• 単語親密度データベース等において測定実験を行う際、
外乱によるデータの変動を抑える
1. 読み能力テスト「百羅漢」を使用して、スクリーニング
を行う
2. 被験者に練習を十分に行わせる
3. 刺激セットの一部を用いてポストテストを行い、両者
の結果の一部分を用いてポストテストを行い、両者の
結果の一致度が一定以上の基準である被験者の
データだけを採用
「日本語の語彙特性」の特徴
• 音声言語に対する特性を収録
• 単語親密度データベースには、音声単語による親密度が
収録されている
• 単語アクセントデータベースには、母音の長音化の人数
の割合を求め、その割合に基づいた単語の発音の仕方
を収録
 「お父さん」→「オトーサン」
「日本語の語彙特性」
による基礎研究
 単語頻度と単語親密度の関係を調査
 文字単語の親密度と単語頻度の相関係数は.634、音声
単語の親密度と単語頻度の相関係数は.446
 単語親密度が高くかつ、単語頻度が低い単語が多く存
在する
「おにぎり」「たまねぎ」「ごちそうさま」などの単語は親
密度が6以上に対して、頻度は10以下
単語頻度と単語親密度を系統的に変化させた
刺激セットを抽出し、認知率を測定
「日本語の語彙特性」
による基礎研究
単語頻度と単語親密度を系統的に変
化させた刺激セットを抽出し、認知率を
測定
単語親密度の方が単語認知率をよりよ
く反映することを示す結果が得られた
「日本語の語彙特性」
の応用研究
 言語医療・リハビリ
 失語症患者のテストバッテリーの構築
 難聴者用の音声明瞭度単語試験リスト
 教育支援システム
単語親密度
単語を見る、聞かせるなどして、馴染みの程度を
1~7までの数字(1:馴染みがない—7:馴染みがあ
る)で答えてもらい、その平均をとって求める
単語親密度が言語処理過程
に及ぼす効果
呈示される文字列や音声が単語か単語でないかをな
るべく判断してもらいかかった時間を計ると、単語親密
度が高いほど、認識するのが速いことがわかる→図2
単語親密度が言語処理過程
に及ぼす効果
• 呈示される文字列や音声が単語か単語でないかを
なるべく判断してもらいかかった時間を計ると、単語
親密度が高いほど、認識するのが速いことがわか
る→図2
• 雑音中の音声単語に対する認知率は、雑音の増加
に対して、親密度が高い単語に比べて低い単語の
方が、認知率の低下が大きい→図3
単語親密度が言語処理過程に
及ぼす効果
語彙判断反応時間(ms)
単語親密度
図2:音声及び文字単語親密度と語彙判断反応時間の関係
単語親密度が言語処理過程
に及ぼす効果
単語親密度
単語認知率
図3:音声単語親密度と音声単語認知率の関係
単語頻度と単語親密度
単語親密度
単語頻度(log10[n+1])
図4:新聞中の単語頻度と単語親密度の相関
単語頻度が低くても単語親密度は高い単語が数多く存在
し、単語頻度が高い単語は必ず単語親密度も高い
まとめ
言語研究の基礎基盤となる「日本
語の語彙特性」について紹介した
単語頻度と単語親密度の相関は小
さく、単語親密度がより脳内の言語
処理に反映する
日本語の語彙特性について

More Related Content

What's hot

音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーションAkinori Ito
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech CorpusShinnosuke Takamichi
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術utsuro_lab
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザインShinnosuke Takamichi
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーションAkinori Ito
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)Yuta Matsunaga
 
Web Audio API とモールス信号
Web Audio API とモールス信号Web Audio API とモールス信号
Web Audio API とモールス信号Hisashi Oikawa
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10Hiroaki Sugiyama
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentationYuki Saito
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情Shinnosuke Takamichi
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioShunji Kawabata
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...Akira Tamamori
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスShinnosuke Takamichi
 
江戸時代のバーチャルリアリティ
江戸時代のバーチャルリアリティ江戸時代のバーチャルリアリティ
江戸時代のバーチャルリアリティTsukasa Makino
 

What's hot (16)

音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション音声と音楽による人間・機械間メタコミュニケーション
音声と音楽による人間・機械間メタコミュニケーション
 
論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus論文紹介 Building the Singapore English National Speech Corpus
論文紹介 Building the Singapore English National Speech Corpus
 
音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術音声言語対話を介した人間と機械のコミュニケーション技術
音声言語対話を介した人間と機械のコミュニケーション技術
 
音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン音声合成研究を加速させるためのコーパスデザイン
音声合成研究を加速させるためのコーパスデザイン
 
人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション人間と機械と音のコミュニケーション
人間と機械と音のコミュニケーション
 
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
講演音声におけるフィラーの出現傾向と個人性に関する分析 (日本音声学会第35回研究大会)
 
Web Audio API とモールス信号
Web Audio API とモールス信号Web Audio API とモールス信号
Web Audio API とモールス信号
 
人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10人狼知能合宿 自然言語部門 2016/10/10
人狼知能合宿 自然言語部門 2016/10/10
 
後期梗概完成版
後期梗概完成版後期梗概完成版
後期梗概完成版
 
Nishimura22slp03 presentation
Nishimura22slp03 presentationNishimura22slp03 presentation
Nishimura22slp03 presentation
 
統計的ボイチェン研究事情
統計的ボイチェン研究事情統計的ボイチェン研究事情
統計的ボイチェン研究事情
 
WaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw AudioWaveNet: A Generative Model for Raw Audio
WaveNet: A Generative Model for Raw Audio
 
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
A Method of Speech Waveform Synthesis based on WaveNet considering Speech Gen...
 
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパスJ-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
J-KAC:日本語オーディオブック・紙芝居朗読音声コーパス
 
江戸時代のバーチャルリアリティ
江戸時代のバーチャルリアリティ江戸時代のバーチャルリアリティ
江戸時代のバーチャルリアリティ
 
公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査公的文書に対する「やさしい日本語」換言辞書作成のための調査
公的文書に対する「やさしい日本語」換言辞書作成のための調査
 

日本語の語彙特性について

Editor's Notes

  1. 単語頻度ベース 形態素二億9千万単語から約34万語の頻度がこのデータに掲載されている 動詞形容詞形容動詞などの活用のある単語は各活用を終止形に変換した