Loading…

Flash Player 9 (or above) is needed to view presentations.
We have detected that you do not have it on your computer. To install it, go here.

Like this presentation? Why not share!

ゼミ3

on

  • 528 views

 

Statistics

Views

Total Views
528
Views on SlideShare
524
Embed Views
4

Actions

Likes
0
Downloads
1
Comments
0

1 Embed 4

http://mj89sp3sau2k7lj1eg3k40hkeppguj6j-a-sites-opensocial.googleusercontent.com 4

Accessibility

Categories

Upload Details

Uploaded via as Adobe PDF

Usage Rights

© All Rights Reserved

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Processing…
Post Comment
Edit your comment

    ゼミ3 ゼミ3 Presentation Transcript

    • B3ゼミ(2012/01/31) Google 7-gram 梶原 智之
    • N-gram言語モデル直前の(N-1)個の単語を見て、次の単語を予測する !   3-gramの例 「 グーグル で 〇〇 」
    • N-gram言語モデル直前の(N-1)個の単語を見て、次の単語を予測する !   3-gramの例 「 グーグル で 検索 」 !   N-gram言語モデルが有効な例 !   かな漢字変換 !   OCRのエラー訂正 !   機械翻訳 !   音声認識
    • Web日本語Nグラム!   Googleが2007年に作成!   日本語の単語 n-gram と、その出現頻度!   約200億文(約2550億単語)をWebから!   日本語データから作成した1∼7gramデータ
    • 前処理!   文字コード変換!   正規化!   文の分割!   対象文の同定、選別!   単語分割
    • 文字コード変換!   コーパスを UTF8 に変換してから n-gram を抽出している!   すべての n-gram データは UTF8 エンコーディングで保存されている
    • 正規化!   全文字列はUnicodeが定めるNFKCで正規化 !   全角英数字  → 半角英数字 !   半角カタカナ → 全角カタカナ !   ローマ数字  → アルファベット !   特殊記号( ㈱ →(株), ㌧ → トン )
    • 文の分割!   次のものをデリミタとして文を抽出する !   。 !   . !   ! !   ? !   「モーニング娘。」や「Yahoo!」には注意
    • 対象文の同定、選別!   次に該当する文は抽出対象から除外 !   5文字以下の文 !   1024文字以上の文 !   ひらがなが全体の5%未満の文
    • 単語分割! MeCab(形態素解析エンジン)! Ipadic(MeCabやChaSen用の辞書)MeCabは、奈良先端科学技術大学院大学出身でGoogleエンジニアの工藤拓氏が開発した形態素解析エンジンである。ChaSenを基に開発が始められ、ChaSenよりも速度が速いのが特徴。
    • カットオフ!   基本語彙カットオフ !   基本語彙:コーパス中に50回以上      出現した単語の集合 !   基本語彙でない単語は未知語トークンに置換!   N-gramカットオフ !   出現頻度が20回以上のn-gramを抽出対象とする