基於統計語言模型的拼音輸入法
- 3. 拼音輸入法 智能解決重碼原理 基於系統句法分析的手段 系統句法分析是人工智能領域的前沿問題,尚未有較好的可以應用的算法。 中文是分析語,句法結構更難分析。 基於統計語言模型的手段 統計語言模型是一個概率模型,使得較優詞序列的概率值大於較差詞序列的概率值。 N元語法(n-gram)
- 8. 音節解析 x i a n t i a n 收縮以後 1 xi an 0 1 2 3 4 5 6 7 8 tian xian 0 2 4 ti an 3
- 9. 1 希 安恬 按 西 現 天 詞彙解析 詞彙解析 在建立好的音節圖的基礎上,將每一條路徑解析為字詞,加入圖中。 0 2 4 西安 提案 1 xi an 體 按 腺體 tian xian 3 0 2 4 先天 ti an 3
- 11. 語言模型 如下圖所示的轉換 先天 1 西安 提案 希 安恬 按 西 S 西 按 體 按 T 0 2 4 現 天 西安 提案 現 天 體 按 腺體 3 腺體 安恬 先天
- 13. 其他細節 語言模型的訓練 open-gram sunpinyin 數據平滑 可能會有概率為0的邊,即兩個詞的組合在統計語言模型中沒有出現,此時整個路徑求積則為0。 需要用到擬合等高級方法,簡單方法為將兩個詞的unigram值線性組合。