基於統計語言模型的拼音輸入法

基於統計語言模型的拼音輸入法清華大學計算機科學與技術系 02班郭家寶 byvoid.kcp@gmail.com

拼音輸入法拼音輸入法是最大衆化的輸入法，因為絕大多數用戶熟悉拼音，無須另外學習。相較於五筆等形碼輸入法，其最大的劣勢就是重碼過多。例如拼音為yi的Unicode BMP內漢字有近四百個，即使是常用字也有接近四十個。一直以來選字是制約拼音輸入法快速輸入的瓶頸。各種智能組詞組句算法應運而生。

拼音輸入法智能解決重碼原理基於系統句法分析的手段系統句法分析是人工智能領域的前沿問題，尚未有較好的可以應用的算法。中文是分析語，句法結構更難分析。基於統計語言模型的手段統計語言模型是一個概率模型，使得較優詞序列的概率值大於較差詞序列的概率值。 N元語法(n-gram)

統計語言模型 n-gram基本假設齊次性假設：當前詞的條件概率與當前詞在詞序列中的位置無關。有限歷史假設：當前詞的條件概率祗與前面的n-1個詞相關。概率函數

統計語言模型 Unigram 在一個樣本總體中，詞w(i)出現了c(i)次，定義： Bigram 詞w(i)和w(j)連續出現了c(i,j)次，定義：

拼音輸入法的實現音節解析 fangan“方案”還是“反感” fanan“發難”還是“翻案” xingai“信概”還是“性愛” 計算能夠表示的所有音節圖論模型建立音節圖

音節解析例如拼音串 xiantian 有效音節 xi, xia, xian, a, an, ti, tian x i a n t i a n 0 1 2 3 4 5 6 7 8

音節解析 x i a n t i a n 收縮以後 1 xi an 0 1 2 3 4 5 6 7 8 tian xian 0 2 4 ti an 3

1 希安恬按西現天詞彙解析詞彙解析在建立好的音節圖的基礎上，將每一條路徑解析為字詞，加入圖中。 0 2 4 西安提案 1 xi an 體按腺體 tian xian 3 0 2 4 先天 ti an 3

語言模型我們要求的是組詞可能性最大的路徑，即路徑上相鄰邊所代表的單詞組合到一起的概率的乘積最大。把圖中每條邊變成一個頂點，邊權為原圖中邊之間的概率，則祗需求一條乘積最大的路徑。再將邊的權值取自然對數，即可轉換為求一條長度最大的路徑，可用動態規劃在O(N)的時間內解決。

語言模型如下圖所示的轉換先天 1 西安提案希安恬按西 S 西按體按 T 0 2 4 現天西安提案現天體按腺體 3 腺體安恬先天

語言模型應用bigram語言模型，為每條邊邊賦權，求最長路徑即可。前幾優解可能是：先天西安天現提案腺體胺 …… 先天西安提案 S 西按體按 T 現天腺體安恬

其他細節語言模型的訓練 open-gram sunpinyin 數據平滑可能會有概率為0的邊，即兩個詞的組合在統計語言模型中沒有出現，此時整個路徑求積則為0。需要用到擬合等高級方法，簡單方法為將兩個詞的unigram值線性組合。

程序實現使用C#語言，在Mono Develop環境下編碼，可用VS編譯，生成的代碼跨平臺。支持Windows, Linux, Mac。使用多線程技術，加速求解。源碼以Apache License 2.0發佈。

Recommended