Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
Neural Probabilistic Language Model
神經機率語言模型與word2vec
By Mark Chang
神經機率語言模型與 word2vec
● 語意向量
● 類神經網路
● word2vec
n-gram 的缺陷
● 容易受到維度爆炸的影響。
● 只能得出表面文字的關聯,無法得出較深層的語意。
● 事實上,語意可從其附近的字詞來得知。
罷免 蔡正元 失敗
罷免 祭止兀 失敗
蔡正元 是 最佳 助選員
祭止兀 是 最佳 助選員
祭止兀...
語意向量
● 把字詞對應到一個 n 維度的向量。
祭止兀 (1, 1,..., xn
)
蔡正元 (1, 1,..., xn
)
罷免 蔡正元 失敗
罷免 祭止兀 失敗
蔡正元 是 最佳 助選員
祭止兀 是 最佳 助選員
(x1
= 罷免 , ...
語意向量
祭止兀 (x1
, x2
, ...., xn
)
蔡正元 (x1
, x2
, ...., xn
)
石內卜 (x1
, x2
, ...., xn
)
語意向量
● 語意上越相近的詞,在向量空間中的夾角越小。
祭止兀 (x1
, x2
, ...., xn
)
罷免 (x1
, x2
, ...., xn
)
蔡正元 (x1
, x2
, ...., xn
)
自己人 (x1
, x2
, ....
語意向量
● Cosine Similarity
– 向量 A 和 向量 B 的 Cosine Similarity 為:
(A·B) / ( |A| * |B| )
祭止兀 (b1
, b2
, ...., bn
)
蔡正元 (a1
, a2...
類神經網路
● 一種複雜的機器學習模型,其原理是模仿神經元的
構造。
● 神經元可從輸入訊息中做運算組合,輸出結果。
神經元與動作電位
http://humanphisiology.wikispaces
.com/file/view/neuron.png/2164608
14/neuron.png
http://upload.wikimedia.org/wik...
w1
x1
x2
y=w1
*x1
+w2
*x2
+w3
*x3
+b
x3
w2
w3
1
b
z= 1 / ( 1+e-y
)
Sigmoid function
模仿神經元
http://upload.wikimedia.org/wiki...
類神經網路
http://cpmarkchang.logdown.com/posts/277
349-neural-network-backward-propagation
訓練類神經網路
類神經網路
類神經網路
測試資料 輸出值
訓練資料
訓練
輸出值
修正
訓練
完成
訓練前
太陽花
香蕉
訓練中
香蕉
太陽
花
調整參數
訓練後
香蕉
太陽花
word2vec
● 一種神經機率語言模型。
● 用類神經網路訓練,得出每個字詞的語意向量。
內湖 石內卜 祭止兀 罷免 失敗
車輪黨 闌尾 祭止兀 罷免 失敗
內湖
石內卜
失敗
罷免
闌尾
失敗
祭止兀祭止兀
罷免
車輪黨
實作 3 : word2vec
●
先對語料庫進行斷詞:載入繁體字典,並加入自
定詞彙。
● 找出與自定詞彙最相近的詞。
●
任意挑選兩個詞,計算其相似程度。
延伸閱讀
● 類神經網路訓練過程,公式推導:
– http://cpmarkchang.logdown.com/posts/277349-neu
ral-network-backward-propagation
● 神經語言模型:
– http...
講者聯絡方式:
Mark Chang
Github : http://github.com/ckmarkoh
Blog : http://cpmarkchang.logdown.com
email : ckmarkoh at gmail.com
Upcoming SlideShare
Loading in …5
×

Neural Language Model Tutorial

1,566 views

Published on

PyConAPAC 2015 Tutorial - Play Probability Modeling and Text Mining
http://pycontw.kktix.cc/events/play-modeling-mining

Published in: Technology
  • Be the first to comment

Neural Language Model Tutorial

  1. 1. Neural Probabilistic Language Model 神經機率語言模型與word2vec By Mark Chang
  2. 2. 神經機率語言模型與 word2vec ● 語意向量 ● 類神經網路 ● word2vec
  3. 3. n-gram 的缺陷 ● 容易受到維度爆炸的影響。 ● 只能得出表面文字的關聯,無法得出較深層的語意。 ● 事實上,語意可從其附近的字詞來得知。 罷免 蔡正元 失敗 罷免 祭止兀 失敗 蔡正元 是 最佳 助選員 祭止兀 是 最佳 助選員 祭止兀和蔡正元, 語意相近
  4. 4. 語意向量 ● 把字詞對應到一個 n 維度的向量。 祭止兀 (1, 1,..., xn ) 蔡正元 (1, 1,..., xn ) 罷免 蔡正元 失敗 罷免 祭止兀 失敗 蔡正元 是 最佳 助選員 祭止兀 是 最佳 助選員 (x1 = 罷免 , x2 = 助選員 ,..., xn ) 石內卜 (0, 0,..., xn )
  5. 5. 語意向量 祭止兀 (x1 , x2 , ...., xn ) 蔡正元 (x1 , x2 , ...., xn ) 石內卜 (x1 , x2 , ...., xn )
  6. 6. 語意向量 ● 語意上越相近的詞,在向量空間中的夾角越小。 祭止兀 (x1 , x2 , ...., xn ) 罷免 (x1 , x2 , ...., xn ) 蔡正元 (x1 , x2 , ...., xn ) 自己人 (x1 , x2 , ...., xn ) 帥哥 (x1 , x2 , ...., xn ) 石內卜 (x1 , x2 , ...., xn ) 割闌尾 (x1 , x2 , ...., xn )
  7. 7. 語意向量 ● Cosine Similarity – 向量 A 和 向量 B 的 Cosine Similarity 為: (A·B) / ( |A| * |B| ) 祭止兀 (b1 , b2 , ...., bn ) 蔡正元 (a1 , a2 , ...., an ) a1 b1 + a2 b2 +....+ an bn 蔡正元與祭止兀的 Cosine Similarity 為: a1 2 +a2 2 +....+an 2 b1 2 +b2 2 +....+bn 2
  8. 8. 類神經網路 ● 一種複雜的機器學習模型,其原理是模仿神經元的 構造。 ● 神經元可從輸入訊息中做運算組合,輸出結果。
  9. 9. 神經元與動作電位 http://humanphisiology.wikispaces .com/file/view/neuron.png/2164608 14/neuron.png http://upload.wikimedia.org/wikipedia/ commons/thumb/4/4a/Action_potential.sv g/1037px-Action_potential.svg.png
  10. 10. w1 x1 x2 y=w1 *x1 +w2 *x2 +w3 *x3 +b x3 w2 w3 1 b z= 1 / ( 1+e-y ) Sigmoid function 模仿神經元 http://upload.wikimedia.org/wikipedia/comm ons/thumb/8/88/Logistic-curve.svg/1280px-L ogistic-curve.svg.png
  11. 11. 類神經網路 http://cpmarkchang.logdown.com/posts/277 349-neural-network-backward-propagation
  12. 12. 訓練類神經網路 類神經網路 類神經網路 測試資料 輸出值 訓練資料 訓練 輸出值 修正 訓練 完成
  13. 13. 訓練前 太陽花 香蕉
  14. 14. 訓練中 香蕉 太陽 花 調整參數
  15. 15. 訓練後 香蕉 太陽花
  16. 16. word2vec ● 一種神經機率語言模型。 ● 用類神經網路訓練,得出每個字詞的語意向量。
  17. 17. 內湖 石內卜 祭止兀 罷免 失敗 車輪黨 闌尾 祭止兀 罷免 失敗
  18. 18. 內湖 石內卜 失敗 罷免 闌尾 失敗 祭止兀祭止兀 罷免 車輪黨
  19. 19. 實作 3 : word2vec ● 先對語料庫進行斷詞:載入繁體字典,並加入自 定詞彙。 ● 找出與自定詞彙最相近的詞。 ● 任意挑選兩個詞,計算其相似程度。
  20. 20. 延伸閱讀 ● 類神經網路訓練過程,公式推導: – http://cpmarkchang.logdown.com/posts/277349-neu ral-network-backward-propagation ● 神經語言模型: – http://cpmarkchang.logdown.com/posts/255785-neura l-network-neural-probabilistic-language-model – http://cpmarkchang.logdown.com/posts/276263--hier archical-probabilistic-neural-networks-neural-net work-language-model
  21. 21. 講者聯絡方式: Mark Chang Github : http://github.com/ckmarkoh Blog : http://cpmarkchang.logdown.com email : ckmarkoh at gmail.com

×