SlideShare a Scribd company logo
音声認識における言語モデル
2016/12/02@pfxセミナー
PFNアルバイト瀬戸山幸大郎
瀬戸山 幸大郎@KotaroSetoyama
■ Retriva/PFNアルバイト
音声認識/Chainer,CuPy開発
■ 卒業論文
音声合成
2
自己紹介
本日の内容
■ 音声認識システムの音響モデルの簡単な概要
■ 音声認識システムで言語モデルをどう使うか
・N-gramLMとRNNLM,それぞれをどう組み込むか
・組み込む上で高速化,精度向上の工夫
3
音声認識とは
4
NEC 音声認識の仕組みhttp://jpn.nec.com/vsol/overview.html
音声認識とは
5
音声認識とは
6
音声認識とは
7
音響モデル
■ GMM + HMM, DNN + HMM, RNN + CTC ...
■ HMMやCTCの役割は時間方向の継続長の処理
8
GMM...Gaussian Mixture Model HMM...Hidden Markov Model
DNN... Deep Neural Network CTC...Connectionist Temporal Classification
p p r e f f e r r r d
preferred
音響モデル
9
■ 音響モデルでは音声特徴ベクトルと音素(トライフォン)を対応させる
例) 文単位:あらゆる現実をねじねじする 無限個
単語単位:あらゆる 現実 を ・・・ 数万個
音素単位:a r a y u r u ・・・ 数十個
この各トライフォンの音素がそれぞれ異なる特徴ベクトルに対応している
(トライフォン _-a+r a-r+a r-a+y a-y+u y-u+r ・・・)
音響モデルをどう表現するか?
10
→ FST(finite state transducer) / WFST(weighted FST)
HMMの場合
・各音素(トライフォン)に対し
て右のようなHMMを用意する
・継続長の処理は自己ループに
よって確率的に処理できる
a - a + r
徳田恵一. "隠れマルコフモデルによる音声認識と音声合成." 情報処理 45.10 (2004): 1005-1011.
11
このHMMをWFSTで表現する
徳田恵一. "隠れマルコフモデルによる音声認識と音声合成." 情報処理 45.10 (2004): 1005-1011.
2016/05/12の西鳥羽さんの全体セミナー http://www.slideshare.net/JiroNishitoba/wfst-61929888
12
WFSTとは
13
14
15言語モデルをWFSTで表現すれば音響モデルのWFSTと合成できる
音響モデルをどう表現するか?
16
■ HMMもCTCもFST/WFSTを用いて表現出来る
■ 言語モデルもWFSTで表すことができれば1つの巨大なWFSTを構築できる(サー
チグラフ)
■ サーチグラフを探索することで確率を計算し、確率最大のものを出力
この処理をデコードと呼び,デコードを行うプログラムをデコーダという
音声認識システムの実装で面倒なのはデコーダの部分
音響モデルをどう表現するか?
17
言語モデルはWFSTで表せられるのか?
■ HMMもCTCもFST/WFSTを用いて表現出来る
■ 言語モデルもWFSTで表すことができれば1つの巨大なWFSTを構築できる(サー
チグラフ)
■ サーチグラフを探索することで確率を計算し、確率最大のものを出力
この処理をデコードと呼び,デコードを行うプログラムをデコーダという
音声認識システムの実装で面倒なのはデコーダの部分
言語モデルとは
■ある言葉の次は、この言葉が続きやすいという情報を保持
・N-gram言語モデル
・Recurrent Neural Network言語モデル(今日のメイン)
18
N-gram言語モデル
19
トライグラム
■ ある単語の出現確率は過去のN-1単語に依存すると仮定
■ Nは3〜5が多い
■ コーパス中に現れない単語の確率が0になるのを防ぐ、スムージングなどの工
夫が必要
■ WFSTで表すことができる
WFST of N-gram言語モデル
20
N-1個の単語の組を1つの状態(state)とする
■ 単語数が増えると言語モデルの状態数も増えるので状態数を減らす工夫をする
■ 音響モデルは音素単位,言語モデルは単語単位だったので,単語と音素の対応
表(単語辞書)もWFSTで表す
■ 音響モデル,言語モデル,単語辞書をWFSTで表し,合成演算を行い,単語列
と重みを出力するWFSTを構築
音響モデル + N-gram言語モデル
WFST
音響モデル
言語モデル
単語候補A
+
確率
詳細は西鳥羽さんの資料参照 http://www.slideshare.net/JiroNishitoba/wfst-61929888
RNNLM
■ 2010年にTomas Mikolovによって提案された言語モデル
■ N-gram言語モデルよりも広いコンテキスト情報を保持できる
■ 最新の音声認識システムでは使われることが多い
22
RNNLM
23
ソフトマックスで確率化
1-of-K
過去の履歴を保持
RNNLM
24
ソフトマックスで確率化
1-of-K
過去の履歴を保持
音響モデルと組み合わせられるのか?
RNNLMの問題点
■ 計算コストが大きい
特に出力層のソフトマックスのコストが大きい(後述)
■ サーチグラフが巨大になる
N-gramLMではN-1個の単語の組が1つのstateであった
→ Nが無限(RNNLM)の時はstate数は無限?
■ 単語の扱い方がN-gramLMと異なる
RNNLMは単語をベクトル(連続空間)で扱っている
25
RNNLMをFirst-passで使用するのは容易ではない
RNNLMをFirst-passで利用する例1
Conversion of recurrent neural network language models to weighted finite state transducers for automatic
speech[Lecorvé+ 12]
26
■ 連続空間で表されている単語をstateに変換するために無理やり量子化を行う
■ k-meansで似ている単語ベクトルを1つにまとめる
量子化
状態の枝刈り
RNNLMをFirst-passで利用する例1
27
後述するリスコアリング(N-gram+RNNLM)の方がWERは低い
Variational approximation of long-span language models for LVCSR [Deoras+ 11]
Approximate inference: A sampling based modeling technique to capture complex dependencies in a
language model [Deoras+ 13]
28
RNNLMをFirst-passで利用する例2
■ First-passで使用できる計算コストの低い確率分布QとRNNLMのようなLong-
spanLMの確率分布を変分近似する
■ KL距離最小化
29
RNNLMをFirst-passで利用する例2
WERはほとんど変わらない
Cache based recurrent neural network language model inference for first pass speech recognition[Huang+ 14]
30
RNNLMをFirst-passで利用する例3
■ 同じ計算を行っている箇所に注目して,計算結果をキャッシュとして蓄えてお
くことでRNNLMを呼ぶ回数を最小限にとどめている
N-gramLMと同程度の速度を保ったままN-gramLMよりも良い精度を出している
■ First-passでRNNLMを利用しようとした例はいくつかあるが,成功例は少ない
■ 主流はN-gramLM + RNNLMのリスコアリング
31
リスコアリング
■ First-passで出力したN-bestをSecond-passでリスコアリングする
■ First-passで出力したN個の候補をN-bestという
32
リスコアリング
Empirical Evaluation and Combination of Advanced Language Modeling Techniques. [Mikolov+ 11]
■ リスコアリングは以下のように各言語モデルの線形和をとる
■ 重みはヒューリスティックに決める
■ Mikolovの論文ではN-gramLMでN-bestを出力し,RNNLMでリスコアリングし
たものが最も精度が良い
例) N-gramLMでN-best出力 → 1-of-K表現 → RNNLMに入力
→ RNNLMのスコアが出る → N-gramLMのスコアと線形和をとる 33
リスコアリングRNNLMの問題点
■ 精度がN-gramLMに依存する
N-bestの中からしか最適解を選べない
■ 依然,計算コストは大きい
・特に出力層のソフトマックスによる正規化が学習と評価の双方でコストが大きい
(これ自体はよく知られた課題)
・単語数の増加に従ってコストも増加する
34
Noise Contrastive Estimation for Speech Recognition
Recurrent neural network language model training with noise contrastive estimation for speech
recognition [Chen+ 15]
35
損失関数
正規化項が過去の単語に依存
Noise Contrastive Estimation for Speech Recognition
36
データが以下のような混合分布(NCEで近似するRNNLMの分布+ノイズの分
布)から生成されると仮定する
なんやかんや
Noise Contrastive Estimation for Speech Recognition
37
正規化項が過去の単語に依存しない定数
Noise Contrastive Estimation for Speech Recognition
38
Cross-Entropy(通常のソフトマックス)と同等のWERを保ちながら,
train,evalの双方で大幅な高速化を実現
RNNLMの学習データは20M word Fisher data
Noise Contrastive Estimation for Speech Recognition
39
単語数が増加しても速度は不変
■ リスコアリングRNNLMの精度/速度を上げる研究は他にも多くある
CUED-RNNLM Toolkit
■ 先ほど紹介したRNNLM training with NCEの著者Xie Chenが公開している
RNNLMを記述できるツールキット
■ RNNLMのツールはいくつかあるが,音声認識で使用するのに最も適してそう
■ 手軽にリスコアリングを行える
■ Kaldiと組み合わせられる
40
http://mi.eng.cam.ac.uk/projects/cued-rnnlm/
まとめ
■ RNNLMの音声認識システムへの組み込み方は様々
■ N-gramLMで出力したN-bestをリスコアリングするのが主流
■ リスコアリングの速度を上げる研究はNCE含め多く提案されている
41

More Related Content

What's hot

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
Arithmer Inc.
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
Deep Learning JP
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
京都大学大学院情報学研究科数理工学専攻
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
Kenji Urai
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
Tomoki Hayashi
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
Tsubasa Hirakawa
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
Eiji Uchibe
 
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
Deep Learning JP
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
Atsushi_Ando
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
AGIRobots
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
NU_I_TODALAB
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類Shintaro Fukushima
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
narumikanno0918
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
Deep Learning JP
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Yusuke Nakata
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門Yuya Unno
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
Tatsuya Yokota
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
Shinnosuke Takamichi
 

What's hot (20)

全力解説!Transformer
全力解説!Transformer全力解説!Transformer
全力解説!Transformer
 
[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models[DL輪読会]Flow-based Deep Generative Models
[DL輪読会]Flow-based Deep Generative Models
 
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
リプシッツ連続性に基づく勾配法・ニュートン型手法の計算量解析
 
LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要LSTM (Long short-term memory) 概要
LSTM (Long short-term memory) 概要
 
Visualizing Data Using t-SNE
Visualizing Data Using t-SNEVisualizing Data Using t-SNE
Visualizing Data Using t-SNE
 
海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習海鳥の経路予測のための逆強化学習
海鳥の経路予測のための逆強化学習
 
強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習強化学習と逆強化学習を組み合わせた模倣学習
強化学習と逆強化学習を組み合わせた模倣学習
 
[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning[DL輪読会]Inverse Constrained Reinforcement Learning
[DL輪読会]Inverse Constrained Reinforcement Learning
 
音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み音声感情認識の分野動向と実用化に向けたNTTの取り組み
音声感情認識の分野動向と実用化に向けたNTTの取り組み
 
Attentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門までAttentionの基礎からTransformerの入門まで
Attentionの基礎からTransformerの入門まで
 
音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識音素事後確率を利用した表現学習に基づく発話感情認識
音素事後確率を利用した表現学習に基づく発話感情認識
 
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
SSII2021 [OS2-01] 転移学習の基礎:異なるタスクの知識を利用するための機械学習の方法
 
不均衡データのクラス分類
不均衡データのクラス分類不均衡データのクラス分類
不均衡データのクラス分類
 
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
スパースモデリング、スパースコーディングとその数理(第11回WBA若手の会)
 
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings  (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
 
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
[DL輪読会]Temporal DifferenceVariationalAuto-Encoder
 
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
Generative Adversarial Imitation Learningの紹介(RLアーキテクチャ勉強会)
 
統計的係り受け解析入門
統計的係り受け解析入門統計的係り受け解析入門
統計的係り受け解析入門
 
2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)2014 3 13(テンソル分解の基礎)
2014 3 13(テンソル分解の基礎)
 
統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展統計的音声合成変換と近年の発展
統計的音声合成変換と近年の発展
 

Similar to 音声認識における言語モデル

seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
Natsumi KOBAYASHI
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
貴史 益子
 
音声ポストプロダクションの機械化
音声ポストプロダクションの機械化音声ポストプロダクションの機械化
音声ポストプロダクションの機械化
Naoya_Sato
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
Tomoki Hayashi
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
Ryohei Suzuki
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
Yuki Saito
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
Akinori Ito
 
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
kthrlab
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
Junya Saito
 

Similar to 音声認識における言語モデル (9)

seminar-paper_karaoke.pptx
seminar-paper_karaoke.pptxseminar-paper_karaoke.pptx
seminar-paper_karaoke.pptx
 
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)ICASSP2019音声&音響論文読み会 論文紹介(認識系)
ICASSP2019音声&音響論文読み会 論文紹介(認識系)
 
音声ポストプロダクションの機械化
音声ポストプロダクションの機械化音声ポストプロダクションの機械化
音声ポストプロダクションの機械化
 
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
イベント区間検出統合型 BLSTM-HMMハイブリッドモデルによる 多重音響イベント検出
 
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時埋め込みによる編集支援AnnoTone: 高周波音の映像収録時埋め込みによる編集支援
AnnoTone: 高周波音の映像収録時 埋め込みによる編集支援
 
Interspeech2022 参加報告
Interspeech2022 参加報告Interspeech2022 参加報告
Interspeech2022 参加報告
 
高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―高効率音声符号化―MP3詳解―
高効率音声符号化―MP3詳解―
 
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
バルセロナ在外研究報告「統計モデルによるメロディのモデル化とその自動作曲・自動編曲への応用」
 
Acoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief NetworksAcoustic Modeling using Deep Belief Networks
Acoustic Modeling using Deep Belief Networks
 

音声認識における言語モデル

Editor's Notes

  1. ワールドトリガーは先週から休載になりました
  2. 言語モデルの論文を見てると、機械翻訳や音声認識に応用可能と書いてある。本当?
  3. Xは音響特徴ベクトル Wは出力される単語
  4. ベイズの定理
  5. 単純にDNNやRNNで1入力1出力のモデルを構築するだけではダメ 今回の音響モデルの説明ではHMMを用いる
  6. 後述するが言語モデルは単語単位で考える 音素単位にすることで有限個の候補で扱える
  7. 確率を計算するための工夫がある(ビタビ) 学習はEM
  8. HMM音響モデルをWFSTに変換
  9. N-gramLMはNNLMを含む
  10. Chainerのexampleにも実装がある
  11. Word2Vecなど
  12. 変分近似の説明省略
  13. 説明不足
  14. Mikolovの論文ではN-gramLMとRNNLM以外にも多くのLMと比較実験を行っている
  15. データ1つに対してノイズk個をサンプリング 1 + kのデータを用いて過去の単語に関係なく、今の単語におけるソフトマックスを近似する?