SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our User Agreement and Privacy Policy.
SlideShare uses cookies to improve functionality and performance, and to provide you with relevant advertising. If you continue browsing the site, you agree to the use of cookies on this website. See our Privacy Policy and User Agreement for details.
Successfully reported this slideshow.
Activate your 14 day free trial to unlock unlimited reading.
23.
サブワードの抽出手法
BPE (Byte Pair Encoding)
• データ圧縮のため提案された手法
• 頻出する文字列を新たな記号(サブワード)とする
手法
• データからサブワードを抽出、分割
• アプリケーションにおいて最適な分割かどうかは
不明
• 分割における曖昧性が存在
23
employer →employ er; em p loyer; e m p l o y e r
42.
マルチモーダルなデータ処理
画像・音声・センサデータなど、多様なデータと
テキストを融合
this is a dark blue bird with
white eyes and a small beak
this bird has wings that are brown
and black and has a white belly 42
65.
学習データがないとき:
目的を置き換えてみる
Doersch, Gupta, and Efros. Unsupervised visual representation learning by context prediction. in Proc. of ICCV 2015.
※図は論文より引用
65
72.
未知語への対処
•単語ベクトルはあるが、モデルの語彙にない
• seq2seqは語彙サイズに制限
• 単語ベクトルの最も近い語に置き換える
(Li et al. 2016)
• サブワードを使う
•単語ベクトルにない
• <unk> タグを学習しておく
• 「適当」に作る
• 文字単位の分散表現から近似する
Li, Zhang, and Zong. Towards zero unknown word in neural machine translation. in Proc. of IJCAI 2016. 72