Submit Search
Upload
OSSかな漢字変換『Egoistic Lily』の紹介&今後の展望
•
2 likes
•
1,721 views
Masahiko Hashimoto
Follow
IM飲み会2019で紹介したスライドです。 KOFのスライドよりやや高度な内容…?
Read less
Read more
Technology
Report
Share
Report
Share
1 of 24
Download now
Download to read offline
Recommended
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
Masahiko Hashimoto
自作かな漢字変換「Genji」をつくったよ
自作かな漢字変換「Genji」をつくったよ
Masahiko Hashimoto
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
Tomoki Koriyama
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
SageMakerを使った異常検知
SageMakerを使った異常検知
Ryohei Yamaguchi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
「日本語LaTeX」が多すぎる件について
「日本語LaTeX」が多すぎる件について
Takayuki Yato
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
Masahiko Hashimoto
Recommended
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
DNNを使用した新しいかな漢字変換『EgoisticLily』 その仕組みとは?
Masahiko Hashimoto
自作かな漢字変換「Genji」をつくったよ
自作かな漢字変換「Genji」をつくったよ
Masahiko Hashimoto
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
深層ガウス過程とアクセントの潜在変数表現に基づく音声合成の検討
Tomoki Koriyama
研究室における研究・実装ノウハウの共有
研究室における研究・実装ノウハウの共有
Naoaki Okazaki
SageMakerを使った異常検知
SageMakerを使った異常検知
Ryohei Yamaguchi
生成モデルの Deep Learning
生成モデルの Deep Learning
Seiya Tokui
「日本語LaTeX」が多すぎる件について
「日本語LaTeX」が多すぎる件について
Takayuki Yato
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
ホットな日本語入力技術のお勉強。〜 OSC 2016 Hamanako 編 〜
Masahiko Hashimoto
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
Hideo Terada
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
言語資源と付き合う
言語資源と付き合う
Yuya Unno
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
ychtanaka
最適輸送入門
最適輸送入門
joisino
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
Shunichi Sekiguchi
強化学習における好奇心
強化学習における好奇心
Shota Imai
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
Okamoto Laboratory, The University of Electro-Communications
Marp Tutorial
Marp Tutorial
Rui Watanabe
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
Dockerいろいろ使って思うこと
Dockerいろいろ使って思うこと
Masahiko Hashimoto
BrowserMob-Proxyのお話
BrowserMob-Proxyのお話
Masahiko Hashimoto
More Related Content
What's hot
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
Hideo Terada
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
Deep Learning JP
言語資源と付き合う
言語資源と付き合う
Yuya Unno
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
Yosuke Shinya
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
Deep Learning JP
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
Naoya Chiba
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
SSII
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
ychtanaka
最適輸送入門
最適輸送入門
joisino
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
Shunichi Sekiguchi
強化学習における好奇心
強化学習における好奇心
Shota Imai
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
hoxo_m
点群深層学習 Meta-study
点群深層学習 Meta-study
Naoya Chiba
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
tmtm otm
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
cyberagent
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
Okamoto Laboratory, The University of Electro-Communications
Marp Tutorial
Marp Tutorial
Rui Watanabe
深層生成モデルと世界モデル
深層生成モデルと世界モデル
Masahiro Suzuki
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
Deep Learning JP
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
Deep Learning JP
What's hot
(20)
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
データ中心の時代を生き抜くエンジニアに知ってほしい10?のこと
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
[DL輪読会]GLIDE: Guided Language to Image Diffusion for Generation and Editing
言語資源と付き合う
言語資源と付き合う
ディープラーニングのフレームワークと特許戦争
ディープラーニングのフレームワークと特許戦争
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
【DL輪読会】SimCSE: Simple Contrastive Learning of Sentence Embeddings (EMNLP 2021)
三次元点群を取り扱うニューラルネットワークのサーベイ
三次元点群を取り扱うニューラルネットワークのサーベイ
SSII2018TS: 大規模深層学習
SSII2018TS: 大規模深層学習
工学系大学4年生のための論文の読み方
工学系大学4年生のための論文の読み方
最適輸送入門
最適輸送入門
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
PILCO - 第一回高橋研究室モデルベース強化学習勉強会
強化学習における好奇心
強化学習における好奇心
トピックモデルの評価指標 Perplexity とは何なのか?
トピックモデルの評価指標 Perplexity とは何なのか?
点群深層学習 Meta-study
点群深層学習 Meta-study
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
深層学習の不確実性 - Uncertainty in Deep Neural Networks -
推薦アルゴリズムの今までとこれから
推薦アルゴリズムの今までとこれから
リンク予測に基づく共同研究者推薦システムの試作
リンク予測に基づく共同研究者推薦システムの試作
Marp Tutorial
Marp Tutorial
深層生成モデルと世界モデル
深層生成モデルと世界モデル
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]ドメイン転移と不変表現に関するサーベイ
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
[DL輪読会]Glow: Generative Flow with Invertible 1×1 Convolutions
More from Masahiko Hashimoto
Dockerいろいろ使って思うこと
Dockerいろいろ使って思うこと
Masahiko Hashimoto
BrowserMob-Proxyのお話
BrowserMob-Proxyのお話
Masahiko Hashimoto
DeepLearning入門以前
DeepLearning入門以前
Masahiko Hashimoto
かな漢字変換ソフト「Genji」をつくってみた
かな漢字変換ソフト「Genji」をつくってみた
Masahiko Hashimoto
あひるに焼かれた話と今後のおーぷん万葉について
あひるに焼かれた話と今後のおーぷん万葉について
Masahiko Hashimoto
おーぷん万葉プロジェクトとは
おーぷん万葉プロジェクトとは
Masahiko Hashimoto
C++アプリをCmakeとEclipseで開発するお話
C++アプリをCmakeとEclipseで開発するお話
Masahiko Hashimoto
おーぷん万葉プロジェクトの進捗とIzumoのその後
おーぷん万葉プロジェクトの進捗とIzumoのその後
Masahiko Hashimoto
ホットな日本語技術の(ちょっとした)お勉強。
ホットな日本語技術の(ちょっとした)お勉強。
Masahiko Hashimoto
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
Masahiko Hashimoto
TrieとLOUDS??
TrieとLOUDS??
Masahiko Hashimoto
C言語なWebSocketの遊び方。
C言語なWebSocketの遊び方。
Masahiko Hashimoto
アヒルヤキを変換してみよう
アヒルヤキを変換してみよう
Masahiko Hashimoto
Nginxで日本語入力を遊んでみよう!
Nginxで日本語入力を遊んでみよう!
Masahiko Hashimoto
続・Cannaをフォークしてみた
続・Cannaをフォークしてみた
Masahiko Hashimoto
Cannaをフォークしてみた
Cannaをフォークしてみた
Masahiko Hashimoto
秘伝:クラウドに開発環境をえいっ!と構築する方法
秘伝:クラウドに開発環境をえいっ!と構築する方法
Masahiko Hashimoto
AzureとSUSE Studioのあつ~い関係
AzureとSUSE Studioのあつ~い関係
Masahiko Hashimoto
X window managerで遊んでみた
X window managerで遊んでみた
Masahiko Hashimoto
オープンソースで始める「超」VPN 構築術
オープンソースで始める「超」VPN 構築術
Masahiko Hashimoto
More from Masahiko Hashimoto
(20)
Dockerいろいろ使って思うこと
Dockerいろいろ使って思うこと
BrowserMob-Proxyのお話
BrowserMob-Proxyのお話
DeepLearning入門以前
DeepLearning入門以前
かな漢字変換ソフト「Genji」をつくってみた
かな漢字変換ソフト「Genji」をつくってみた
あひるに焼かれた話と今後のおーぷん万葉について
あひるに焼かれた話と今後のおーぷん万葉について
おーぷん万葉プロジェクトとは
おーぷん万葉プロジェクトとは
C++アプリをCmakeとEclipseで開発するお話
C++アプリをCmakeとEclipseで開発するお話
おーぷん万葉プロジェクトの進捗とIzumoのその後
おーぷん万葉プロジェクトの進捗とIzumoのその後
ホットな日本語技術の(ちょっとした)お勉強。
ホットな日本語技術の(ちょっとした)お勉強。
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
京都発祥日本語入力「FreeWnn」は(今度こそ)どこまで賢くなれるか?
TrieとLOUDS??
TrieとLOUDS??
C言語なWebSocketの遊び方。
C言語なWebSocketの遊び方。
アヒルヤキを変換してみよう
アヒルヤキを変換してみよう
Nginxで日本語入力を遊んでみよう!
Nginxで日本語入力を遊んでみよう!
続・Cannaをフォークしてみた
続・Cannaをフォークしてみた
Cannaをフォークしてみた
Cannaをフォークしてみた
秘伝:クラウドに開発環境をえいっ!と構築する方法
秘伝:クラウドに開発環境をえいっ!と構築する方法
AzureとSUSE Studioのあつ~い関係
AzureとSUSE Studioのあつ~い関係
X window managerで遊んでみた
X window managerで遊んでみた
オープンソースで始める「超」VPN 構築術
オープンソースで始める「超」VPN 構築術
Recently uploaded
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
Recently uploaded
(14)
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
OSSかな漢字変換『Egoistic Lily』の紹介&今後の展望
1.
OSSかな漢字変換 『Egoistic Lily』 の紹介 &
今後の展望 はしもとまさひこ@おーぷん万葉 feat.XDDC IM飲み会 2019 2019/12/28
2.
2019/12/28OSSかな漢字変換『Egoistic Lily』 2/24 自己紹介 Name: はしもとまさ(または鹿) Twitter: @shikanotsukimi ● 東海道らぐ
(Tokaido Liuxn Uesr Gruop) ● おーぷん万葉プロジェクト オープンデータを使用したかな漢字変換の自作など ● ちびぎーこ保護者会(別名:日本openSUSEユーザ会) ● 仕事は自然言語処理界隈では(たぶん)ない人
3.
2019/12/28OSSかな漢字変換『Egoistic Lily』 3/24 『XDDC』とは 正式名称: 『Cross
Distribution Developers Camp』 Linuxディストリビューションの枠を超えて 各個撃破…じゃなかった、課題解決しよう!という集まり 参加Linuxディストリビューション – Debian – openSUSE – Ubuntu
4.
2019/12/28OSSかな漢字変換『Egoistic Lily』 4/24 今日のお話 DNNを使用したOSS新かな漢字変換 『Egoistic
Lily』のお話です ※XDDCの課題のひとつ = かな漢字変換
5.
2019/12/28OSSかな漢字変換『Egoistic Lily』 5/24 ※おさらい
Mozc 〜 Since 2010 〜 Google日本語入力のオープンソース版 現在のLinuxデフォルトといえばほぼこれ! – Ubuntu、Debian、openSUSE… – 例外: RedHat系(Fedora、CentOS) Mecab と似たアルゴリズム…?
6.
2019/12/28OSSかな漢字変換『Egoistic Lily』 6/24 Mozcの問題点 ● 現在開発が停止してしまっている… –
例えば『令和』 この単語を追加するのに 各ディストリビューション毎に対応する必要が 発生してしまっている状況 (Debian, Ubuntu, openSUSE...) – 連接コストについては『平成』からの丸パクリ対応 – 但し、単語生起コストについては適当な値を入れるしかない ※コーパスを使用しているわけではない
7.
2019/12/28OSSかな漢字変換『Egoistic Lily』 7/24 そしたらよく言われるの…… AIでなんとか ごにょごにょすればいいじゃん!! これ仕事してるとよく言われるやつ…
8.
2019/12/28OSSかな漢字変換『Egoistic Lily』 8/24 が。 『Egoistic
Lily』は 本当にDNNでどうにかしてしまいました 注:RNNではありません
9.
2019/12/28OSSかな漢字変換『Egoistic Lily』 9/24 使用しているモデル
= AutoEncoder 入力をエンコードして、特徴抽出した後 デコードしてデータを復元し、入力値と比較する ⇛きちんと復元できればそれって異常なし! 異常検知などでわりとどこでも使われてる一般的なモデルですね 入力 出力 特徴抽出 二乗誤差を算出して 誤差が大きい 異常度が高い⇛
10.
2019/12/28OSSかな漢字変換『Egoistic Lily』 10/24 異常度が高い日本語って? 「私の名前は中野です」=正常 「私が名前は中野です」=異常 何故これが異常と言えるのか?
11.
2019/12/28OSSかな漢字変換『Egoistic Lily』 11/24 係り受けの関係に着目 ● 「私
/ の / 名前」 ⇛「私」が「名前」に係っている 「私」と「名前」という単語を「の」が結んでいる ● 「私 / が / 名前」 ⇛「私」が「名前」に係っていない 上記の3単語は関連性がない つまり、3単語をペアにして、正常か否かを学習させてみる
12.
2019/12/28OSSかな漢字変換『Egoistic Lily』 12/24 とりあえずの実装(1) 1.係り受けで紐づく3単語をセットにして抽出 ⇛それぞれの単語に16bitの乱数を設定 ⇛16列のベクトル(0
or 1)に変換して 3単語 × 16bit = 48列をひとつの学習データとする 1 0 0 1 …… 1 0 1 1 1 …… 0 1 1 1 0 …… 0 私 の 名前 合計48bitの 0 or 1 をAutoEncoderの入力へ 単語ごとに テキトーな乱数を 16bit化
13.
2019/12/28OSSかな漢字変換『Egoistic Lily』 13/24 とりあえずの実装(2)←あくまでとりあえずなので!! 2.AutoEncoderで学習させて出力として出てきたベクトルを 次回学習時の入力として使用する ※平均をとり、平均以上の値を
“1”、そうでなければ “0” として 再度16bitの値へ変換する(ひとまずこれで!!) 入力 出力 48bitの 0 or 1 の行列 48個の float型 の配列 Auto Encoder 配列の平均を取り 0 or 1 の行列へ 変換 再び入力へ
14.
2019/12/28OSSかな漢字変換『Egoistic Lily』 14/24 とりあえずの実装(3)
※補足編 実際はこれを一つの正常データとして学習してます 01…000…010…0 1 0 0 1 …… 1 0010000 係り受け解析から得た 単語ベクトル 単語の品詞情報 ※one-hot 名前のの私 直前の単語係り元文節 の付属部 係り元文節 の自立部 これを正常データとして学習 ⇛学習&変換に使用します Mozcでいうところの連接コストをDNNで求めるイメージ ⇛最終的にはコスト最小法で変換を行います
15.
2019/12/28OSSかな漢字変換『Egoistic Lily』 15/24 とりあえずの実装(4)
※補足編 実際の変換の肝となる部分 01…000…010…0 1 0 0 1 …… 1 0010000 係り受け解析から得た 単語ベクトル 単語の品詞情報 ※one-hot 名前のの私 直前の単語係り元文節 の付属部 係り元文節 の自立部 この部分だけを見れば 従来の単語N-gramの変換をDNNで求めてるとも 言えますね
16.
2019/12/28OSSかな漢字変換『Egoistic Lily』 16/24 『Egoistic
Lily』…その実態は? Mozcのコスト最小法 + 単語bi-gramによるかな漢字変換 をAutoEncoderを用いて実装した形
17.
2019/12/28OSSかな漢字変換『Egoistic Lily』 17/24 その特徴は? ● RNNよりは学習速度が速い……と思う ● 新単語は品詞情報さえあればそこそこ変換可能 ● 現状、単語生起コストというものが存在しない –
『大阪』と『大坂』の区別不可! ● 事前アノテーションがめっちゃしんどい!! – 現在はKNPを使用(←係り受けを行っているため)
18.
2019/12/28OSSかな漢字変換『Egoistic Lily』 18/24 ところで…… ここにいる皆さんならツッコミたいところが 少なからずあったはず!! その中で一番ツッコみたい箇所といえば?
19.
2019/12/28OSSかな漢字変換『Egoistic Lily』 19/24 きっとココだ!!! 1.係り受けで紐づく3単語をセットにして抽出 ⇛それぞれの単語に16bitの乱数を設定 ⇛16列のベクトル(0
or 1)に変換して 3単語 × 16bit = 48列をひとつの学習データとする 1 0 0 1 …… 1 0 1 1 1 …… 0 1 1 1 0 …… 0 私 の 名前 合計48bitの 0 or 1 をAutoEncoderの入力へ きっとココ!
20.
2019/12/28OSSかな漢字変換『Egoistic Lily』 20/24 ここってそれこそ純粋に… それこそ Word2Vec
とか BERT とかを 使えばいいんじゃないの!?
21.
2019/12/28OSSかな漢字変換『Egoistic Lily』 21/24 悩ましいところ… そのモデル、OSSとして配布しやすい形か? ※主にファイルサイズ的に 正直AutoEncoder程度ならまぁ〜……
22.
2019/12/28OSSかな漢字変換『Egoistic Lily』 22/24 ただし、、、 試してみる価値はありそうなので やってみよう! とは思います。(来年)
23.
2019/12/28OSSかな漢字変換『Egoistic Lily』 23/24 今後のToDo ● TensorFlowからPyTorchへ移植 –
TensorFlow2.0になってから pipのバージョンを上げる必要があるため 『u』で始まるディストリビューション関係者からクレームがw ● 辞書にNEologdを使用したい!! – ただし、現在使用しているのはKNP……orz ● 単語生起コストも実装しないと – FineTuningでなんとかなる……かな? – 『自分でコーパスからモデルを作りたい』という人も…本当にいる? ● 深層学習っぽいことをしたい!←ぉ
24.
2019/12/28OSSかな漢字変換『Egoistic Lily』 24/24 ご清聴、ありがとうございましたm(_
_)m
Download now