Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.
なんちゃって文豪が詠む
万葉和歌
なんちゃって文豪
白川、入江、瀧井(発表順)
発表内容
1. 講義の復習をやりました。
2. 文章生成へのとりくみ。
3. 文章生成を試みました。
4. 生成する文書(万葉和歌)をお見せします。
5. 感想
1. 講義の復習をやりました。
実際にやった復習
・初級編とAutoencoderの復習
・CNNとRNNの復習
これらの復習の終わりに文章の生成というものがありました。
復習の集大成として何か文章を生成しようということになりました。
2. 文章生成へのとりくみ
習った文章生成は、漢字があると厳しい。
⇒
ひらがなばかりものが良い。
⇒
百人一首はどうか?
⇒
百人一首ではサンプルが少ない。
固定長の文の生成なら全結合でできてしまうので、RNNを使うなら不定長が良いとアド
バ...
2. 文章生成へのとりくみ
万葉集ではどうか?
→
ネットで調べてみると…
[歌番号]01/0001
「こもよ みこもち ふくしもよ みぶくしもち このをかに なつますこ いへきかな のらさね そらみつ やまとのくにはおしなべて われこそをれ ...
2. 文章生成へのとりくみ
・ひらがなの素材!
・いろんな長さのうたがあって不定長!!
・たくさんサンプルがある!!!
∴
万葉集をサンプルにしよう!
3. 文章生成を試みました
万葉集の和歌のサンプルと分類
● 57577
○ 『むつきたち はるのきたらば かくしこそ うめををきつつ たのしきをへめ』
○ 『あらたしき としのはじめの はつはるの けふふるゆきの いやしけよごと』
● 575...
3. 文章生成を試みました
万葉集の和歌の特徴
● 大半は57577の形式(パターン)で詠まれている
○ 字余り、字足らずも多い
● 577577や、もっと長い和歌もある
○ 最大で1035文字の和歌もあった
 ⇒学習用データ
● 仮名、575...
3. 文章生成を試みました
57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点)
● 区切り文字を入れることでパターンを学習できるか?
● 全結合Autoencoderは学習できそう
○ 先頭40文字分の学習データを試すと読...
3. 文章生成を試みました
全結合のAutoencoderで学習した結果
3. 文章生成を試みました
全結合のAutoencoderで学習した結果(偶数行目が生成結果、太字が正答 )
3. 文章生成を試みました
57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点)
● 全結合Autoencoderでは37文字までの和歌しか生成できない
⇒RNNを使いたい
● RNNの場合、学習対象のループの回数を長くすれ...
3. 文章生成を試みました
インデックスつきデータ インデックスなしデータ
3. 文章生成を試みました モデル及び学習条件は下記の
通りです。
<固定>
 モデル:LSTM
 中間層の次元:100
 OneHot:有
 Dropout:P=0.5
 学習データ件数:5万件
 検証データ件数:1万件
 Max Epoch...
3. 文章生成を試みました
モデル①
Input:Size=5
OneHot:Shape=89
インデックス:無
 
3. 文章生成を試みました
モデル①
学習時間:20分程
 
3. 文章生成を試みました
モデル①
 
3. 文章生成を試みました
モデル④
Input:Size=5
OneHot1:Shape=89
OneHot2:Shape=40
※MinimumScalar
インデックス:有
 
3. 文章生成を試みました
モデル④
学習時間:27分程
 
3. 文章生成を試みました
モデル④
 
4. 生成する文書(万葉和歌)をお見せします。
松

島

や

秋

の

宇

良

野

狩

り
の
浦

の

宮

も
見

え

つ

つ

も

浅

か

り

ま

し

も

5. 感想
・PythonやTensorFlowを使ってドヤらなくても機械学習ができるところが良いと思いまし
た。一方で、詳細なことができる余地があるのも良いと思いました。ただ、今回の勉強会
では深い所までやれきれず、更に復習が必要と感じました...
ご清聴ありがとうございました
3. 文章生成を試みました
全結合のAutoencoderで学習した結果
※偶数行目(背景色あり)が生成結果、正答を太字
Upcoming SlideShare
Loading in …5
×

of

2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 1 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 2 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 3 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 4 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 5 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 6 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 7 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 8 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 9 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 10 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 11 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 12 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 13 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 14 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 15 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 16 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 17 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 18 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 19 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 20 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 21 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 22 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 23 2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪 Slide 24
Upcoming SlideShare
What to Upload to SlideShare
Next
Download to read offline and view in fullscreen.

0 Likes

Share

Download to read offline

2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪

Download to read offline

<<AITC AI勉強会>>
チーム名:なんちゃって文豪
概要:講義内容を応用した予測モデルを作成

Related Books

Free with a 30 day trial from Scribd

See all

Related Audiobooks

Free with a 30 day trial from Scribd

See all
  • Be the first to like this

2020年1月25日 AITC AT勉強会 成果発表会(3) なんちゃって文豪

  1. 1. なんちゃって文豪が詠む 万葉和歌 なんちゃって文豪 白川、入江、瀧井(発表順)
  2. 2. 発表内容 1. 講義の復習をやりました。 2. 文章生成へのとりくみ。 3. 文章生成を試みました。 4. 生成する文書(万葉和歌)をお見せします。 5. 感想
  3. 3. 1. 講義の復習をやりました。 実際にやった復習 ・初級編とAutoencoderの復習 ・CNNとRNNの復習 これらの復習の終わりに文章の生成というものがありました。 復習の集大成として何か文章を生成しようということになりました。
  4. 4. 2. 文章生成へのとりくみ 習った文章生成は、漢字があると厳しい。 ⇒ ひらがなばかりものが良い。 ⇒ 百人一首はどうか? ⇒ 百人一首ではサンプルが少ない。 固定長の文の生成なら全結合でできてしまうので、RNNを使うなら不定長が良いとアド バイスをいただいたこともあります。
  5. 5. 2. 文章生成へのとりくみ 万葉集ではどうか? → ネットで調べてみると… [歌番号]01/0001 「こもよ みこもち ふくしもよ みぶくしもち このをかに なつますこ いへきかな のらさね そらみつ やまとのくにはおしなべて われこそをれ しき なべて われこそませ われこそば のらめ いへをもなをも」 [歌番号]01/0003 「やすみしし わがおほきみのあしたには とりなでたまひゆふへには いよりたたしし みとらしの あづさのゆみのなかはずの おとすなり あさ がりに いまたたすらしゆふがりに いまたたすらしみとらしの あづさのゆみのなかはずの おとすなり」 [歌番号]01/0004 「たまきはる うちのおほのにうまなめて あさふますらむそのくさふかの」
  6. 6. 2. 文章生成へのとりくみ ・ひらがなの素材! ・いろんな長さのうたがあって不定長!! ・たくさんサンプルがある!!! ∴ 万葉集をサンプルにしよう!
  7. 7. 3. 文章生成を試みました 万葉集の和歌のサンプルと分類 ● 57577 ○ 『むつきたち はるのきたらば かくしこそ うめををきつつ たのしきをへめ』 ○ 『あらたしき としのはじめの はつはるの けふふるゆきの いやしけよごと』 ● 57577(字足らず・字余り) ○ 『あきののの みくさかりふき やどれりし うぢのみやこの かりいほしおもほゆ』 ○ 『むらさきの いとをぞわがよる あしひきの やまたちばなを ぬかむとおもひて』 ○ 『おしてる なにはほりえの あしへには かりねたるかも しものふらくに』 ● その他 ○ 『みぬさとり みわのはふりが いはふすぎはら たきぎこり ほとほとしくに てをのとらえぬ』 ○ 『おしてる なにはをすぎて うちなびく くさかのやまを ゆふぐれに わがこえくれば やまもせに さけるあしびの あしから ぬ きみをいつしか ゆきてはやみむ』 ○ 『やまとには むらやまあれど とりよろふ あめのかぐやま のぼりたち くにみをすれば くにはらは けぶりたちたつ うな はらは かまめたちたつ うましくにぞ あきづしま やまとのくには』 ○ 『こもよ みこもち ふくしもよ みぶくしもち このをかに なつますこ いへきかな のらさね そらみつ やまとのくには おしな べて われこそをれ しきなべて われこそませ われこそば のらめ いへをもなをも』
  8. 8. 3. 文章生成を試みました 万葉集の和歌の特徴 ● 大半は57577の形式(パターン)で詠まれている ○ 字余り、字足らずも多い ● 577577や、もっと長い和歌もある ○ 最大で1035文字の和歌もあった  ⇒学習用データ ● 仮名、57577などの区切り文字、末尾文字で全71種をID化 ○ オバマ氏のスピーチの学習を参考 ○ 和歌の終了も学習すると期待されるので生成される長さも自動的に決定される
  9. 9. 3. 文章生成を試みました 57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点) ● 区切り文字を入れることでパターンを学習できるか? ● 全結合Autoencoderは学習できそう ○ 先頭40文字分の学習データを試すと読み込みエラー ○ 先頭37文字分の学習データでは、パターンは学習できたように見える (57577+区切り文字×4+終端+字余り1=37文字)
  10. 10. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果
  11. 11. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果(偶数行目が生成結果、太字が正答 )
  12. 12. 3. 文章生成を試みました 57577のパターンの学習データ化(オバマ氏のスピーチと大きく異なる点) ● 全結合Autoencoderでは37文字までの和歌しか生成できない ⇒RNNを使いたい ● RNNの場合、学習対象のループの回数を長くすればある程度学習できそう ○ 問題点 ■ 『くもがくり かりなくときは あきやまの』(19文字)は、『くもがくり かりなくときは あきやまの も みち~』なのか、『~つきも くもがくり かりなくときは あきやまのくに』なのか、区別できない ■ 生成時に最初に与える文字数に影響するためあまり長くしたくない ○ ⇒インデックスとセットで学習してみてはどうか
  13. 13. 3. 文章生成を試みました インデックスつきデータ インデックスなしデータ
  14. 14. 3. 文章生成を試みました モデル及び学習条件は下記の 通りです。 <固定>  モデル:LSTM  中間層の次元:100  OneHot:有  Dropout:P=0.5  学習データ件数:5万件  検証データ件数:1万件  Max Epoch:100  Batch Size:32  CPU <試行錯誤ポイント>  入力文字数:5 or 7 or 13  インデックス:無 or 有
  15. 15. 3. 文章生成を試みました モデル① Input:Size=5 OneHot:Shape=89 インデックス:無  
  16. 16. 3. 文章生成を試みました モデル① 学習時間:20分程  
  17. 17. 3. 文章生成を試みました モデル①  
  18. 18. 3. 文章生成を試みました モデル④ Input:Size=5 OneHot1:Shape=89 OneHot2:Shape=40 ※MinimumScalar インデックス:有  
  19. 19. 3. 文章生成を試みました モデル④ 学習時間:27分程  
  20. 20. 3. 文章生成を試みました モデル④  
  21. 21. 4. 生成する文書(万葉和歌)をお見せします。 松
 島
 や
 秋
 の
 宇
 良
 野
 狩
 り の 浦
 の
 宮
 も 見
 え
 つ
 つ
 も
 浅
 か
 り
 ま
 し
 も

  22. 22. 5. 感想 ・PythonやTensorFlowを使ってドヤらなくても機械学習ができるところが良いと思いまし た。一方で、詳細なことができる余地があるのも良いと思いました。ただ、今回の勉強会 では深い所までやれきれず、更に復習が必要と感じました(白川)。 ・LayerをD&Dして繋ぐだけでモデルが出来上がるUIですが、コンポーネントの選択やハ イパーパラメータの調整はやはり慣れや試行錯誤が必要で、期待したような動作をする モデルができるまで苦労しました。試行錯誤はNNCのサポートもありやりやすかったで す(入江)。 ・NNCは、Pythonでのコーディングに比べてモデル構築の試行錯誤がしやすく、スピー ディに開発を進めることができると実感しました。ただし、細部をこだわろうとすると、ハイ パーパラメータや各Layerの知識が必要になるので、難しいと感じました(瀧井)。
  23. 23. ご清聴ありがとうございました
  24. 24. 3. 文章生成を試みました 全結合のAutoencoderで学習した結果 ※偶数行目(背景色あり)が生成結果、正答を太字

<<AITC AI勉強会>> チーム名:なんちゃって文豪 概要:講義内容を応用した予測モデルを作成

Views

Total views

155

On Slideshare

0

From embeds

0

Number of embeds

1

Actions

Downloads

0

Shares

0

Comments

0

Likes

0

×