Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Slide software jpn_20180202_ota

504 views

Published on

ソフトウエアジャパン2018 @一橋講堂/ ITフォーラムセッション/ ビッグデータ活用実務フォーラム

09:30-9:50 講演(1)
09:50-10:10 講演(2) 里 洋平
10:10-10:30 講演(3)
10:30-10:50 講演(4)

10:50-11:10 講演(5)
文章自動生成における主な手法の比較考察
Comparative study of main methods in automatic sentence generation

【講演概要】まず、前提となる背景としてビッグデータの時代であるがゆえに、その処理や活用法の有効性が鍵となる。次に、最近のディープラーニングの発展は著しく、画像処理の分野から音声認識、そして自然言語処理の分野まで浸透し発展し続けている。そこで本考察では、検索した結果、上位に表示されるSEO対策の視点から、ウェブサイト中のテキスト挿入文を自動生成するタスクを設定した。本タスクの遂行に際し、次の3つの主な手法を取り上げ、比較考察したものである。1)マルコフ連鎖、2)自動要約、3)ディープラーニング(RNN/ LSTM/ GAN)の手法よる文章自動生成である。課題として、一文が自然な文で生成されても、文と文とのつながりが不自然であることが見受けられた。そこで、その対応策を検討し、実務で通用する自然な文と文とのつながりの実現を提案するものである。
太田博三

太田 博三
(放送大学 教養学部 データサイエンティスト)
【略歴】2004年上智大学大学院地球環境学研究科後期課程単位修得満期退学。データサイエンティスト、ディープラーニングを用いた文章生成や対話生成を得意とする。

Published in: Data & Analytics
  • Be the first to comment

Slide software jpn_20180202_ota

  1. 1. 文章自動生成における主な手法の比較考察 Comparative study of main methods in automatic sentence generation ソフトウエアジャパン2018ビッグデータ活用実務フォーラム @一橋講堂 2018年2月2日(金) 放送大学 教養学部 太田 博三 Twitter @usagisan2020
  2. 2. 1. はじめに 1.1 自然言語処理の研究区分について 1.2 文章自動生成のタスク設定について 1.3 文章自動生成の注目度について 3
  3. 3. 1.1. 自然言語処理の研究区分(その1) (入力) (出力) テキスト ----------解析系-------- 情報 情報 ----------生成系-------- テキスト 図1.1 解析系と生成系 ・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別 ・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない. 出力はテキストである. ・変換系の研究とは,機械翻訳など入力と出力が対価である場合. 4 解析系 生成系 変換系
  4. 4. 1.1 自然言語処理の研究区分(その2) (入力) (出力) テキスト(過去) --------解析系-------■ 情報(過去?) テキスト(過去) --------生成系----- ■ テキスト(本当に未来?) 図1.2 解析系と生成系(時間軸を追加したもの) 5図5.1 (未来に向けた)情報の価値; 例) 13時時点
  5. 5. 1.2 文章自動生成のタスク設定(その1) 今回のタスクの ゴール: 弊社の営業が、ク ライアントに、 「こういうテキスト 文を挿入してほし い!」 という文を自動生 成すること。 =業務効率化へ 6※ 引用先: アパマンショップHP http://www.apamanshop.com/kodawari/detail/maisonette.html
  6. 6. 1.2.2 文章自動生成のタスク設定 7 メゾネット物件の特徴としては、建物の中に内階段が設 置されており、2階以上の階層からなる物件になります。 2階建の戸建てと似たような作りになります。メゾネッ ト物件のメリットとしては内階段があり、2階建になり ますので一戸建てに住んでいるような気分になれるとい う点でしょう。開放感を求めている方にはおススメの物 件です。ただし、子どもがいる方は階段から落ちてし まって、などという心配もありますので避けた方がいい かもしれません。メゾネット物件の探し方はメリットに もあるように開放感というのが1つのキーワードとなり ますので採光面や風通りがどうなっているのかは重要な ポイントとなるでしょう。 (287文字)
  7. 7. 1.2. 文章自動生成のタスク設定(その2) 文章自動生成のアプリ開発の主な仕様を下記の2点とした. 1. 剽窃になってはいけないこと,そのまま過去の文章の引用と ならないこと, 2. 創作的寄与や独自性が文生成の過程に存在すること, 3. 300−500文字の自然な文章であること. <懸念点として考えられたこと> • Inputが過去の文集合であるため、語句の言い換えだけでなく、 文の意味の創作をoutputとして出せるかが、懸念される. 8
  8. 8. 1.2(補足) 過去の著作権問題 • WEB上のコンテンツは「研究のためなら」引用先を明記すれ ば用いて良いとされている. • 昨今のニューラルネットワークの発展においても,ゴッホ風 の画像やモーツァルト風の音楽まで出ており,著作権に関す る議論はあまり出ていない. cf. 東京五輪のエンブレムは主観で真似たと判断されている 事例がある. →定量化できないものか? →評価基準の設定の問題 →オリジナルであることの難しさ 9
  9. 9. 1.3 文章自動生成の注目度 • 文章自動生成のコンテストなど欧米で盛んである. E2E NLG Challenge http://www.macs.hw.ac.uk/InteractionLab/E2E/ も開催されており,世界的に盛んである. cf. 文書自動要約(Text Summarization)は 10年以上前から盛んに 行なわれている. 10
  10. 10. 1.3 五輪エンブレムの盗用の事例と独自性(進歩性) 東京五輪のエンブレムは主観で真似 たと判断されている事例がある. →定量化できないものか? →評価基準の設定の問題 →オリジナルであることの難しさ ※引用先: 参考URL: デザイナーの僕が感じる、五輪エンブレム 盗用疑惑について http://グラフィックデザイナー独立奮闘 記.com/olympics-logo 11 ぱくり!?本物!
  11. 11. 1.3 知財法と技術的な解決(創作的寄与)が実務で求められる! ・Deep learningを使った場合,AI生成物に創作的寄与ができているかがポイント になる! →創作的寄与がない場合=AI生成物の「蒸留物」に当たり,NGと判断される →創作的寄与があると見なされる場合=Ok! ◎ポイントは未来に向けた情報を加えること!12
  12. 12. 2. 本研究で用いた手法 2.1 マルコフ連鎖による文生成 2.2 自動要約による文生成 2.3 リカレントニューラルネットワーク(RNN)/ LSTM/GANによる文生成 13
  13. 13. 2.1 各手法についての概観(イメージ) 1. マルコフ連鎖による文生成 2. 自動要約による文章自動生成 3. リカレントニューラルネットワーク/ LSTMによる文章自動生成 ※この他にも制御文による フレームワークを用いた文章自動 生成などもある. 14
  14. 14. 2.2 マルコフ連鎖による文生成 • マルコフ性(Markov property)とは、 次の状態が過去の状態に依存せず 現在の状態のみによって 決まる性質のことである. • 詳しくはこちらの記事をご参照ください! マルコフモデル ~概要から原理まで~ (前編) http://postd.cc/from-what-is-a-markov-model-to-here-is-how-markov- models-work-1/ 15
  15. 15. 2.3 自動要約による文章自動生成 • 自動要約の古典的なH. P. Luhnが自動要約の元祖と言われております. ↓ • テキスト中の重要な文を抜き出し,それを出現順に並べることによっ て,そのテキストを読むべきか否かを判定するといったスクリーニン グのための要約が自動生成できることを示したことが業績. • つまり,自動抄録に似ており,「理解し,再構成し,文章生成」とい うのではなく、「理解する箇所が重要部に近似する」と割り切って考 えたもの. • 重要語の決定には,単語頻度を用いるなど,現在の自動要約の流れは, Luhnの影響が少なくない! 16
  16. 16. 2.4 リカレントニューラルネットワーク (RNN)/LSTM/GANによる文章自動生成 • Andrej Karpathyのchar-rnnによるtiny shakespeare[7]が有名. • 今までの単語列として,もっともらしい次の単語を予測す ることをLong short term memory(LSTM)が担うもの. • Recurrent Neural Network(RNN)の拡張として,1995年に登 場した時系列データに対するモデルまたは構造の一種であ る. • しかしLSTMでも,Epochが100を超えないとまともな文章 になっていなかったり,GPUが必要になるなど,莫大な学 習データと時間を要する. ⇩ • そこで,GANなど教師なしの生成モデルに着目した. 17
  17. 17. 3.各手法の生成文の考察([7]) 3.1 各手法の実験概要 ➡約3ヶ月間 (成果が出たら続ける というもの) 3.2 各手法と好ましいと 思われるデータ量 (文字数) ➡Minimumから 始めて行きました 18
  18. 18. 3.1データセットと各手法の詳細 • 実験に用いたデータの概要: 19 ・「まぐまぐ」の文章などは,同じ著者で同じテーマで且つ文字数も同じ で文章が均一であるため,採用しました.
  19. 19. 3.1データセットと各手法の詳細 • 1) マルコフ連鎖及び Doc2Vec による文章自動生成, • 1. 文章を単語に形態素に分解する, • 2. 単語の前後の結びつきを辞書に登録する, • 3. 辞書を利用してランダムに生成した. • • ※Doc2vec/ Gensim を用いて,文書間の類似度を計算し,類似度の 高い文書と文書とを並べて文生成としようとしたが,つながりが 悪く明らかに不自然になってしまった(図3.1.2を参照のこと). 20 文書A 文書B 文書C+ =
  20. 20. 4. 実験結果([8]) 4.1 実験で用いた各手法の長所・短所 4.2実験で用いた文章と評価の一部(その1) 4.2.1 マルコフ連鎖による2つの文章の評価 4.2.2 マルコフ連鎖による生成された文章例(2つ) 4.2.2.1 マルコフ連鎖による生成された文章例その1 4.2.2.2 マルコフ連鎖による生成された文章例その2 4.3 実験で用いた文章と主観的なSEOの視点での評価の一部(その2) 4.4 文章の言い換えと類似度の検討 4.4.1 本節で用いた例文 4.4.2 n-gram(n = 1-5)での定量化と言い換え回数について 4.4.3 考察結果 21
  21. 21. 4.1 実験で用いた各手法の長所・短所 • [実験: 2パターンでの検証結果] 1.(元データ) 4.2.1 マルコフ連鎖による2つの文章の評価 ・元の文章のままではない点が評価できる. ・元の文章が長い文章であれば,文と文のつながりはよくはないが 悪くもない. ・内包表記などで工夫できれば簡易的で良い. 22
  22. 22. 4.2.2 マルコフ連鎖による生成された文章例(2つ) 23 4.2.2.1 マルコフ連鎖による生成された文章例そ の1 化粧水などで泡立ててくださいね。そのまま化粧水を 防腐剤、安定剤や酸化亜鉛などの影響で、かさつかず しっとりとしました。ドクターズオーガニックの無添 加化粧品の材料とコールドプロセス法によって製造す ることがわかります(新陳代謝が正常に導きます。ま たお手元に届くよう、一刻も早い安全性と、とても良 い下地クリームにした作りになっていますが、抗菌仕 様製品では次のような選び方が推奨されています。毎 日身体を動かすことで、自分達の基礎化粧品の中身を 確かめてくださいね。無添加石鹸で…。油分を十分に 補って、盲信は禁物です。ナイロンタオルやボディケ ア用品の基材としてよく使われています。という具合 に自分の肌トラブルを起こさない、これは現実的に引 き締まった感じがするかもしれませんよね?乾燥が気 になることもあります。刺激感などの添加があります。 (361文字) 4.2.2.2 マルコフ連鎖による生成された文章例その2 例えばクモノスカビの大きさを保ち、かさかさ、ボロ ボロに。一体何が無添加石鹸を泡立て、泡の保持のた め、ニキビ肌、敏感にしましょう。「今日はとても不 自然だと悪化します。また、脂肪を燃焼させ除去する ことフットクリームの全成分しかし、同時に流れは細 胞から二酸化炭素や老廃物を回収してください。シア バター 1,800円(約70g)ご購入はこちらから」フッ トクリームの全成分漢方薬としては、洗浄感の良いハ ンドクリームには皮膚がんの原因は消毒も殺菌して作 られますが、散乱剤②の2種類がありませんが、すで にたくさんの化粧水と、やわらかくて、たっぷりのお 湯でお肌は、天然の成分かつて健康法として推奨され た安全性はまだまだ不確かです。でも、必ずしも石鹸 が必要なわけでも、瞬間湯沸かし器などで泡立ててく ださい。乾燥肌対策のため植物性油脂であっても、き れいな水だけで数百種類以上の化学成分を毎日肌にの せたりすることが大事です。原料への安全性はありま せん。この後、あるいはお風呂で体を温める効果のあ る人々(活字関係)からは常温で固体のためのスキン ケア (455文字)
  23. 23. 4.2.2 マルコフ連鎖による生成された文章例(2つ) 24 4.2.2.1 マルコフ連鎖による生成された文章例その1 化粧水などで泡立ててくださいね。そのまま化粧水を防腐剤、安定剤や酸化亜 鉛などの影響で、かさつかずしっとりとしました。ドクターズオーガニックの 無添加化粧品の材料とコールドプロセス法によって製造することがわかります (新陳代謝が正常に導きます。またお手元に届くよう、一刻も早い安全性と、 とても良い下地クリームにした作りになっていますが、抗菌仕様製品では次の ような選び方が推奨されています。毎日身体を動かすことで、自分達の基礎化 粧品の中身を確かめてくださいね。無添加石鹸で…。油分を十分に補って、盲 信は禁物です。ナイロンタオルやボディケア用品の基材としてよく使われてい ます。という具合に自分の肌トラブルを起こさない、これは現実的に引き締 まった感じがするかもしれませんよね?乾燥が気になることもあります。刺激 感などの添加があります。(361文字)
  24. 24. 4.2.2 マルコフ連鎖による生成された文章例(2つ) 25 4.2.2.2 マルコフ連鎖による生成された文章例その2 例えばクモノスカビの大きさを保ち、かさかさ、ボロボロに。一体何が無添 加石鹸を泡立て、泡の保持のため、ニキビ肌、敏感にしましょう。「今日は とても不自然だと悪化します。また、脂肪を燃焼させ除去することフットク リームの全成分しかし、同時に流れは細胞から二酸化炭素や老廃物を回収し てください。シアバター 1,800円(約70g)ご購入はこちらから」フットク リームの全成分漢方薬としては、洗浄感の良いハンドクリームには皮膚がん の原因は消毒も殺菌して作られますが、散乱剤②の2種類がありませんが、す でにたくさんの化粧水と、やわらかくて、たっぷりのお湯でお肌は、天然の 成分かつて健康法として推奨された安全性はまだまだ不確かです。でも、必 ずしも石鹸が必要なわけでも、瞬間湯沸かし器などで泡立ててください。乾 燥肌対策のため植物性油脂であっても、きれいな水だけで数百種類以上の化 学成分を毎日肌にのせたりすることが大事です。原料への安全性はありませ ん。この後、あるいはお風呂で体を温める効果のある人々(活字関係)から は常温で固体のためのスキンケア (455文字)
  25. 25. 4.3 実験で用いた文章と主観的なSEOの視点での 評価の一部(その2) • 以下の文章が自然であるかに留意し,5段階評価を行った. ※評価尺度は次の通りです. (自然な日本語) 5 – 4 – 3 – 2 - 1 (機械的な日本語) また、気がついた問題や箇所は下線のスペースに記入してください。 26
  26. 26. 4.3 実験で用いた文章と主観的なSEOの視点での 評価の一部(その2) (例文) 興味深い話がありますが、続けることがわかってきたという人が歩行不足です から。お酒を飲んでいたら、昔か ら「寝る子は育つ」と言うのは神様の業と言 えるのです。ですから、いつも幼子のようにしましょう!考えたりします。やは りちょっと添加物を旬なうちに運動をしてもらったらよいでしょうか?また、 健康診断はしっかり 歩くだけでは、さらに湿疹などになります。よくよく聞い てなるほどなーとも言えるのではなく、なぜか色々と 語られているのですが、 健康維持やダイエットにつながります。手軽に薬ではないでしょうか?老化防 止にも沢 山あるのです。ですから、お水や空気も入ります。もしハリが残って いるとか・・・?さて、今日のタイトルは「炭 酸水で薄めて飲んだらよいで しょうか?漢方の王様と言われています。そのくらい身体の健康についてです。 (351 文字) 27
  27. 27. 4.3 実験で用いた文章と主観的なSEOの視点での 評価の一部(その2) 文章1(マルコフ連鎖) 2点 (実務者の評価) "1つ1つの文としては問題がないレベル。 ただし文章のつながり=文脈が支離滅裂のため、明らかに全体の文 章としては人間の目から見て不自然。 例:手軽に薬ではないでしょうか?老化防止にも沢山あるのです。 ですから、お水や空気も入ります。 例えばこの文章は前後で繋がりがないようにみえる。ですから、の 後が繋がらないように感じる。" 28
  28. 28. 4.3 実験で用いた文章と主観的なSEOの視点での評価の一部 (その2) (例文) 私の知り合いの老人 Y さんは現在90才の元気な男性。Y さんの健康法は毎日 2 時間 くらいは散歩を続ける事だ そうです。それも晴の日だけでなく、雨の日も散歩に 行かれると言うのでびっくり。本人いわく「この年で仕事 もないので、私は散歩 する事が仕事と思って毎日歩いているので、雨の日でも行きます。雨だから今日 は仕事が 休みとは普通ならないでしょう・・・」との事でした。流石に脱帽です。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、あ まり無理して歩かないほうがよいですよ。」と言われ、Y さんも 「そうかなー」 と思い 1 ヶ月近く散歩を止めていました。そしたら、バス停から家までの道のり 約5分くらいの 緩やかな坂道が、途中に一度休まないと息が切れて歩けなくなっ たそうです。それで「これではまずい!」と思 って、また歩き始めて3週間くらい 歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半身の静脈の 流れ を良くし、身体の基礎筋肉を維持し、心肺機能を維持する事ができるのです。ま た、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽食による肝 脂肪が増えています。私も最近は運動不足なので、昨年 の10月からは子供と毎月 1回は山登りをするようにしています。皆さんも運動不足と思われる方は是非散歩 を お勧め致します。毎日1時間は歩いてほしいですね (572文字) 29
  29. 29. 4.3 実験で用いた文章と主観的なSEOの視点での評価の一部 (その2) 文章2(自動要約) 5点(満点) (実務者の評価) 語句の使い方や文章としてきわめて自然であり、前後の文脈もつな がっている。この精度で文章生成であれば二重丸。 30
  30. 30. 4.4 文章の言い換えと類似度の検討 • 文章自動生成は一文が自然な文章で文と文との間のつながりも自然 であること,これに加えて,盗作とならないことを考えた場合,元 の文章と新たに生成された文章との非類似度が高いことが求められ る. • そこでn-gram(n = 1, 2, 3, 4, 5)で類似度を求め,もう一方で係り受け 解析を行い複雑すぎる文になっていないかを考察してみた. • Googleは5-gramを用いているとの見解もあり,5-gramまでとした(文献 [10]より). 31
  31. 31. 4.4.1 本節で用いた例文 • 本節で用いた例文とそれを言い換えた文章、さらにもう一度言い換 えた文章を次に示す. • また言い換えは主に3種類行った. 1)名詞,形容詞,動詞,格助詞 2)能動態⇄受動態, 3)2つ以上の単語を1つの単語にまとめること 32
  32. 32. 4.4.1.1 本節での言い換えの例 1. 言い換え:2個 求人事情➡︎求職実態 知ろう➡︎把握しよう 2. 言い換え:4個 都心➡︎都会 近い➡︎隣接した ベッドタウン➡︎大型住宅地 商業エリア➡お店が並ぶ地域の 3. 言い換え:3個 県庁所在地➡︎中心 最大の➡︎一番の 知られている➡︎伝えられている 33 4.言い換え5件 政治と経済の中心部は、横浜市中区や西区に 集約されています。 ⬇ 政治や経済の中心部が、横浜市中区と西区へ 集約できます。 5.言い換え4件 馬車道や山下公園、横浜中華街なども近くに 存在するため、観光地として知られています。 ⬇ 馬車道と山下公園、横浜中華街などが近くへ 存在することで、観光地として知られていま す。
  33. 33. 4.4.1 本節で用いた例文 • a (元の文章・言い換え前)456文字 • b(一回目の言い換え後 448文字) • c(2回目の言い換え後 405文字) 4.4.2 n-gram(n = 1-5)での定量化と言い換え 回数について 以下のように定義した. a: 元の文章, b: aを言い換えた文章, c: bを言い換えた文章 34 aとcの類似度の比較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の比較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075
  34. 34. 4.4.1+ n-gram(n = 1-5)での定量化と言い換え回数について • a (元の文章・言い換え前)456文字 • b(一回目の言い換え後 448文字) • c(2回目の言い換え後 405文字) 4.4.2 n-gram(n = 1-5)での定量化と言い換え 回数について 以下のように定義した. a: 元の文章, b: aを言い換えた文章, c: bを言い換えた文章 aからbへの言い換え総数: 56回 bからcへの言い換え総数: 38回 35 aとcの類似度の比較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の比較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075
  35. 35. 4.4.1 本節で用いた例文 a (元の文章・言い換え前)456文字 横浜市の求人事情を知ろう。都心に近いベッドタウンと商業エリアが広がる 横浜市。神奈川県の県庁所在地でもあり、県内で最大の都市として知られて いるのが横浜市です。行政と経済の中心は、横浜市中区や西区に集まってい ます。馬車道や山下公園、横浜中華街などもこの辺りにあるため、観光地と しても有名です。横浜港に面してホテルや商業施設、オフィスが建ち並ぶ横 浜みなとみらい21も、このエリアに含まれます。横浜市は黒船来航といった 歴史的な背景もあり、洋風な建造物やインターナショナルスクール、外国人 を多くみかけるでしょう。横浜駅を中心に広がる繁華街や観光地では、飲食 店やさまざまなショップが集まっています。私鉄や地下鉄が多数乗り入れて いることから、エリアによってはアクセスが便利で、都内のベッドタウンと しても人気です。横浜市には、大学のキャンパスも多いことから、学校の近 くや通いやすい場所でさまざまなアルバイトを探すことができるでしょう。 未経験から始められる職種、スキルが身に付くものなど、自分にあったバイ トを見つけることが可能です。 36
  36. 36. 4.4.1 本節で用いた例文 b(一回目の言い換え後 448文字) 横浜市の求職実態を把握しよう。都会に隣接した大型住宅地とお店が並ぶ地 域の横浜市。神奈川県の中心でもあり、県内で一番の都市として伝えられて いるのが横浜市です。政治と経済の中心部は、横浜市中区や西区に集約され ています。馬車道や山下公園、横浜中華街なども近くに存在するため、観光 地として知られています。横浜港に面してホテルや経済施設、商業施設が建 ち並ぶ横浜みなとみらい21も、この地域に含まれます。横浜市は黒船来航と いった伝統的な事実もあり、西洋の建造や帰国子女の学校、海外旅行客を多 くみるでしょう。横浜駅を軸に広がるダウンタウンや観光地では、レストラ ンやさまざまなお店が並んでいます。私鉄や都営地下鉄が多くあることから、 地域によっては移動が楽で、都心の大型住宅地としても有名です。横浜市に は、カレッジの施設も多いことから、大学の近郊や通学しやすい点で多くの アルバイトを見つけることが可能でしょう。経験のない人から始められる職 業、技術が習得できるものなど、自分に適したアルバイトを見つけることが できます。 37
  37. 37. 4.4.1 本節で用いた例文 c(2回目の言い換え後 405文字) 横浜市で求職実態を把握しよう。都会の隣接した大型住宅地とお店の並ぶ地域の横 浜市。神奈川県が中心でもあり、県内の一番の都市として伝えられているのは横浜 市です。政治や経済の中心部が、横浜市中区と西区へ集約できます。馬車道と山下 公園、横浜中華街などが近くへ存在することで、観光地として知られています。横 浜港に面してホテルと経済施設、商業施設の横浜みなとみらい21が、この地域に含 んでいます。横浜市の黒船来航といった伝統的な事実があり、西洋の建造と海外旅 行客が多くみられるでしょう。横浜駅に広がる行楽地で、食堂と多くのショップが あります。鉄道がたくさんあることから、場所によって、移動が容易で、都心の ベットタウンとして人気があります。横浜市では、大学の施設も多く、大学周辺や 通学面でたくさんのアルバイトが見つかるでしょう。未経験から始められるジョブ やスキルがマスターできるものを、自分に合ったアルバイトを見つけられます。 38
  38. 38. 4.4.3 考察結果 ・3-gram, 4-gram, 5-gramと言い換え回数と類似性との関係は負の関係 にあり, ・nが5に近づくほど、言い換え回数が大きく増大する. 39
  39. 39. 5.文章自動生成における独自性(その1) ・検索上位表示(SEO)のテキスト文生成に際し,過去のウェブ上の 文章による引用は罰則を課されてしまうため,言い換えだけでな く,創作性や独自性(進歩性)を担保する必要がある. ・創作性 = 本来,人間の手が加わっているもの⇒自動化 ↑ 例)自動化=未来に向けた情報 ・ここで,次のスライドの図のように捉えることができる. 40
  40. 40. 5.文章自動生成における独自性(その2) 41 図5.1 (未来に向けた)情報の価値; 例) 13時時点 図5.2 (未来に向けた)情報の価値; 例) 18時時点 図5.3 (未来に向けた)情報の価値; 例) 20時時点 ※引用先: AI白書
  41. 41. 5.1 文章自動生成の成功事例:天気予報や野球中継 今回の文章自動生成に独自性を考慮する場合, 天気予報や野球中継のスコアなどがその具体例 と考えられる. 一方,SEOなどの文章生成においては,フレーム ワークとしての過去の情報に加えて,センサー データや動画での風景を1時間刻みで文章化した ものを,付け加えることで実現できそうである と結論づけられる 42 引用先:http://www.tenki.jp/forecaster/diary/k_shiraishi/2018/02/01/92851.html
  42. 42. 5.2 多種多様なデータによる独自性の考察 ・人間の五感に匹敵する「気温や外の風景やその変化など」,言語と いったテキストデータに独自性を取り入れるならば,画像や音声,さら にセンサーデータを文章に変換することで文章生成の価値を創出するこ とが考えられる. 43
  43. 43. 5.3 期待される活用の場合 ・本研究の応用先として,視覚障害の方々に提供することや, また逆にキーワードを指定し文生成して自ら活用して頂く事やこれから 通る道路の画像を文章生成し状況を把握するなど,積極的な活用方法が ます. ・一緒にアプリをつくりませんか? 44
  44. 44. 6.まとめ ・文と文のつながりについては,依然として課題があります. ・自動要約を用いて、言い換えをすることで剽窃から免れられる可能性 が高く、一時的に、これで落とし所にしました. ・今のところは完全自動化は難しく,人手を含めざる負えなく,主に制 御文による文章自動生成が無難と思われた.また言語以外の多様なデー タを活用することで独自性のある文生成が進歩性の可能性があると考え られる. ・AI生成物の法的(知財法)対応も考慮する必要があると考えます. 45
  45. 45. ご清聴、どうもありがとうございました. 発売中! Juliaデータサイエンス https://goo.gl/3PkX6x 46 ◎機械学習や自然言語処理の業務 も可能な採用求人がございました ら、ぜひ、ご紹介してください! ➡︎Wantedlyに履歴等が詳しくあり ます! https://www.wantedly.com/users/ 3948982 太田 博三

×