Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
博三 太田
212 views
Pycon jp2017 20170908_ota
NLP
Engineering
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 37
2
/ 37
3
/ 37
4
/ 37
5
/ 37
6
/ 37
7
/ 37
8
/ 37
9
/ 37
10
/ 37
11
/ 37
12
/ 37
13
/ 37
14
/ 37
15
/ 37
16
/ 37
17
/ 37
18
/ 37
19
/ 37
20
/ 37
21
/ 37
22
/ 37
23
/ 37
24
/ 37
25
/ 37
26
/ 37
27
/ 37
28
/ 37
29
/ 37
30
/ 37
31
/ 37
32
/ 37
33
/ 37
34
/ 37
35
/ 37
36
/ 37
37
/ 37
More Related Content
PPTX
Python による 「スクレイピング & 自然言語処理」入門
by
Tatsuya Tojima
PPTX
Perl で自然言語処理
by
Toshinori Sato
PDF
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
by
Yuya Unno
PDF
Pycon jp2017 20170908_ota
by
博三 太田
PDF
Slide software jpn_20180202_ota
by
博三 太田
PDF
Japan.r ver1.2 20171202_ota
by
博三 太田
PDF
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
by
Toshinori Sato
PDF
Lt conehito 20210225_ota
by
博三 太田
Python による 「スクレイピング & 自然言語処理」入門
by
Tatsuya Tojima
Perl で自然言語処理
by
Toshinori Sato
企業における自然言語処理技術の活用の現場(情報処理学会東海支部主催講演会@名古屋大学)
by
Yuya Unno
Pycon jp2017 20170908_ota
by
博三 太田
Slide software jpn_20180202_ota
by
博三 太田
Japan.r ver1.2 20171202_ota
by
博三 太田
🍻(Beer Mug)の読み方を考える(mecab-ipadic-NEologdのUnicode 絵文字対応)
by
Toshinori Sato
Lt conehito 20210225_ota
by
博三 太田
What's hot
PPTX
ジャストシステムの形態素解析技術 その2 機械学習編
by
JustSystems Corporation
PPTX
データ分析スクリプトのツール化入門 - PyConJP 2016
by
Akinori Kohno
PDF
言語資源と付き合う
by
Yuya Unno
PDF
深層学習フレームワークChainerの特徴
by
Yuya Unno
PDF
大規模データ時代に求められる自然言語処理
by
Preferred Networks
PDF
JMAT Groonga Tokenizer Talks
by
JustSystems Corporation
PDF
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
by
Hisao Soyama
PDF
情報抽出入門 〜非構造化データを構造化させる技術〜
by
Yuya Unno
PDF
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
by
Yuya Unno
PPTX
fastTextの実装を見てみた
by
Yoshihiko Shiraki
PDF
形態素解析の実装言語Talk パネルディスカッション
by
JustSystems Corporation
PDF
形態素解析の過去・現在・未来
by
Preferred Networks
PDF
Chainerのテスト環境とDockerでのCUDAの利用
by
Yuya Unno
PDF
RとPythonによるデータ解析入門
by
Atsushi Hayakawa
PDF
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
by
Takeshi Sakaki
PDF
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
by
Kenji Hara
PDF
Jubatusの紹介@第6回さくさくテキストマイニング
by
Yuya Unno
PDF
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
by
Yuya Unno
PDF
Jubatusにおける機械学習のテスト@MLCT
by
Yuya Unno
ジャストシステムの形態素解析技術 その2 機械学習編
by
JustSystems Corporation
データ分析スクリプトのツール化入門 - PyConJP 2016
by
Akinori Kohno
言語資源と付き合う
by
Yuya Unno
深層学習フレームワークChainerの特徴
by
Yuya Unno
大規模データ時代に求められる自然言語処理
by
Preferred Networks
JMAT Groonga Tokenizer Talks
by
JustSystems Corporation
Pythonによるソーシャルデータ分析―わたしはこうやって修士号を取得しました―
by
Hisao Soyama
情報抽出入門 〜非構造化データを構造化させる技術〜
by
Yuya Unno
ICML2013読み会 ELLA: An Efficient Lifelong Learning Algorithm
by
Yuya Unno
fastTextの実装を見てみた
by
Yoshihiko Shiraki
形態素解析の実装言語Talk パネルディスカッション
by
JustSystems Corporation
形態素解析の過去・現在・未来
by
Preferred Networks
Chainerのテスト環境とDockerでのCUDAの利用
by
Yuya Unno
RとPythonによるデータ解析入門
by
Atsushi Hayakawa
2016.03.11 「論文に書(け|か)ない自然言語処理」 ソーシャルメディア分析サービスにおけるNLPに関する諸問題について by ホットリンク 公開用
by
Takeshi Sakaki
Hadoop Conference Japan 2013 Winter: "見える"Twitter全量リアルタイム解析 ~Hadoop/RabbitMQ処...
by
Kenji Hara
Jubatusの紹介@第6回さくさくテキストマイニング
by
Yuya Unno
Twitter分析のためのリアルタイム分析基盤@第4回Twitter研究会
by
Yuya Unno
Jubatusにおける機械学習のテスト@MLCT
by
Yuya Unno
Similar to Pycon jp2017 20170908_ota
PPTX
深層学習による自然言語処理の研究動向
by
STAIR Lab, Chiba Institute of Technology
PDF
言語処理するのに Python でいいの? #PyDataTokyo
by
Shuyo Nakatani
PPTX
深層学習を用いた文生成モデルの歴史と研究動向
by
Shunta Ito
PDF
Convolutional Neural Netwoks で自然言語処理をする
by
Daiki Shimada
PPTX
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
by
Ohsawa Goodfellow
PDF
大規模データに基づく自然言語処理
by
JunSuzuki21
PPTX
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
by
Hitomi Yanaka
PDF
Deep Learningと自然言語処理
by
Preferred Networks
PDF
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
by
Hitomi Yanaka
PDF
子どもの言語獲得のモデル化とNN Language ModelsNN
by
Chiba Institute of Technology
PDF
Non-autoregressive text generation
by
nlab_utokyo
PDF
最先端NLP勉強会2017_ACL17
by
Masayoshi Kondo
PDF
ニューラルネットワークを用いた自然言語処理
by
Sho Takase
PDF
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
by
Hitomi Yanaka
PPTX
Interop2017
by
tak9029
PDF
Extract and edit
by
禎晃 山崎
PDF
STAIR Lab Seminar 202105
by
Sho Takase
PDF
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
by
STAIR Lab, Chiba Institute of Technology
PDF
Japan.r ver1.1 20171202_ota
by
博三 太田
PPTX
最近の自然言語処理
by
naoto moriyama
深層学習による自然言語処理の研究動向
by
STAIR Lab, Chiba Institute of Technology
言語処理するのに Python でいいの? #PyDataTokyo
by
Shuyo Nakatani
深層学習を用いた文生成モデルの歴史と研究動向
by
Shunta Ito
Convolutional Neural Netwoks で自然言語処理をする
by
Daiki Shimada
Natural Language Processing (Almost) from Scratch(第 6 回 Deep Learning 勉強会資料; 榊)
by
Ohsawa Goodfellow
大規模データに基づく自然言語処理
by
JunSuzuki21
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」
by
Hitomi Yanaka
Deep Learningと自然言語処理
by
Preferred Networks
東京大学2021年度深層学習(Deep learning基礎講座2021) 第8回「深層学習と自然言語処理」
by
Hitomi Yanaka
子どもの言語獲得のモデル化とNN Language ModelsNN
by
Chiba Institute of Technology
Non-autoregressive text generation
by
nlab_utokyo
最先端NLP勉強会2017_ACL17
by
Masayoshi Kondo
ニューラルネットワークを用いた自然言語処理
by
Sho Takase
東京大学2020年度深層学習(Deep learning基礎講座) 第9回「深層学習と自然言語処理」(一部文字が欠けてます)
by
Hitomi Yanaka
Interop2017
by
tak9029
Extract and edit
by
禎晃 山崎
STAIR Lab Seminar 202105
by
Sho Takase
自然言語処理分野の最前線(ステアラボ人工知能シンポジウム2017)
by
STAIR Lab, Chiba Institute of Technology
Japan.r ver1.1 20171202_ota
by
博三 太田
最近の自然言語処理
by
naoto moriyama
More from 博三 太田
PDF
2021年度 人工知能学会全国大会 第35回
by
博三 太田
PDF
Lt syumai moku_mokukai_20200613
by
博三 太田
PDF
認知バイアスを考慮した売上のシミュレーション コンタクトセンターでの事例を通じて
by
博三 太田
PDF
「Fooocus(Stable DiffusionXL)で アニメ画像生成の仕方」
by
博三 太田
PDF
本当に言いたい事をくみ取って応答する対話システムの構築に向けて- 昨年(2019年度)の取り組み -
by
博三 太田
PDF
Online python data_analysis19th_20200516
by
博三 太田
PDF
Python nlp handson_20220225_v5
by
博三 太田
PDF
LanguChain_summarization_LT_20230415.pdf
by
博三 太田
PDF
LT_hannari python45th_20220121_2355
by
博三 太田
PDF
slide_LT_Chatgpt部_太田_20231118.pdf
by
博三 太田
PDF
Seattle consultion 20200822
by
博三 太田
PDF
Logics 18th ota_20211201
by
博三 太田
PDF
LT_Visual_Entailment_GPT-4V_20231021.pdf
by
博三 太田
PDF
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
by
博三 太田
PDF
Jsai2021 winter ppt_ota_20211127
by
博三 太田
PDF
Syumai lt_mokumoku__20200807_ota
by
博三 太田
PDF
image_video_instagram_202212.pdf
by
博三 太田
PDF
EC_attribute_exstraction_20221122.pdf
by
博三 太田
PDF
EC_attribute_exstraction_20221122.pdf
by
博三 太田
PDF
EC_intro_ota_202212.pdf
by
博三 太田
2021年度 人工知能学会全国大会 第35回
by
博三 太田
Lt syumai moku_mokukai_20200613
by
博三 太田
認知バイアスを考慮した売上のシミュレーション コンタクトセンターでの事例を通じて
by
博三 太田
「Fooocus(Stable DiffusionXL)で アニメ画像生成の仕方」
by
博三 太田
本当に言いたい事をくみ取って応答する対話システムの構築に向けて- 昨年(2019年度)の取り組み -
by
博三 太田
Online python data_analysis19th_20200516
by
博三 太田
Python nlp handson_20220225_v5
by
博三 太田
LanguChain_summarization_LT_20230415.pdf
by
博三 太田
LT_hannari python45th_20220121_2355
by
博三 太田
slide_LT_Chatgpt部_太田_20231118.pdf
by
博三 太田
Seattle consultion 20200822
by
博三 太田
Logics 18th ota_20211201
by
博三 太田
LT_Visual_Entailment_GPT-4V_20231021.pdf
by
博三 太田
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
by
博三 太田
Jsai2021 winter ppt_ota_20211127
by
博三 太田
Syumai lt_mokumoku__20200807_ota
by
博三 太田
image_video_instagram_202212.pdf
by
博三 太田
EC_attribute_exstraction_20221122.pdf
by
博三 太田
EC_attribute_exstraction_20221122.pdf
by
博三 太田
EC_intro_ota_202212.pdf
by
博三 太田
Pycon jp2017 20170908_ota
1.
Pythonによる文章自動生成入門! Python×自然言語処理×ディープラーニング The Automatic Text
Generation by using NLP & DL with Python Pycon JP 2017 in TOKYO 2017年9月8日(金)02:40PM-03:10PM 太田 博三
2.
1. はじめに 1.1. 自然言語処理の研究区分 1.2.
文章自動生成のタスク設定 1.3. 文章自動生成の注目度 3
3.
1.1. 自然言語処理の研究区分 (入力) (出力) テキスト
----------解析系--------à 情報 情報 ----------生成系--------à テキスト 図1.1 解析系と生成系 ・解析系の研究とは,Amazonのレビューなどのポジ・ネガ判別 ・生成系の研究とは,逆で入力はポジティブなどと判別された情報とは限らない. 出力はテキストである. ・変換系の研究とは,機械翻訳など⼊⼒と出⼒が対価である場合. 4
4.
1.2.文章自動生成のタスク設定 ⽂章⾃動⽣成のアプリ開発をしたいと考え,主な仕様を下記の2 点とした. 1. 剽窃になってはいけないこと,そのまま過去の⽂章の引⽤と ならないこと. 2. 独⾃性があること 3.
300−500⽂字の⾃然な⽂章であること. <懸念点として考えられたこと> • 過去の⽂集合をもとに作られるため,オリジナリティがないと 本末転倒になりかねない. 5
5.
1.2.文章自動生成のタスク設定 今回のタスクの ゴール: クライアントに、 こういうテキスト 文を挿入してほし い!という文を自 動生成することで した。 =業務効率化 6
6.
1.3 文章自動生成の注目度(その1) • 文章自動生成のコンテストなど欧米で盛んである. E2E
NLG Challenge http://www.macs.hw.ac.uk/InteractionLab/E2E/ も開催されており,世界的に盛んである. cf. 文書自動要約(Text Summarization)も10年以上前から盛んに 行なわれている. 7
7.
1.3.文章自動生成の注目度(その2) • WEB上のコンテンツは「研究のためなら」引用先を明記すれ ば用いて良いとされている. • 昨今のニューラルネットワークの発展においても,ゴッホ風 の画像やモーツァルト風の音楽まで出ており,著作権に関す る議論はあまり出ていない. cf. 東京五輪のエンブレムは主観で真似たと判断されている 事例がある. →定量化できないものか? →評価基準の設定の問題 →オリジナルであることの難しさ 8
8.
2. 本研究で用いた手法 2.1 各⼿法についての概観 2.2
マルコフ連鎖による⽂⽣成 2.3 ⾃動要約による⽂⽣成 2.4 リカレントニューラルネットワーク(RNN)/ LSTM/GANによる⽂⽣成 9
9.
2.1 各手法についての概観 • 文章自動生成を大きな枠で捉えるならば, 次の3つの手法に集約できると思われる. 1. マルコフ連鎖による文生成 2. 自動要約による文生成 3. リカレントニューラルネットワーク/ LSTMによる文生成 ※この他にも制御文による フレームワークを用いた文章自動 生成などもある. 10
10.
2.2 マルコフ連鎖による文生成 • マルコフ性(Markov property)とは、次の状態が過去の状 態に依存せず現在の状態のみによって決まる性質のことであ る. •
詳しくはこちらをご参照ください! マルコフモデル ~概要から原理まで~ (前編) http://postd.cc/from-what-is-a-markov-model-to-here-is- how-markov-models-work-1/ 11
11.
2.3 自動要約による文生成 • ⾃動要約の古典的なH.
P. Luhn(1958)が⾃動要約の⽅向性を決めたと ⾔われている. ↓ • テキスト中の重要な⽂を抜き出し,それを出現順に並べることによっ て,そのテキストを読むべきか否かを判定するといったスクリーニン グのための要約が⾃動⽣成できることを⽰したから. • つまり,⾃動抄録に似ており,「理解し,再構成し,⽂章⽣成」とい うのではなく、「理解する箇所が重要部に近似する」と割り切って考 えたものである. • 重要語の決定には,単語頻度を⽤いるなど,現在の⾃動要約の流れは, Luhnの影響が少なくない! 12
12.
2.4 リカレントニューラルネットワーク (RNN)/LSTM/GANによる文生成 • Andrej
Karpathyのchar-rnnによるtiny shakespeare[7]が 有名. • 今までの単語列として,もっともらしい次の単語を予測す ることをLong short term memory(LSTM)が担うもの. • Recurrent Neural Network(RNN)の拡張として,1995年 に登場した時系列データに対するモデルまたは構造の⼀種 である. • しかしLSTMでも,Epochが100を超えないとまともな⽂ 章になっていなかったり,GPUが必要になるなど,莫⼤な 学習データと時間を要する. • そこで,GANなど教師なしの⽣成モデルに着⽬した. 13
13.
3. 実験結果([7]) 3.1 各⼿法の実験概要 ・
約3ヶ⽉間 3.2 各⼿法と好ましいと 思われるデータ量 (⽂字数) 14
14.
3.1 各手法の実験概要 • 実験に⽤いたデータの概要: 15
15.
3.2 各手法と好ましいと思われるデータ量(文字数) • データ量の観点から,得られた実験結果([7]) •
各⼿法と好ましいと思われる⽂字数(参考程度) 1) マルコフ連鎖による文章の自動生成:100−200字程度の文書 2) keras(RNN/ LSTM)による文章の自動生成:5000文字以上の文書 3) Luhn による文章要約:1000字以上 4) LexRank/ TextRank による文章要約:300−400文字以上 5) tensorflow/ seq2seqによる文章自動要約:100000文字以上 16
16.
4. 実験結果([8]) 4.1 実験で⽤いた各⼿法の⻑所・短所 4.2実験で⽤いた⽂章と評価結果(その1) 4.2.1
マルコフ連鎖による2つの⽂章の評価 4.2.2 マルコフ連鎖による⽣成された⽂章例(2つ) 4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 4.3 実験で⽤いた⽂章と⼿法と評価結果(その2) 4.4 ⽂章の⾔い換えと類似度の検討 4.4.1 本節で⽤いた例⽂ 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え回数について 4.4.3 考察結果 17
17.
4.1 実験で用いた各手法の長所・短所 • [実験:
2パターンでの検証結果] 1.(元データ) 4.2.1 マルコフ連鎖による2つの⽂章の評価 ・元の⽂章のままではない点が評価できる. ・元の⽂章が⻑い⽂章であれば,⽂と⽂のつながりはよくはないが 悪くもない. ・内包表記などで⼯夫できれば簡易的で良い. 18 B L . K : : 3::7 / 034 19 5/2 065
18.
4.2.2 マルコフ連鎖による生成された文章例(2つ) 19 4.2.2.1 マルコフ連鎖による⽣成された⽂章例 その1 化粧⽔などで泡⽴ててくださいね。そのまま化粧⽔を 防腐剤、安定剤や酸化亜鉛などの影響で、かさつかず しっとりとしました。ドクターズオーガニックの無添 加化粧品の材料とコールドプロセス法によって製造す ることがわかります(新陳代謝が正常に導きます。ま たお⼿元に届くよう、⼀刻も早い安全性と、とても良 い下地クリームにした作りになっていますが、抗菌仕 様製品では次のような選び⽅が推奨されています。毎 ⽇⾝体を動かすことで、⾃分達の基礎化粧品の中⾝を 確かめてくださいね。無添加⽯鹸で…。油分を⼗分に 補って、盲信は禁物です。ナイロンタオルやボディケ ア⽤品の基材としてよく使われています。という具合 に⾃分の肌トラブルを起こさない、これは現実的に引 き締まった感じがするかもしれませんよね?乾燥が気 になることもあります。刺激感などの添加があります。 (361⽂字) 4.2.2.2
マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの⼤きさを保ち、かさかさ、ボロ ボロに。⼀体何が無添加⽯鹸を泡⽴て、泡の保持のた め、ニキビ肌、敏感にしましょう。「今⽇はとても不 ⾃然だと悪化します。また、脂肪を燃焼させ除去する ことフットクリームの全成分しかし、同時に流れは細 胞から⼆酸化炭素や⽼廃物を回収してください。シア バター 1,800円(約70g)ご購⼊はこちらから」 フットクリームの全成分漢⽅薬としては、洗浄感の良 いハンドクリームには⽪膚がんの原因は消毒も殺菌し て作られますが、散乱剤②の2種類がありませんが、 すでにたくさんの化粧⽔と、やわらかくて、たっぷり のお湯でお肌は、天然の成分かつて健康法として推奨 された安全性はまだまだ不確かです。でも、必ずしも ⽯鹸が必要なわけでも、瞬間湯沸かし器などで泡⽴て てください。乾燥肌対策のため植物性油脂であっても、 きれいな⽔だけで数百種類以上の化学成分を毎⽇肌に のせたりすることが⼤事です。原料への安全性はあり ません。この後、あるいはお⾵呂で体を温める効果の ある⼈々(活字関係)からは常温で固体のためのスキ ンケア (455⽂字)
19.
4.2.2 マルコフ連鎖による生成された文章例(2つ) 20 4.2.2.1 マルコフ連鎖による⽣成された⽂章例その1 化粧水などで泡立ててくださいね。そのまま化粧水を防腐剤、安定剤や酸化亜 鉛などの影響で、かさつかずしっとりとしました。ドクターズオーガニックの 無添加化粧品の材料とコールドプロセス法によって製造することがわかります (新陳代謝が正常に導きます。またお手元に届くよう、一刻も早い安全性と、 とても良い下地クリームにした作りになっていますが、抗菌仕様製品では次の ような選び方が推奨されています。毎日身体を動かすことで、自分達の基礎化 粧品の中身を確かめてくださいね。無添加石鹸で…。油分を十分に補って、盲 信は禁物です。ナイロンタオルやボディケア用品の基材としてよく使われてい ます。という具合に自分の肌トラブルを起こさない、これは現実的に引き締 まった感じがするかもしれませんよね?乾燥が気になることもあります。刺激 感などの添加があります。(361文字)
20.
4.2.2 マルコフ連鎖による生成された文章例(2つ) 21 4.2.2.2 マルコフ連鎖による⽣成された⽂章例その2 例えばクモノスカビの大きさを保ち、かさかさ、ボロボロに。一体何が無添 加石鹸を泡立て、泡の保持のため、ニキビ肌、敏感にしましょう。「今日は とても不自然だと悪化します。また、脂肪を燃焼させ除去することフットク リームの全成分しかし、同時に流れは細胞から二酸化炭素や老廃物を回収し てください。シアバター
1,800円(約70g)ご購入はこちらから」フットク リームの全成分漢方薬としては、洗浄感の良いハンドクリームには皮膚がん の原因は消毒も殺菌して作られますが、散乱剤②の2種類がありませんが、す でにたくさんの化粧水と、やわらかくて、たっぷりのお湯でお肌は、天然の 成分かつて健康法として推奨された安全性はまだまだ不確かです。でも、必 ずしも石鹸が必要なわけでも、瞬間湯沸かし器などで泡立ててください。乾 燥肌対策のため植物性油脂であっても、きれいな水だけで数百種類以上の化 学成分を毎日肌にのせたりすることが大事です。原料への安全性はありませ ん。この後、あるいはお風呂で体を温める効果のある人々(活字関係)から は常温で固体のためのスキンケア (455文字)
21.
4.3 実験で用いた文章と手法と評価結果(その2) • 以下の⽂章が⾃然であるかに留意し,5段階評価を⾏った. ※評価尺度は次の通りです. (⾃然な⽇本語)
5 ‒ 4 ‒ 3 ‒ 2 - 1 (機械的な⽇本語) また、気がついた問題や箇所は下線のスペースに記⼊してください。 22 手法は隠し てある
22.
4.3 実験で用いた文章と評価結果(その2) (例⽂) 興味深い話がありますが、続けることがわかってきたという⼈が歩⾏不⾜です から。お酒を飲んでいたら、昔か ら「寝る⼦は育つ」と⾔うのは神様の業と⾔ えるのです。ですから、いつも幼⼦のようにしましょう!考えたりします。やは りちょっと添加物を旬なうちに運動をしてもらったらよいでしょうか?また、 健康診断はしっかり
歩くだけでは、さらに湿疹などになります。よくよく聞い てなるほどなーとも⾔えるのではなく、なぜか⾊々と 語られているのですが、 健康維持やダイエットにつながります。⼿軽に薬ではないでしょうか?⽼化防 ⽌にも沢 ⼭あるのです。ですから、お⽔や空気も⼊ります。もしハリが残って いるとか・・・?さて、今⽇のタイトルは「炭 酸⽔で薄めて飲んだらよいで しょうか?漢⽅の王様と⾔われています。そのくらい⾝体の健康についてです。 (351 ⽂字) 23 手法は隠し てある
23.
4.3 実験で用いた文章と評価結果(その2) ⽂章1(マルコフ連鎖) 2点 (実務者の評価) "1つ1つの⽂としては問題がないレベル。 ただし⽂章のつながり=⽂脈が⽀離滅裂のため、明らかに全体の⽂ 章としては⼈間の⽬から⾒て不⾃然。 例:⼿軽に薬ではないでしょうか?⽼化防⽌にも沢⼭あるのです。 ですから、お⽔や空気も⼊ります。 例えばこの⽂章は前後で繋がりがないようにみえる。ですから、の 後が繋がらないように感じる。" 24
24.
4.3 実験で用いた文章と評価結果(その2) (例⽂) 私の知り合いの⽼⼈ Y
さんは現在90才の元気な男性。Y さんの健康法は毎⽇ 2 時 間くらいは散歩を続ける事だ そうです。それも晴の⽇だけでなく、⾬の⽇も散歩 に⾏かれると⾔うのでびっくり。本⼈いわく「この年で仕事 もないので、私は散 歩する事が仕事と思って毎⽇歩いているので、⾬の⽇でも⾏きます。⾬だから今 ⽇は仕事が 休みとは普通ならないでしょう・・・」との事でした。流⽯に脱帽で す。 実はこんな事があったそうです。お 医者さんから「もう90才になるのだから、 あまり無理して歩かないほうがよいですよ。」と⾔われ、Y さんも 「そうか なー」と思い 1 ヶ⽉近く散歩を⽌めていました。そしたら、バス停から家までの 道のり約5分くらいの 緩やかな坂道が、途中に⼀度休まないと息が切れて歩けな くなったそうです。それで「これではまずい!」と思 って、また歩き始めて3週間 くらい歩き続けたら元に戻ったそうです。歩く事は健康の基本です。半⾝の静脈 の 流れを良くし、⾝体の基礎筋⾁を維持し、⼼肺機能を維持する事ができるので す。また、腰痛の70%はしっか り歩くだけでも改善されています。現代は飽⾷に よる肝脂肪が増えています。私も最近は運動不⾜なので、昨年 の10⽉からは⼦供 と毎⽉1回は⼭登りをするようにしています。皆さんも運動不⾜と思われる⽅は是 ⾮散歩を お勧め致します。毎⽇1時間は歩いてほしいですね (572⽂字) 25 手法は隠し てある
25.
4.3 実験で用いた文章と評価結果(その2) ⽂章2(⾃動要約) 5点(満点) (実務者の評価) 語句の使い⽅や⽂章としてきわめて⾃然であり、前後の⽂脈もつな がっている。この精度で⽂章⽣成であれば⼆重丸。 26
26.
4.4 文章の言い換えと類似度の検討 • ⽂章⾃動⽣成は⼀⽂が⾃然な⽂章で⽂と⽂との間のつながりも⾃然 であること,これに加えて,盗作とならないことを考えた場合,元 の⽂章と新たに⽣成された⽂章との⾮類似度が⾼いことが求められ る. •
そこでn-gram(n = 1, 2, 3, 4, 5)で類似度を求め,もう⼀⽅で係り 受け解析を⾏い複雑すぎる⽂になっていないかを考察してみた. • Googleは5-gramを⽤いているとの⾒解もあり,5-gramまでとした (⽂献[10]より). 27
27.
4.4.1 本節で用いた例文 • 本節で⽤いた例⽂とそれを⾔い換えた⽂章、さらにもう⼀度⾔い換 えた⽂章を次に⽰す. •
また⾔い換えは主に3種類⾏った. 1)名詞,形容詞,動詞,格助詞 2)能動態⇄受動態, 3)2つ以上の単語を1つの単語にまとめること 28
28.
4.4.1 本節で用いた例文 • a
(元の⽂章・⾔い換え前)456⽂字 • b(⼀回⽬の⾔い換え後 448⽂字) • c(2回⽬の⾔い換え後 405⽂字) 4.4.2 n-gram(n = 1-5)での定量化と⾔い換え 回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 aからbへの⾔い換え総数: 56回 bからcへの⾔い換え総数: 38回 29 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.317 5-gram: 0.207
29.
4.4.1 本節で用いた例文 a (元の⽂章・⾔い換え前)456⽂字 横浜市の求⼈事情を知ろう。都⼼に近いベッドタウンと商業エリアが広がる 横浜市。神奈川県の県庁所在地でもあり、県内で最⼤の都市として知られて いるのが横浜市です。⾏政と経済の中⼼は、横浜市中区や⻄区に集まってい ます。⾺⾞道や⼭下公園、横浜中華街などもこの辺りにあるため、観光地と しても有名です。横浜港に⾯してホテルや商業施設、オフィスが建ち並ぶ横 浜みなとみらい21も、このエリアに含まれます。横浜市は⿊船来航といった 歴史的な背景もあり、洋⾵な建造物やインターナショナルスクール、外国⼈ を多くみかけるでしょう。横浜駅を中⼼に広がる繁華街や観光地では、飲⾷ 店やさまざまなショップが集まっています。私鉄や地下鉄が多数乗り⼊れて いることから、エリアによってはアクセスが便利で、都内のベッドタウンと しても⼈気です。横浜市には、⼤学のキャンパスも多いことから、学校の近 くや通いやすい場所でさまざまなアルバイトを探すことができるでしょう。 未経験から始められる職種、スキルが⾝に付くものなど、⾃分にあったバイ トを⾒つけることが可能です。 30
30.
4.4.1 本節で用いた例文 b(⼀回⽬の⾔い換え後 448⽂字) 横浜市の求職実態を把握しよう。都会に隣接した⼤型住宅地とお店が並ぶ地 域の横浜市。神奈川県の中⼼でもあり、県内で⼀番の都市として伝えられて いるのが横浜市です。政治と経済の中⼼部は、横浜市中区や⻄区に集約され ています。⾺⾞道や⼭下公園、横浜中華街なども近くに存在するため、観光 地として知られています。横浜港に⾯してホテルや経済施設、商業施設が建 ち並ぶ横浜みなとみらい21も、この地域に含まれます。横浜市は⿊船来航と いった伝統的な事実もあり、⻄洋の建造や帰国⼦⼥の学校、海外旅⾏客を多 くみるでしょう。横浜駅を軸に広がるダウンタウンや観光地では、レストラ ンやさまざまなお店が並んでいます。私鉄や都営地下鉄が多くあることから、 地域によっては移動が楽で、都⼼の⼤型住宅地としても有名です。横浜市に は、カレッジの施設も多いことから、⼤学の近郊や通学しやすい点で多くの アルバイトを⾒つけることが可能でしょう。経験のない⼈から始められる職 業、技術が習得できるものなど、⾃分に適したアルバイトを⾒つけることが できます。 31
31.
4.4.1 本節で用いた例文 c(2回⽬の⾔い換え後 405⽂字) 横浜市で求職実態を把握しよう。都会の隣接した⼤型住宅地とお店の並 ぶ地域の横浜市。神奈川県が中⼼でもあり、県内の⼀番の都市として伝 えられているのは横浜市です。政治や経済の中⼼部が、横浜市中区と⻄ 区へ集約できます。⾺⾞道と⼭下公園、横浜中華街などが近くへ存在す ることで、観光地として知られています。横浜港に⾯してホテルと経済 施設、商業施設の横浜みなとみらい21が、この地域に含んでいます。横 浜市の⿊船来航といった伝統的な事実があり、⻄洋の建造と海外旅⾏客 が多くみられるでしょう。横浜駅に広がる⾏楽地で、⾷堂と多くの ショップがあります。鉄道がたくさんあることから、場所によって、移 動が容易で、都⼼のベットタウンとして⼈気があります。横浜市では、 ⼤学の施設も多く、⼤学周辺や通学⾯でたくさんのアルバイトが⾒つか るでしょう。未経験から始められるジョブやスキルがマスターできるも のを、⾃分に合ったアルバイトを⾒つけられます。 32
32.
4.4.2 n-gram(n =
1-5)での定量化と言い換え回数について 以下のように定義した. a: 元の⽂章, b: aを⾔い換えた⽂章, c: bを⾔い換えた⽂章 ・aからbへの⾔い換え総数: 56回 ・bからcへの⾔い換え総数: 38回 33 aとcの類似度の⽐較 2-gram: 1.151 3-gram: 0.582 4-gram: 0.506 5-gram: 0.388 ・bとcの類似度の⽐較 2-gram: 1.386 3-gram: 0.798 4-gram: 0.3171 5-gram: 0.2075
33.
4.4.3 考察結果 ・3-gram, 4-gram,
5-gramと⾔い換え回数と類似性との関係は負の関係 にあり, ・nが5に近づくほど、⾔い換え回数が⼤きく増⼤する. 34
34.
• ⽂と⽂のつながりについては,⾃動要約との関連や⽂と⽂とのつなが りをentity-grid model[11]を⽤いて局所的なつながりの良さを表現す るなどの談話構造解析[9][10]がある. •
しかし,⼿動で⾏う判断を⾃動化することが可能か試⾏錯誤中である. • Sentence orderingなどからヒントを得たいと考えている. • またディープラーニングを⽤いた⽅策としては,敵対的⽣成ネット ワーク(Generative Adversarial Network: GAN)による精度向上も精度 向上が期待され,実験中である. • 従って,今のところは完全⾃動化ではなく,⼈⼿を含めざる負えなく, 主に制御⽂による⽂章⾃動⽣成が無難と思われる. 35 5.まとめ
35.
5. 今後の予定 • ⽂と⽂のつながりについては,次の⼿法で解決の⽷⼝を⾒出 すべく,取り組み中である. •
次回,次の項⽬を中⼼に報告させて頂きたいと考えておりま す. • [理論⾯: 論⽂サーベイ]Sentence Ordering, Coherence • [⼿法⾯: ⽂脈解析] Entity-grid model※1 • [⼿法⾯: 深層学習] GAN(⽣成系モデル) ※1 現在、⾃動要約との関連や⽂と⽂とのつながりをentity-gridを⽤いて局所的なつ ながりの良さを表現するなどの談話構造解析があるが発展段階である. 36
36.
ご清聴、どうもありがとうございました. 翻訳しました! 10/1発売(概要)Juliaデータサイエンス 〜Juliaを使って⾃分でゼロか ら作るデータサイエンス世界の探索〜 http://www.nts- book.co.jp/item/detail/summary/it/20171001_35.html 37
37.
ご清聴、どうもありがとうございました. 詳細は下記のURLにアクセスしてください! https://www.slideshare.net/secret/etCvel5EtrAjfr 38
Download