Reserch introduction

•

0 likes•475 views

Eriko Nomoto

進捗報告用に作ったスライドです。口頭の説明が多いのでnoteを見ながら閲覧することをお勧めします。

Science

Featured

AI Trends in Creative Operations 2024 by Artwork Flow.pdfmarketingartwork

Skeleton Culture CodeSkeleton Technologies

PEPSICO Presentation to CAGNY Conference Feb 2024Neil Kimberley

Content Methodology: A Best Practices Report (Webinar)contently

How to Prepare For a Successful Job Search for 2024Albert Qian

Social Media Marketing Trends 2024 // The Global Indie InsightsKurio // The Social Media Age(ncy)

Trends In Paid Search: Navigating The Digital Landscape In 2024Search Engine Journal

5 Public speaking tips from TED - Visualized summarySpeakerHub

ChatGPT and the Future of Work - Clark Boyd Clark Boyd

Getting into the tech field. what next Tessa Mero

Google's Just Not That Into You: Understanding Core Updates & Search IntentLily Ray

How to have difficult conversations Rajiv Jayarajah, MAppComm, ACC

Introduction to Data ScienceChristy Abraham Joy

Time Management & Productivity - Best PracticesVit Horky

The six step guide to practical project managementMindGenius

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...RachelPearson36

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...Applitools

12 Ways to Increase Your Influence at WorkGetSmarter

ChatGPT webinar slidesAlireza Esmikhani

More than Just Lines on a Map: Best Practices for U.S Bike RoutesProject for Public Spaces & National Center for Biking and Walking

Featured (20)

AI Trends in Creative Operations 2024 by Artwork Flow.pdf

Skeleton Culture Code

PEPSICO Presentation to CAGNY Conference Feb 2024

Content Methodology: A Best Practices Report (Webinar)

How to Prepare For a Successful Job Search for 2024

Social Media Marketing Trends 2024 // The Global Indie Insights

Trends In Paid Search: Navigating The Digital Landscape In 2024

5 Public speaking tips from TED - Visualized summary

ChatGPT and the Future of Work - Clark Boyd

Getting into the tech field. what next

Google's Just Not That Into You: Understanding Core Updates & Search Intent

How to have difficult conversations

Introduction to Data Science

Time Management & Productivity - Best Practices

The six step guide to practical project management

Beginners Guide to TikTok for Search - Rachel Pearson - We are Tilt __ Bright...

Unlocking the Power of ChatGPT and AI in Testing - A Real-World Look, present...

12 Ways to Increase Your Influence at Work

ChatGPT webinar slides

More than Just Lines on a Map: Best Practices for U.S Bike Routes

Editor's Notes

てことで、進捗報告をさせて頂きます。
私の研究の最終目標は文から画像を生成することです。例えばこのような文が入力された場合… このような画像が生成できると嬉しいです。ではまず、生成するとはどういうことでしょうか？
生成することの要点は次の二つです。一つには、訓練データに似たものを生成することそしてもう一つには、訓練データそのものを生成しないことでは、どうやってこれを機械学習の枠組みで実現しましょう？
それを解決するのが、GANという枠組みです。偽造紙幣を作る人たちと、それを取り締まる警察を考えてみましょう。最初、警察は偽造紙幣を見抜けません。
しかし、そのうち警察もこれを見抜く知恵をつけます。警察に偽造紙幣が見抜かれると今度は偽造紙幣やさんがもっと精巧な偽造紙幣を作り出します。
すると警察はまた偽造紙幣が見抜けなくなります。このように、偽造紙幣やさんと警察はいたちごっこで互いに賢くなって、偽造紙幣はより本物の紙幣に似ていきます。
しかし例えば、すべての偽造紙幣が偽物と見破られてしまうと、偽造紙幣やさんはもっと精巧な紙幣を作ることが難しくなります。どこを改善するべきかが偽造紙幣やさんにはわからないからです
しかし例えば、すべての偽造紙幣が偽物と見破られてしまうと、偽造紙幣やさんはもっと精巧な紙幣を作ることができなくなります。どこを改善するべきかが偽造紙幣やさんにはわからないからです
しかし例えば、すべての偽造紙幣が偽物と見破られてしまうと、偽造紙幣やさんはもっと精巧な紙幣を作ることが難しくなります。どこを改善するべきかが偽造紙幣やさんにはわからないからです
逆に警察が一つも見抜けなくなると、偽造紙幣やさんはそれ以上精巧な偽造紙幣を作らなくなります。
逆に警察が一つも見抜けなくなると、偽造紙幣やさんはそれ以上精巧な偽造紙幣を作らなくなります。
逆に警察が一つも見抜けなくなると、偽造紙幣やさんはそれ以上精巧な偽造紙幣を作らなくなります。
これと同じように、GAN(Generative Adversarial Networks)は生成器と判別器という2つのモデルを戦わせて学習を進めます。生成器は判別器を騙すことを目標とし、判別器は生成器の出してきたフェイクと、本物の学習データを見分けることを目標とします。
つまりこう。学習の途中でどちらか一方が強くなりすぎると、先ほどの偽造紙幣やさんと警察のように学習が進まなくなるので、GANの学習には工夫が必要です。
これはGANによって生成された画像です。黄色枠は隣の生成画像に最も似ている訓練画像です。これにより、モデルが訓練データそのものを覚えているわけではないことが証明できます。上二つと下二つを見比べてわかるように、モノクロの画像はうまくできているのに対しカラー画像はうまく生成できていません。カラー画像の方が高次元で、より難しいタスクだからです。これが次の課題になります。あとで調べなおすかも… Gへの入力はノイズベクトル。 generator: 多層パーセプトロン, 線形整流活性化関数(?)とシグモイド活性化関数 discriminator: 多層パーセプトロン, マックスアウト活性化関数, ドロップアウト (カラーのGはCNNも使用)
GANでは、カラー画像のような高次元のデータの学習が難しく、生成がうまくいきませんでした。なんらかの工夫が必要です。これを解決したのが、
DCGANになります。DCGANは、GANの枠組みに深い畳み込みニューラルネットワークを適用しています。DCGANの生成画像を見ると、格段に綺麗なカラー画像が生成できていることがわかります。
ここまで、画像生成について見てきましたが、実はまだ文を入力とすることに言及していません。実は、GANへの入力はランダムなベクトルであり、どのようなベクトルがどのような画像を出力するべきか、こちらから指定することはありませんでした。もし特定の画像を出力したければ、訓練済みのGANの生成した画像からそのような画像を探し、その時の入力だったベクトルを見つけるしかないのです。したがって3つ目の課題は文を入力にすることです。
DCGANの入力を文から生成されたベクトルに変えて、訓練した研究がありました。ここでは、入力文を訓練済みのテキストエンコーダを使ってベクトル化し、全結合NNによって圧縮したものを生成器と判別器への入力に組み込んでいます。
生成画像です。それなりにうまく生成できており、文の特徴もしっかりと反映されています。
こちらは鳥よりも難しい、スポーツを生成しようとしたものです。文の特徴は捉えられていますが、人の形などの詳細がはっきりしていません。文にどれだけセンシティブかしらべたい(個数が反映されるか、能動者と受動者の入れ替え)
DCGANを進化させたのがStackGANになります。これは、文を入力とするDCGANを2つ積み重ねています。ステージ１は画像全体の構成を大まかに捉え、ステージ２で細部を修正します。
StackGANの構成です。<ページ送り> ステージ１はほぼDCGANと一緒です。ステージ２の入力は、文とステージ１で生成した画像になります。
StackGANの構成です。<ページ送り> ステージ１はほぼDCGANと一緒です。ステージ２の入力は、文とステージ１で生成した画像になります。
生成画像です。stage-Iでは綺麗な画像とは言えませんが文の特徴はしっかりと捉えられており、ステージ２が画像の不備を修正していることがわかります。
StackGANでほぼ完璧な画像が生成できるようになりました。しかし、StackGANが成功しているのは単一の物体がターゲットの時だけです。スポーツ風景を生成しようとしたDCGANは失敗しており、StackGANは挑戦もしていません。次なる課題は、複数の物体を含む、スポーツなどの画像を生成することです。
ここから私の提案手法になります。 StackGANで絵を生成する入力文を元に切り出すべき物体を特定して、それらを画像から見つけ出す(物体認識)(crop) 切り出した部分画像をstackGANのstageIIの要領で修正する綺麗にした部分画像を元の画像に当てはめて完成。
提案手法です。 StackGANで絵を生成する入力文を元に切り出すべき物体を特定して、それらを画像から見つけ出す(物体認識) 切り出した部分画像をstackGANのstageIIの要領で修正する綺麗にした部分画像を元の画像に当てはめて完成。
提案手法です。 StackGANで不完全でも絵を生成する入力文を元に切り出すべき物体を特定して、それらを画像から見つけ出す(物体認識) 切り出した部分画像をstackGANのstageIIの要領で修正する綺麗にした部分画像を元の画像に当てはめて完成。
提案手法です。 StackGANで絵を生成する入力文を元に切り出すべき物体を特定して、それらを画像から見つけ出す(物体認識) 切り出した部分画像をstackGANのstageIIの要領で修正する綺麗にした部分画像を元の画像に当てはめて完成。
StackGANに、スキー・スノボ画像を訓練させました。グラフは、その時の生成器と判別器のロスです。 d_lossとg_lossは互いに一定に保たれるのが理想。このグラフを見ると100エポックあたりからd_lossが下がり過ぎている→判別器が強くなりすぎているこうなると学習が進まなくなるため、こうならないような調整が必要調整方法としてはpatch D, use soft and noisy Labels, train D to classify the sampleなどがある。 d_loss = D(fake)と0, D(real)と1のクロスエントロピー誤差(シグモイドクロスエントロピー) g_loss = D(fake)と1のクロスエントロピー誤差(シグモイドクロスエントロピー)
今後は、とりあえず少なくともまともに訓練できるように学習器を調整します。調整方法としてはpatch D, use soft and noisy Labels, train D to classify the sampleなどがある。

Reserch introduction

Recommended

Recommended

More Related Content

Featured

Featured (20)

Editor's Notes