Egyedi termék kreatívok tömeges gyártása generatív AI segítségével

Egyedi termék kreatívok tömeges gyártása
generatív AI segítségével
Hidasi Balázs
Generative AI | TECH MEETUP
2023. november 14.

Hidasi Balázs Czapp Ádám Jani Mátyás
• Ötletgazda
• Projekt vezetés
• Rendszer tervezés
• Kísérletek
• Modellezés
• Modell pipeline
• Kísérletek
• Éles keretrendszer tervezés
• Szolgáltatás implementáció
• Monitoring / üzemeltetés

Kéne egy jó kreatív
• Kreatív minősége korrelál a kattintási
valószínűséggel
▪ Hirdetési szegmensenként változó, hogy
mi a jó
▪ Közös jellemző: jól kinéző kép
• Több ember munkájának eredménye
▪ Tervezés
▪ Fotózás / megfelelő stock fotó keresés
▪ Grafikus alkalmazása
forrás: https://trends.Taboola.com/images?imageCategory=business

Kéne tízezer jó kreatív – az e-commerce use-case
• Termék szintű ajánlás
▪ Kereskedőként néhány ezertől akár milliós nagyságrendű különböző termék
• Kreatív minden termékhez 5-10 oldalaránnyal
▪ Drága
▪ Sok idő
• Változó termékkatalógus
▪ Folyamatosan szükség van új kreatívokra
• Egyszerű megoldás: kreatív = termékkép
▪ Egyszerű képek (pl. fehér háttér előtt)
?

Háttér generálás
1. Termék / háttér szeparálása
▪ Általában egyszerű fehér háttér, de más esetben is működik
2. Termék pozícionálása, skálázása és képarány beállítása
▪ Termék függő logika alapján
3. Háttér kitöltése (Stable Diffusion, inpainting)
▪ Termék helyére nem rajzolunk
4. Generált kép átméretezése
▪ Hirdetési hely méretéhez

Stable diffusion
• Diffúziós folyamat (diffusion process)
▪ Fehér zaj 𝜖~𝒩 0, 𝐼
▪ Kép zajosítása lépésenként egyre nagyobb mértékben
o 𝑥𝑡 = 1 − 𝛽𝑡𝑥𝑡−1 + 𝛽𝑡𝜖 0 < 𝛽1 < 𝛽2 < ⋯ < 𝛽𝑇
▪ Kép → 𝜖 zaj
• Fordított diffúziós folyamat
• Diffusion model (tanulás)
▪ Denoising autoencoder
o 𝑥𝑡-ből 𝑥𝑡−1 megbecslése (𝜖 becslése ekvivalens)
– 𝛽𝑡 ismert
o Közös denoising autoencoder az összes lépésre
– Lépés sorszáma mint input (positional embedding)
▪ Veszteségfüggvény: négyzetes hiba a becsült és a tényleges zaj között
500. lépés
200. lépés
100. lépés
50. lépés
20. lépés
10. lépés
2. lépés
1. lépés 5. lépés
eredeti

Stable diffusion
• Diffusion model (generálás)
▪ Betanult modell képes a tanító halmaz eloszlásából mintát generálni
▪ Zajból kiindulva denoising lépések sorozata
• Latent diffusion model
▪ A kép (pixel) tér helyett a diffusion modell egy alacsonyabb dimenziószámú látens térben működik
o Tömörítés: kép → látens kép → kép
o Emberi szem által nem érzékelhető részletek vesznek el
▪ Látens tér tanulása: autoencoder
o Előtanítás
– Együttes tanítás nem stabil
𝑥
෤
𝑥
pixel tér
látens tér
Diffúziós folyamat
Denoising U-Net
𝑧𝑇−1
𝑧 𝑧𝑇
𝑧
kondícionálás
ℰ
𝒟
*(T-1)
𝑧𝑇
𝑄
𝐾𝑉
𝑄
𝐾𝑉
𝑄
𝐾𝑉
𝑄
𝐾𝑉
𝜏𝜃

Stable diffusion
• Feltételes generálás (pl. text-to-image)
▪ Denoising háló: 𝑥𝑡, 𝑡 → 𝑥𝑡−1 ⇔ 𝑥𝑡, 𝑡 → 𝜖 ⇔ 𝑥𝑡, 𝑡 → ∇𝑥𝑡
log 𝑝 𝑥𝑡 (score)
o Intuitívan:
– hogyan kell módosítanom a zajos adaton, hogy növeljem a log likelihood-ot = távolítsam el a zajt = zaj irányával ellentétesen
o 𝑥𝑡 = 1 − 𝛽𝑡𝑥𝑡−1 + 𝛽𝑡𝜖 = ത
𝛼𝑡𝑥0 + 1 − ത
𝛼𝑡𝜖, ahol ത
𝛼𝑡 = ς𝑖=1
𝑡
1 − 𝛽𝑡
o 𝑥𝑡~𝒩 ത
𝛼𝑡𝑥0, 1 − ത
𝛼𝑡 𝐼
o ∇𝑥𝑡
log 𝑝 𝑥𝑡 = 𝔼𝑝 𝑥0
∇𝑥𝑡
𝑝 𝑥𝑡 𝑥0 = 𝔼𝑝 𝑥0
∇𝑥𝑡
−
𝑥𝑡− ഥ
𝛼𝑡𝑥0
2
2 1−ഥ
𝛼𝑡
= 𝔼𝑝(𝑥0) −
𝑥𝑡− ഥ
𝛼𝑡𝑥0
1−ഥ
𝛼𝑡
2 = 𝔼𝑝(𝑥0) −
𝜖
1−ഥ
𝛼𝑡
= −
𝜖
1−ഥ
𝛼𝑡
▪ Classifier guidance
o Predikciós időben kondicionálható a kimenet
– ∇𝑥 log 𝑝𝛾 𝑥 𝑦 = ∇𝑥 log 𝑝 𝑥 + 𝛾∇𝑥 log 𝑝 𝑦 𝑥
– Külön tanított osztályozó log 𝑝 𝑦 𝑥 modellezésére
▪ Tanítás során (kép, szöveg) párok
o Prompt dropout: az esetek egy részében a kondicionáláshoz használt szöveg eltávolítása
▪ Betanult modell megtanulja a feltételes és a feltétel nélküli eloszlás score függvényét is
o ∇𝑥 log 𝑝 𝑥 és ∇𝑥 log 𝑝 𝑥|𝑦
▪ CFG (classifier-free guidance)
o Bayes szabályból:
– 𝑝 𝑦 𝑥 =
𝑝 𝑥 𝑦 𝑝 𝑥
𝑝 𝑦
– log 𝑝 𝑦 𝑥 = log 𝑝 𝑥 𝑦 + log 𝑝 𝑦 − log 𝑝 𝑥
– ∇𝑥 log 𝑝 𝑦 𝑥 = ∇𝑥 log 𝑥 𝑦 − ∇𝑥 log 𝑝 𝑥
o Visszaírva ∇𝑥 log 𝑝𝛾 𝑥 𝑦 képletébe
– ∇𝑥 log 𝑝𝛾 𝑥 𝑦 = 1 − 𝛾 ∇𝑥 log 𝑝 𝑥 + 𝛾∇𝑥 log 𝑝 𝑦 𝑥

Stable diffusion
• Kondícionálás képen (pl. image-to-image, inpainting, stb)
▪ Minden lépésben
o Adott lépés bementi zajos képe (𝑥𝑡) helyett → zajos kép és kondícionáláshoz
használt kép súlyozott összege

Hogyan viselkedik a háttér generálás?
PROMPT: Túracipő
erdei talajon, mohás
kövekkel az előtérben
PROMPT: Papucs
strandon a homokban,
a tengerrel a háttérben

Kép méretének hatása
512x512
elvárt viselkedés
tanítás mérettartománya

256x256 512x512
384x384
absztrakt elvárt viselkedés

256x256 512x512 1024x1024 2048x2048
384x384
absztrakt egyhangú
elvárt viselkedés

• Melyik paraméter a fontos?
▪ Pixelek száma?
▪ Oldalarány?
▪ Kisebb/nagyobb oldal mérete?

▪ Pixelek száma?
▪ Oldalarány?
1024x256

▪ Pixelek száma?
▪ Oldalarány?
1024x256
2048x128

Generálás kiindulási pontja
• Véletlenszerű zaj (alapértelmezett)
▪ Szemcsés kép
• Egyszínű
▪ Elég ennyi variancia?
▪ Milyen színt használjunk?
• Folytonos színátmenet (gradiens)
▪ Folytonos = nem szemcsés kép?
▪ Milyen színeket használjunk?
• Statikus kép
▪ Éles kép = nem szemcsés kép ?
▪ Kell-e, hogy hasonló legyen az elvárt képhez?

Generálás kiindulási pontja – egyszínű

Generálás kiindulási pontja – egyszínű
• Főbb észrevételek
▪ Nem minden színből tud hátteret generálni
o Fekete és fehér nem jó ehhez
o Érdemes olyan színt választani, ahol az R/G/B közül egyik sem 0 vagy 255 közeli
▪ A háttér színe befolyásolja a színvilágot
▪ A színvilághoz igazodás eltérést eredményezhet a promptban kért környezettől
▪ Időnként nem generálja le a kért környezetet
▪ Több elmosódott rész a háttérben
o Nem feltétlenül baj

Generálás kiindulási pontja – gradiens

Generálás kiindulási pontja – gradiens
▪ Háttér színe befolyásolja a színvilágot
▪ Bizonyos kombinációk megnehezítik a termék integrálását a környezetbe
▪ Az elvárt környezethez nem passzoló színek érdekes eredményt hozhatnak
o Pl. realisztikus helyett rajzolt, vagy a prompthoz csak lazán kapcsolódó
▪ A háttér gyakran elmosódott vagy elmosódott elemeket tartalmaz
o Nem feltétlenül baj

Generálás kiindulási pontja – kép

Generálás kiinduló pontja – kép
▪ A modell képes jelentős mértékben eltérni az eredeti háttértől
▪ De az eredeti háttér színvilága befolyásolja a generált kép színvilágát
▪ Élesebb háttér elemek, mint a korábbi módszerekkel
▪ Termék pozícionálása befolyásolhatja, hogy milyen jól lesz integrálva a
generált környezetbe

Artifaktok – feliratok, logók
• Modell tanítóhalmaza az internetről gyűjtött képekből áll
▪ Nagy valószínűséggel kreatívokat is tartalmaz
▪ Ezeken gyakran szerepel felirat (pl. márka, kereskedő, stb.)
• A termékeink hasonlóak a tanítóhalmazban lévő
hirdetések termékihez
▪ Könnyen rákerülhet a generált képre is
• Megoldás: negatív prompt

Artifaktok – termék kiegészítése
• Az inpainting megoldás gyakran hozzárajzol a termékhez
▪ Néha kisebb mértékben: eddigi példák nagy része
▪ Néha könnyen észrevehető módon

▪ Néha egészen extrém módon

▪ Néha egészen extrém módon
Megoldás – Minőségellenőrző modell
• Osztályozó modell
▪ Kézzel gyűjtött jó/rossz példákon
▪ Néhány száz minta mellett is már 85+%-
os pontosság
• Újra generálás, ha rossznak ítéli

Alternatív megközelítés: ControlNet
1. Termék / háttér szeparálása
▪ Általában egyszerű fehér háttér, de más esetben is
működik
2. Termék pozícionálása, skálázása és képarány
beállítása
▪ Termék függő logika alapján
3. Élek detektálás
4. Kép generálás (Stable Diffusion)
▪ Teljes területre rajzolunk
▪ Élek figyelembe vételével (ControlNet)
5. Eredeti termék visszavágása a képre
6. Generált kép átméretezése
▪ Hirdetési hely méretéhez

ControlNet
• További kondicionálás
▪ Pl. élek, mélység, póz, stb
▪ Finomhangolás az új kondíciókat is hozzávéve
• Naív finomhangolás
▪ Elronthatjuk a modellt
o Catastrophical forgetting
• ControlNet
▪ Fixáljuk a súlyokat
▪ Hozzunk létre egy tanítható másolatot
▪ Ezt adjuk hozzá az eredetihez 1D konvolúcióval
o 0-val inicializálva
o Tanítás elején nem kerül káros zaj a rendszerbe
• Az U-net encoder részén ControlNet alkalmazása
forrás: Zhang et. al: Adding Control to Text-to-Image Diffusion Models, https://arxiv.org/pdf/2302.05543.pdf

ControlNet alapú megközelítés
• Termék kiegészítése és feliratok nem jellemzőek
• Termék rossz integrációja a környezetbe ritkább
▪ Pl. lebegő termék
• Gyakrabban fordul elő homályos háttér
▪ Élek megfeleltetése miatt
▪ Modell függő
▪ Prompt függő
▪ Nem feltétlenül gond
o Termék marad a fókuszban

Online A/B teszt
• Kontroll
▪ Nyers termékkép
átméretezve
▪ Termékek
jelentős részéhez
fehér hátterű kép
tartozik
• Fehér
▪ Termék
detektálás
▪ Pozícionálás,
skálázás
• Háttér
▪ Teljes
háttérgenerálás
folyamat

Online A/B teszt
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
40.00%
45.00%
50.00%
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
40.00%
45.00%
50.00%
Relatív CTR növekedés, kumulatív
Háttér Fehér
• CTR:
▪ Háttér: +16.85% ± 2.03%
▪ Fehér: +5.1% ± 1.99%

Online A/B teszt
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
40.00%
45.00%
50.00%
0.00%
5.00%
10.00%
15.00%
20.00%
25.00%
30.00%
35.00%
40.00%
45.00%
50.00%
Relatív CTR növekedés, kumulatív
Háttér Fehér
• CTR:
▪ Háttér: +16.85% ± 2.03%
▪ Fehér: +5.1% ± 1.99%
• Konverzió / 1000 megjelenítés
▪ Háttér: +12.92% ± 8.57%
▪ Fehér: +7.29% ± 8.52%
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
Relatív 1000 megjelenítésre eső konverziószám
növekedés (Háttér/Kontroll), kumulatív
0.00%
10.00%
20.00%
30.00%
40.00%
50.00%
60.00%
70.00%
80.00%
Relatív 1000 megjelenítésre eső konverziószám
növekedés (Fehér/Kontroll), kumulatív

A teljes kép
Objektum
detektálás
Háttér generálás
Kép
Prompt
Masz
kolás
Minőségellenőr
modell
Tömeges generálás
AI modell
Emberi hozzájárulás
Kép
variánsok
Kép
variánsok
Összes
termék
kép
Generált
kreatívok
G
E
N
E
R
Á
L
Á
S
KONTROLL
OPTIMALIZÁLÁS

A teljes kép – személyre szabott kreatívok
• Melyik környezetben néz ki a legjobban a termék? → szubjektív
• Minden felhasználónak azt mutassuk, amire a legnagyobb
valószínűséggel kattint
▪ Témák definiálása termékcsoportokhoz → lefordítás prompt-okra
▪ Statikus felhasználói csoportok helyett jellemzők
▪ Dinamikus optimalizálás (pl. contextual multiarmed bandit)

A teljes kép – hírdetői kontroll
• Minőség felett
▪ Rossz képek letiltása / újra generálása
▪ Minőségellenőrző modell ezeket később figyelembe veszi
• Témák felett
▪ Termékcsoportonként mi legyen a környezet, milyen stílusban
▪ Támogatás a rendszertől: mi teljesít jól
• Részletek felett
▪ Milyen extrák (logó, terméknév, akció, stb) kerüljön a képre
▪ Prompt finomhangolása

Összefoglalás
• Termék szintű banner generálás automatikusan
• Stable diffusion
▪ Érdemes a modell natív pixelszáma körüli képekkel dolgozni
▪ Kondicionáláshoz használt háttérrel jól kontrollálható az eredmény
• Pipelineok
▪ Inpainting
o Élesebb hátterek, de artifaktok előfordulhatnak
▪ ControlNet
o Nincsenek artifaktok, de elmosódottabb a háttér
• Eredmények
▪ Jelentős növekedés a kattintások számában
▪ és konverzió növekedés ennek folyományaként
• A banner generálás csak egy része a teljes megoldásnak

Köszönöm a figyelmet!
Kérdések?

Egyedi termék kreatívok tömeges gyártása generatív AI segítségével

Recommended

Recommended

More Related Content

More from Balázs Hidasi

More from Balázs Hidasi (9)

Egyedi termék kreatívok tömeges gyártása generatív AI segítségével