Rozvoj cloudových technologií a strojového učení v posledních letech umožnil relativně snadné a levné uložení obrovskéh množství dat o návštěvnících webu. To co bylo dříve výsadou pouze vlád a největších koprporací může využívat středně velký eshop. Webová analytika se tak posunula od statistik návštěvnosti k detailnímu pohledu na jednotlivé uživatele. Tato data je možné dále zpracovávat a využívat k personalizaci prakticky veškeré digitální komunikace. V přednášce se podíváme na to co je dnes možné a kam se vývoj ubírá. Lehce se dotkneme i etických otázek, které s tímto oborem souvisí.
[Slajdy k přednášce předmětu Blok expertů.]
2. „Expert“ @JiriStepan
• Od roku 1997 pomáhám firmám uspět na
internetu.
• Nyní vedu datově orientovanou společnost
Etnetera Activate
Jsem:
• datafreek, který na sobě měří co se dá
• nadšenec do cloudů, Rka a dat
• sportovec, propagátor cyklistiky a otec.
3. O čem se dnes budeme bavit
• Jak velká jsou big data a kde se vzala?
• Jak se dá personalizovat online
komunikace
• Trocha etiky kolem, aby to nevypadalo
tak růžově
4.
5. • Big data nejsou jen
data větší než jeden
disk.
• Charakteristika je
složitější.
• Pojďme se podívat do
historie, jak to vlastně
vzniklo …
5 MB disk v roce
1956
11. Kdyby pokrok šel stejně rychle …
• Rodinný dům by byl postaven za 25minut
• Autem na Jadran bychom jeli 50 sekund
• .. a za 0,1cl benzínu
• Rozpočet na energii a topení by byl jednotky
kč / ročně
• Nebo by ..
12. Person-Person distance in 1969
http://www.jstor.org/discover/10.2307/2786545?uid=3739
704&uid=2&uid=4&uid=3739256&sid=21101674727517
14. Takže si to shrneme ….
Někdy kolem roku 2010 klesly náklady na přenos
a uskladnění a zpracování dat prakticky na nulu.
A to umožnilo vznik oboru big data
17. Technologicky to znamená
• Opuštění modelu relačních databází
• Nástup platforem jako hadoop, mongodb, elastics
search, redshift, bigquery, …
• Ty umožňují:
– Škálovat horizontálně na mnoha malých strojích
– Schopnost pracovat se streamem dat
– Nějakou omezenou formu SQL like dotazování
• Daní je velká omezenost typů, operací a vnitřní
konzistence dat
• Zpravidla orientovány na přírůstkové zpracování, nikoliv
mazání a updaty
18. Large data vs. main data
Large data (mainly SQL)
• Jsme schopni predikovat jejich
velikost za pět let
• Známe přesně strukturu a účel
dat
• Po uložení jsou aktualizovány
• Chceme kontrolovat vnitřní
konzistenci dat
• Dopředu víme jak budeme
data používat a známe jejich
účel a hodnotu
Big data (no SQL)
• Nevíme kolik bude dat a to
ani řádově
• Data mají, jeden dva
indexy(klíče) a to je vše
• Po uložení zůstávají
• Data nebudou 100%
konsitentní
• Data ukládáme pro strýčka
příhodu, jejich hodnotu
vnímáme intuitivně
19.
20. Big data „filozoficky“
• Uložení informací je tak levné, že se ukládá
cokoliv a nastálo.
• Ukládá se tedy více informací než dokáže
kdokoliv kdykoliv přečíst.
• Tato data nikdy nikdo neuvidí jako taková.
Projeví se jen jako výstupy vizualizací či
strojového učení
• Ukládají se informace „pro strýčka příhodu“
21. Co to znamená v praxi?
• Každý kdo dnes poskytuje nějakou službu si
ukládá skoro vše o jejím používání.
• Proč? Protože přenos, uložení a zpracování
dat jsou zadarmo
• Každý druhý dokáže tato data dát do kontextu
a využít ke svým záměrům
• Proč jen každý druhý? Protože je (zatím) málo
data vědců
22. To je mimochodem můj tip na doporučení budoucího
povolání. Datových vědců je a bude velký nedostatek.
27. Definice personalizace pro tuto přednášku:
Digitální komunikace, která sdělení
modifikuje dle nějaké znalosti o příjemci.
Jaká komunikace?
Jaké sdělení a jak
jej modifikuje
Jaké znalosti
můžeme mít
28. Ještě jedna definice …
Personalizace je když se
snažíte využít vaše
poznání zákazníka,
abyste mu něco prodali.
Ale paninko na
svíčkovou
potřebujete lepší
maso
Ále dobrý den,
Chutnala ta rybička
manželovi?
Že jste to vy,
dám vám to za
jenom za 50.
Pro vás vašnosti,
bych vybral spíš
tohle. To víte
kvalitka.
29. Pokrok nezastavíš …
Statický obsah
(2005)
Web
Mass email
Banner
Obsah dle
kontextu
(2010)
Dynamický web
Segmentovaný
email, trigger email
PPC reklama
Obsah dle
dlouhodobé
znalosti uživatele
(nyní)
Personalizovaný
web
1:1 automatizovaná
emailová
komunikace
RTB, Behaviorální
cílení, dynamické
banery
???
Prediktivní
doporučení?
Personalizovaný
produkt?
???
???
30. Co od personalizace můžeme čekat?
• Vyšší spokojenost uživatelů
– Vyšší konverze
– Delší dobu na stránkách, více zobrazení stránek
– Častější používání
– Vyšší CTR, openrate, …
• Vyšší loayalitu
– Méně odhlášených z newslleteru
– Větší šance na znovu nakoupení
• Poznání zákazníků a jejich chování z dalšího úhlu
pohledu
31. Co od personalizace jistě dostaneme
• Více práce
– Práce s daty
– Více kreativ, textů apod.
– Nastavovaní pravidel
– Více testování
• Zamyšlení nad našimi zákazníky
35. Jaké sdělení
• Alternace několika ručně připravených
sdělení
– Banner pro muže, ženy, pro lidi nad 30let
– Jiný email pro lidi s příznakem VIP
• Sdělení tvořené na základě pravidel
– Jiné řazení obsahu
– Vybrané produkty, nabídky
– Email generovaný na základě prohlížených
produktů
– Cena pro zákazníka
Dlouhodobápracnost
Nutnostkvalitníhoměřeníamonitoringu
37. Základní škola:
Personalizace dle kontextu požadavku
• Známe jen to, co nám pošle prohlížeč
– Lokaci
– Jazyk
– Odkud a proč přišel
– Typ prohlížeče
– Typ sítě
– Základní informace o tom, zda je tu poprvé nebo ne
• Nepotřebujeme drahé nástroje – stačí kreativita
40. Gympl: Víme o zákazníkovi statické
informace
• Data zjištěná typicky ze soutěží, registrací atd.
• Základní demografie
• Snadno spočítatelné charakteristiky zákazníka
– Počet návštěv, celková útrata, …
46. Další příklady
• Zapomenutý košík
• Trigger email s nabídkou z prohlížené
kategorie
• Umělá úprava ceny nebo dostupnosti při
opakované návštěvě
• Využití callcentra pro volání uživatelům s web
aktivitou
50. Základní typy doporučení
• Na základě atributů
– Líbily se mi tři filmy, které režíroval W. Allen a
systém doporučí další filmy tohoto režiséra
• Na základě podobnosti zájmů
– Líbilo se mi deset stejných filmů jako jiným
uživatelů, tak mi to doporučí dva navíc co jsem
ještě neviděl
– Ti kdo kupovali toto, kupovali i toto
• Kombinace obou přístupů POZOR – tady je opravdu
nutné mít čistá data
51. Poznámka k reálnému světu
Jediné co zatím opravdu funguje je „kartička“.
„Slibné“ začátky, ale zatím není masivně
používáno:
• Hlas jako identifikátor volajícího, analýza
emocí
• Analýza obrazového záznamu
• Technologie typu iBeacon, případně wifi
tracking
54. Co big data a personalizace znamenají
pro společnost
• Obrovský business
– Data jsou dnes defakto surovinou.
– Těží se, prodávají se, zpracovávají se.
– (Akorát je málo horníků)
• Obrovskou příležitost ke zlepšení života
– Optimalizace dopravy, výroby, zdravotní aplikace, …
• Obrovské riziko zneužití informací
55. Rizika sběru dat - otázky
• Kdo data sbírá a jak moc s tím souhlasíte
– Je jasné, že se data sbírají a že s tím souhlasíte? Máte možnost s
tím něco dělat?
• Míra schopnosti identifikovat jedince a možnosti jeho
poškození.
– Jak moc může zneužití ublížit? Jen obtěžuje? Může stát peníze?
Může člověka zabít?
• Transparentnost dalšího zpracování dat
– Víme co se s daty děje, zda jsou anonymizována, jak jsou
zabezpečena atd.?
• Retence dat s ohledem na změnu charakteru subjektu
– Jak dlouho jsou data ukládána? Co se s daty děje v případě např.
prodeje společnosti?
56. Kdo data sbírá?
• Přímo nějaká viditelná firma a vy to víte
a souhlasíte s tím (Tesco card)
• Nějaký „infrastrukturní“ subjekt
– Google, reklamní síť, antivirus, Android
• Stát veřejně (všechny formuláře, data z
kamer, registry)
• Stát neveřejně – tady jsme ve
spekulacích
• Explicitně kriminální živel nebo nepřítel
Riziko
57. Case study – na lovu těhotných žen
• Target pregnacy model (2012):
http://www.businessinsider.com/t
he-incredible-story-of-how-target-
exposed-a-teen-girls-pregnancy-
2012-2
– Celé založeno na prosté detekci
nákupu 25 produktů a věrnostní
kartičce
• A když se zkusíte schovat, tak jste
málem kriminálník:
http://mashable.com/2014/04/26/
big-data-
pregnancy/#VtUroBEmmaqd
58. Case study 2 – nakládání s daty
Uber.com
• Super služba, zkuste si.
• Ukládá trvale kompletní data o každé
jízdě. GPS log, hodnocení, kartu, …
• Září 2014: hackerský útok a únik dat.
Kdo má dnes data o našich jízdách
stále nevíme.
• Listopad 2014: Kauza božského
režimu vs. Johana Bhuiyanová.
• Prosinec 2014: Podezření na zneužití
dat k očernění novinářů
Otázka k zamyšlení:
UBER je dnes největší
globální taxislužbou.
Přitom nevlastní jediné
auto a nezaměstnává
jediného řidiče.
Vše co má jsou data.
59. Infrastruktura: Co o nás ví Google?
• Toto ví o každé cookie:
– https://myaccount.google.com/privacy
• A toto pokud se přihlásíte:
– https://history.google.com/history/device
(iPhone je na tom úplně stejně a Facebook hůře,
Google je alespoň otevřený)
60. Další infrastrukturní hráči
• Síťoví operátoři (včetně informací z BTS)
• Operační systémy
• Antivirové programy
• Prohlížeče
• Reklamní sítě
• Sociální sítě (zejména gadgety)
• …
61. Na jaké weby se ve skutečnosti díváte?
• Light Beam extension
pro Firefox
• Ukazuje to co
nevidíte
• Zkuste si jej, budete
se divit
62. Akce -> Reakce
Dle aktuálních výzkumů je
jednou z příčin růstu
blokování reklam masivní a
nešetrně použitý
remarketing.
Lidé se poprvé uvědomili, že
jsou sledováni. A vadí jim to.
65. Rizika jsou. Co s nimi?
• Obávám se že teprve čekáme na první velký
průšvih
• Regulace nakládání s daty a vynucování
– Cookie law, ….
• Profesní standardy
• Tlak na transparenost dat u firem i institucí
• Svobodná volba lidí zda chtějí data měnit za lepší
službu
– Add blockery
– Security balíky, TOR, …
– Prostá opatrnost
(https://www.youtube.com/watch?v=F7pYHN9iC9I )
66. Výzvy, které nás čekají
Big data ani personalizace zatím nejedou na plno.
Ale budou a jsou tu dvě výzvy:
• Výzva č. 1: Dostat big data do každodenního
fungování, tak aby zlepšila život na planetě stejně
jako jiné vynálezy.
• Výzva č. 2: Zvládnout jejich nástup z pohledu
společnosti. Eliminovat rizika s nimi spojená.
67. DĚKUJI ZA POZORNOST
ZÁVĚR SI UDĚLEJTE LASKAVĚ SAMI
Jiří Štěpán, jiri.stepan@etnetera.cz
https://twitter.com/JiriStepan
Editor's Notes
Vtip:
- v roce 1980 : kam ten počítač dáme?
- v roce 2010 : kam jsem ten počítač dal?