TDC2018FLN | Trilha Data Science - Encontrando Lookalikes para publicidade digital em um contexto de big data

1 Globalcode – Open4education
Trilha – Xxxx
Nome do Palestrante
Qualificação do palestrante
Encontrando Lookalikes para Publicidade Digital
em um Contexto de Big Data
Joel Pinho Lucas

Agenda
• Lookalikes e Publicidade Digital (Introdução)
• Lookalikes em um contexto de Big Data: cenário da Tail
• Visão Geral da Implementação de Lookalikes na Tail
• Mineração de Padrões Frequentes com Spark MLlib FP-Growth
(Passo I)
• Descoberta de Lookalikes: matching de perﬁs (Passo II)
• Conclusões
2

Lookalikes e Publicidade Digital
Lookalikes: partindo de uma audiência semente, encontrar uma
audiência mais abrangente (alvo) com perﬁs de consumo que se
assemelhem a mesma
3
A audiência alvo deve reﬂetir características benchmark da audiência do
cliente (source audience)

“De acordo com 30% dos advertisers e mais da metade das agências nos EUA
que reportaram utilizar a técnica, a modelagem de lookalikes resultou no dobro
ou até triplo dos resultados em comparação a um target de audiência padrão.”
Estudo da Exelate
4

5

6
Lookalike e Publicidade Digital

Lookalikes em um contexto de Big Data:
Caso da Tail
7

Lookalikes em um contexto de Big Data:
Caso da Tail
• 1.5 bilhões novos registros ao dia
• 400 milhões de perfis anônimos na América Latina
• Os perfis de usuários são baseados em logs de navegação de
parceiros (publishers) através de uma tag em JavaScript
• Os perfis de usuários são segmentados em 132 categories
comportamentais e demográficas
Ex: TV, Futebol, Política, Beleza,Viagem,Adulto, Jovem, etc.
8

9
Formação dos perﬁs da Base de Dados da Tail

10

11
Tag
u=1507000A8451375B184024E
LOG

12
Texto
Relevante
Extrator de Texto
Crawling
Representação de um link web:
1 15749 aluguel
2 12208 casa
3 11456 julho
4 10272 dia
5 9232 sao paulo
6 9177 procurar
7 8958 vender
8 8779 imóvel
9 8664 praia
10 8191 garagem
11 7626 carro
12 7580 preço
13 7453 quarto
14 7246 construção
…….
n
Extrator de Termos
Frequentes
Interesse Classiﬁcador

Implementação de Lookalikes
Passos implementados através da arquitetura do Apache Spark
1. revelar os padrões mais relevantes dentro da audiência semente
2. encontrar uma audiência alvo (target audience) que corresponda a tais
padrões
14
Problema: dado uma audiência semente, encontrar
os usuários que mais se assemelham (lookalikes) a
ela dentro da base da Tail

15
• Implementação simpliﬁcada (API em Java, Scala, Python e R)
• Diversas implementações eﬁcientes de algoritmos
http://spark.apache.org/mllib/
• Performance
Lazy evaluation
Armazenamento em memória

Passo 1: Encontrando os Padrões mais
Relevantes
• Identiﬁcar, extrair e entender os padrões mais relevantes da
audiência do cliente
• Problema de aprendizagem não-supervisionada (tarefa de
mineração de padrões frequentes)
• Utilizou-se a implementação do algoritmo FP-Growth da
Spark MLlib
16

Passo 1: Encontrando os Padrões mais
Relevantes
• O advertiser deve conseguir encontrar valor, poder realizar
insights e entender sua audiência com maior nível de detalhe (NO
black-box)
• A mineração de padrões frequentes possibilita que os dados de
uma audiência sejam explorados com mais detalhe
17

Passo 1: Extensão do FP-Growth
18

Passo 1: FP-Growth
Entrada: um conjunto de N transações:
D = {T1 ,T2 ,.... ..,TN }
Saída: um conjunto de regras de associação:
A —> B, onde A ⊂ D e B ⊂ D
19
• FP-Growth (Frequent Pattern Growth) é um algorithm de
mineração de itens frequentes

Passo 1: FP-Growth
Suporte mínimo: número mínimo de itens ocorrendo em um conjunto
de transações
20
IN: { [leite, pão], [fralda, leite], [fralda, cerveja], [fralda, cerveja], …., [fralda, leite, cerveja] }
{fralda, leite cerveja}OUT:

Passo 1: FP-Growth
• Permite que itens frequentes sejam descobertos sem precisar que
conjuntos candidatos sejam gerados (mais eﬁciente que Apriori)
• Utiliza uma estrutura de dados compacta (FP-tree)
21
Duas Etapas:
Gerar uma FP-Tree compacta (realizando apenas duas passadas no conjunto de dados)
Extrair itens frequentes diretamente da FP-Tree

Passo 1: FP-Growth (FP-Tree)
22
Min Support = 2
Figura extraída de “Yıldız, Barış & Ergenç, Belgin. (2010). Comparison of two association rule mining algorithms
without candidate generation”.

Passo 1: FP-Growth no Spark MLlib
Exemplo de implementação no Spark MLlib (Java):
23
Não precisamos das Regras de
Associações, apenas dos padrões
frequentes

Passo 1: FP-Growth no Spark MLlib
24
???

Step I: FP-Growth no Spark MLlib
25
Num. perfis
Num. max. de
propriedades
Número médio de
propriedades
Running Time
Dataset Cliente-1 2.2M 19 7 3.7 min
Dataset Cliente-2 1.2k 112 12 4.9 h
Dataset Cliente-3 4k 14 6 33 seg
• Limitação de dimensionalidade
• Ex: 72 entradas da Dataset-2:
{user : [TV, Tourism, Cars, Fashion, Soccer, Politics, Beauty, Baby Care, Fitness, Celebrities, etc…] }
Navegação Artificial: perfis falsos!

Passo 1: Extensão do FP-Growth
Solução: implementar ﬁltro para eliminar conjuntos de itens com
um número grande de itens idênticos
26

27
FP1
FP2
FP3
FP4
FP5
FP6
FP7
1.
2.
3.
4.
5.
6.
7.
...
90M
Passo II: Encontrar Lookalikes
Usuários
Padrões
Frequentes
Lookalike
Lookalike

Passo II: Encontrar Lookalikes
1. Para cada usuário da base dados da empresa calcular um índice de
correlação que conta os matches nas regras geradas no passo 1
2. Ordenar usuários por tais índices
3. Disponibilizar a audiência de Lookalikes para atender a requisições
disparadas por clientes (assertividade x alcance da audiência)
28

29
• Implementar os jobs que irão rodar no cluster do Spark
• Testar e/ou depurar um job do Spark
• O time precisa operar e similar um mesmo cluster
Implementação de Lookalikes - Infra para
Spark MLlib

30
• Cluster "leve"
• Apenas uma máquina
• Mesmo ambiente para todo o time
Executando Spark Localmente com
Docker

Escolha sua imagem
(ou gere a sua e compartilhe)
31

http://github.com/joelplucas/docker-spark 32

Exemplo de Implementação
• Algoritmo FP-Growth (MLlib)
• Entrada: dados anônimos de publicidade digital
• Problema: encontrar padrões frequentes nos perﬁs de
navegação (baseado no Passo I)
• Escreve resultados no MongoDB
http://github.com/joelplucas/fpgrowth-spark-example
33

Teste Unitário Utilizando Spark Testing Base
• Lançado no Strata NYC 2015 por Holden Karau (e mantido pela comunidade)
• Suporta testes unitários em Java, Scala e Python
34

Conclusões
• A utilização de aprendizagem não-supervisionada, da maneira como
foi implementada nos passos 1 e II, permitiu gerar audiências de
lookalike
• Dividir o problema em dois passos (utilizando Spark) mostrou-se
uma estratégia eﬁcaz para escalar as requisições de lookalikes de
clientes em um contexto de big data
• A extensão do FP-Growth permitiu que a solução descrevesse
claramente os padrões encontrados nas audiência dos clientes
35

Conclusões
• A utilização de código fonte aberto da Spark MLlib permitiu depurar
e investigar nossos conjuntos de dados com maior facilidade
• A utilização de um ambiente de desenvolvimento comum ao time e
realizar testes unitários nos jobs do Spark contribuíram de forma
signiﬁcativa ao processo de desenvolvimento
36

Q&A - Contato
‣ Linkedin: http://br.linkedin.com/in/joelplucas/
‣ Email: joelpl@gmail.com
37

TDC2018FLN | Trilha Data Science - Encontrando Lookalikes para publicidade digital em um contexto de big data

Recommended

Recommended

More Related Content

Similar to TDC2018FLN | Trilha Data Science - Encontrando Lookalikes para publicidade digital em um contexto de big data

Similar to TDC2018FLN | Trilha Data Science - Encontrando Lookalikes para publicidade digital em um contexto de big data (20)

More from tdc-globalcode

More from tdc-globalcode (20)

Recently uploaded

Recently uploaded (20)

TDC2018FLN | Trilha Data Science - Encontrando Lookalikes para publicidade digital em um contexto de big data