4. Aprendizado de Máquina
Processamento de Linguagem Natural
Análise de Sentimento
Clusterização de Texto
Detecção de Tópicos
Geração Automática de Texto
32. TF-IDF
● Term Frequency
○ Frequência de uma palavra no documento
○ Normalizada pela quantidade de palavras no documento
𝑇𝑓 = ൘
𝑓𝑟𝑒𝑞 𝑡 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑜
𝑁(𝑡) 𝑑𝑜𝑐𝑢𝑚𝑒𝑛𝑡𝑜
● Inverse Document Frequency
○ Mede quão rara é uma palavra
○ Qual a importância do termo para descrever o documento
○ Ajuda a filtrar as stopwords já que elas aparecem na maior parte dos documentos
𝐼𝑑𝑓 = log ( ൘
𝑁 𝑑
𝑁 𝑑 𝑡𝑒𝑟𝑚𝑜
)
34. TF-IDF - Exemplo
● Imagine um tweet com 10 palavras
● Este documento possui a palavra Mafalda 3x
● O conjunto de tweets analisados possui 1 milhão de documentos
● A palavra Mafalda aparece em 1.000 destes
𝑇𝑓 =
3
10
= 0.3
𝐼𝑑𝑓 = log
1.000.000
1.000
= log 1.000 = 3
𝑇𝑓 ∙ 𝐼𝑑𝑓 = 0.3 ∙ 3 = 0.9
42. “Mais Falados” “Mais Vistos” 46% de aumento de performance (video views) em relação ao tradicional “Mais Vistos”
MAIS FALADOS x MAIS VISTOS
43. “A ERA DA INFORMAÇÃO OFERECE MUITO À
HUMANIDADE, E EU GOSTARIA DE PENSAR QUE NÓS
NOS ELEVAREMOS AOS DESAFIOS QUE ELA
APRESENTA.
MAS É VITAL LEMBRAR QUE A INFORMAÇÃO (NO
SENTIDO DE DADOS BRUTOS) NÃO É
CONHECIMENTO, QUE CONHECIMENTO NÃO É
SABEDORIA, E QUE SABEDORIA NÃO É PRESCIÊNCIA.
MAS A INFORMAÇÃO É O PRIMEIRO PASSO
ESSENCIAL PARA TUDO ISSO.”
Arthur C Clarke