Data mining em redes sociais
SigaSeuTime (BREAKING NEWS)
Uso de taxa de cliques por
minuto em notícias enviadas
para o Twitter para determinar
notícias...
SigaSeuTime (BREAKING NEWS)
Aprendizado:
O tempo de reação de
informações enviadas em redes
sociais é muito rápido, e port...
Uso de streaming real time
Twitter para determinar a
“temperatura” de torcedores de
futebol em tempo real
Tuitômetro das t...
Na (trágica) eliminação do
Corinthians pelo Tolima,
capturamos
5500 tweets / minuto
(e depois o servidor caiu…)
Tuitômetro...
Aprendizado 1:
O fenômeno de second screen é
real, e permite que se analise em
tempo real a opinião das
pessoas em relação...
Aprendizado 2:
O Streaming real time gratuito do
Twitter é uma fonte de
informações valiosíssima e muito
rápida.
4MM tweet...
Experimento cujo objetivo é
verificar se o valor de uma marca
se reflete no buzz online que ela
gera.
http://mosttweetedbr...
Em média, 2MM de Tweets / dia
A marca mais citada no Twitter
é….
O Facebook
Most Tweeted Brands
Terceiro experimento:
BrandMagz
Quarto experimento:
Revista digital que mede o pulso
de uma marca / celebridade /
tema nas redes sociais
Quais as fontes de dados?
APIs, APIs, APIs…
• Palavras chave
• Regras de exclusão
• Hints
Como os dados são coletados?
Detecção de lingua:
• CLD (chromium compact language detector)
• https://code.google.com/p/chromium-compact-
language-dete...
• 50% dos tweets geolocalizados
– Minoria adiciona informação de lat/long no
tweet (-5%)
– Análise de texto livre
• Base d...
• Fotos
–Instagram
–Facebook
–Twitter
• Video
–Facebook
–Vine
–Youtube
–Vimeo
Quais dados são extraídos?
Mídia
• Links externos encontrados em posts são
tratados separadamente
• Conteúdos de blogs e notícias são
processados por algor...
Quais tecnologias são
utilizadas?
Twitter
Youtube
Vimeo
Vine
Facebook
Instagram
CELERY
BROKER
REDIS
MySQL
Celery
Worker
Celery
Worker
Celery
Worker
Celery
W...
• Amazon AWS
• Duas instâncias EC2 m3.large
– 7.5GB RAM, 2vCPU, 6.5 ECU
• RDS MySQL
• OpsWork + Chef
• S3 para armazenamen...
• Em média, 400 tweets / minuto
• Em 24h:
– 150k posts
– 5.5k links de conteúdo
– 23k imagens
– 3k videos
Qual o volume de...
• Em dia de jogo do Barça, Neymar recebe
em média 150k menções.
• Quando o Corinthians foi campeão da
Libertadores, foram ...
mgalves@gmail.com
Obrigado!
Data Mining em redes sociais
Data Mining em redes sociais
Upcoming SlideShare
Loading in …5
×

Data Mining em redes sociais

434 views
290 views

Published on

Análise de algumas ferramentas para data mining em redes sociais

0 Comments
1 Like
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
434
On SlideShare
0
From Embeds
0
Number of Embeds
14
Actions
Shares
0
Downloads
6
Comments
0
Likes
1
Embeds 0
No embeds

No notes for slide

Data Mining em redes sociais

  1. 1. Data mining em redes sociais
  2. 2. SigaSeuTime (BREAKING NEWS) Uso de taxa de cliques por minuto em notícias enviadas para o Twitter para determinar notícias importantes / urgentes. Primeiro experimento:
  3. 3. SigaSeuTime (BREAKING NEWS) Aprendizado: O tempo de reação de informações enviadas em redes sociais é muito rápido, e portanto permite análises em tempo real bastante úteis. Primeiro experimento:
  4. 4. Uso de streaming real time Twitter para determinar a “temperatura” de torcedores de futebol em tempo real Tuitômetro das torcidas Segundo experimento:
  5. 5. Na (trágica) eliminação do Corinthians pelo Tolima, capturamos 5500 tweets / minuto (e depois o servidor caiu…) Tuitômetro das torcidas Segundo experimento:
  6. 6. Aprendizado 1: O fenômeno de second screen é real, e permite que se analise em tempo real a opinião das pessoas em relação a eventos. “IBOPE SOCIAL” Tuitômetro das torcidas Segundo experimento:
  7. 7. Aprendizado 2: O Streaming real time gratuito do Twitter é uma fonte de informações valiosíssima e muito rápida. 4MM tweets / dia Tuitômetro das torcidas Segundo experimento:
  8. 8. Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz online que ela gera. http://mosttweetedbrands.com Most Tweeted Brands Terceiro experimento:
  9. 9. Em média, 2MM de Tweets / dia A marca mais citada no Twitter é…. O Facebook Most Tweeted Brands Terceiro experimento:
  10. 10. BrandMagz Quarto experimento: Revista digital que mede o pulso de uma marca / celebridade / tema nas redes sociais
  11. 11. Quais as fontes de dados? APIs, APIs, APIs…
  12. 12. • Palavras chave • Regras de exclusão • Hints Como os dados são coletados?
  13. 13. Detecção de lingua: • CLD (chromium compact language detector) • https://code.google.com/p/chromium-compact- language-detector/ Wordcloud • NLTK (Natural Language Toolkit) • http://www.nltk.org/ Quais dados são extraídos? Texto
  14. 14. • 50% dos tweets geolocalizados – Minoria adiciona informação de lat/long no tweet (-5%) – Análise de texto livre • Base de dados própria com nomes de cidades em diversas linguas – 3744 nomes de cidades – 1900 nomes de países – 90 provincias Quais dados são extraídos? Geolocalização
  15. 15. • Fotos –Instagram –Facebook –Twitter • Video –Facebook –Vine –Youtube –Vimeo Quais dados são extraídos? Mídia
  16. 16. • Links externos encontrados em posts são tratados separadamente • Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML – Heurísticas para extração do conteúdo que realmente importa de uma página web – Fork próprio do readability-lxml • https://github.com/mgalves/python-readability Quais dados são extraídos? Links externos
  17. 17. Quais tecnologias são utilizadas?
  18. 18. Twitter Youtube Vimeo Vine Facebook Instagram CELERY BROKER REDIS MySQL Celery Worker Celery Worker Celery Worker Celery Worker Qual a arquitetura? W E B
  19. 19. • Amazon AWS • Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU • RDS MySQL • OpsWork + Chef • S3 para armazenamento de arquivos estáticos • CloudWatch • Apenas um devops: eu. Como é feito o deploy?
  20. 20. • Em média, 400 tweets / minuto • Em 24h: – 150k posts – 5.5k links de conteúdo – 23k imagens – 3k videos Qual o volume de dados processados?
  21. 21. • Em dia de jogo do Barça, Neymar recebe em média 150k menções. • Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas. Algumas curiosidades
  22. 22. mgalves@gmail.com Obrigado!

×