Your SlideShare is downloading. ×
0
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Data Mining em redes sociais
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×
Saving this for later? Get the SlideShare app to save on your phone or tablet. Read anywhere, anytime – even offline.
Text the download link to your phone
Standard text messaging rates apply

Data Mining em redes sociais

214

Published on

Análise de algumas ferramentas para data mining em redes sociais

Análise de algumas ferramentas para data mining em redes sociais

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total Views
214
On Slideshare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
3
Comments
0
Likes
0
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. Data mining em redes sociais
  • 2. SigaSeuTime (BREAKING NEWS) Uso de taxa de cliques por minuto em notícias enviadas para o Twitter para determinar notícias importantes / urgentes. Primeiro experimento:
  • 3. SigaSeuTime (BREAKING NEWS) Aprendizado: O tempo de reação de informações enviadas em redes sociais é muito rápido, e portanto permite análises em tempo real bastante úteis. Primeiro experimento:
  • 4. Uso de streaming real time Twitter para determinar a “temperatura” de torcedores de futebol em tempo real Tuitômetro das torcidas Segundo experimento:
  • 5. Na (trágica) eliminação do Corinthians pelo Tolima, capturamos 5500 tweets / minuto (e depois o servidor caiu…) Tuitômetro das torcidas Segundo experimento:
  • 6. Aprendizado 1: O fenômeno de second screen é real, e permite que se analise em tempo real a opinião das pessoas em relação a eventos. “IBOPE SOCIAL” Tuitômetro das torcidas Segundo experimento:
  • 7. Aprendizado 2: O Streaming real time gratuito do Twitter é uma fonte de informações valiosíssima e muito rápida. 4MM tweets / dia Tuitômetro das torcidas Segundo experimento:
  • 8. Experimento cujo objetivo é verificar se o valor de uma marca se reflete no buzz online que ela gera. http://mosttweetedbrands.com Most Tweeted Brands Terceiro experimento:
  • 9. Em média, 2MM de Tweets / dia A marca mais citada no Twitter é…. O Facebook Most Tweeted Brands Terceiro experimento:
  • 10. BrandMagz Quarto experimento: Revista digital que mede o pulso de uma marca / celebridade / tema nas redes sociais
  • 11. Quais as fontes de dados? APIs, APIs, APIs…
  • 12. • Palavras chave • Regras de exclusão • Hints Como os dados são coletados?
  • 13. Detecção de lingua: • CLD (chromium compact language detector) • https://code.google.com/p/chromium-compact- language-detector/ Wordcloud • NLTK (Natural Language Toolkit) • http://www.nltk.org/ Quais dados são extraídos? Texto
  • 14. • 50% dos tweets geolocalizados – Minoria adiciona informação de lat/long no tweet (-5%) – Análise de texto livre • Base de dados própria com nomes de cidades em diversas linguas – 3744 nomes de cidades – 1900 nomes de países – 90 provincias Quais dados são extraídos? Geolocalização
  • 15. • Fotos –Instagram –Facebook –Twitter • Video –Facebook –Vine –Youtube –Vimeo Quais dados são extraídos? Mídia
  • 16. • Links externos encontrados em posts são tratados separadamente • Conteúdos de blogs e notícias são processados por algoritmo de “limpeza” de HTML – Heurísticas para extração do conteúdo que realmente importa de uma página web – Fork próprio do readability-lxml • https://github.com/mgalves/python-readability Quais dados são extraídos? Links externos
  • 17. Quais tecnologias são utilizadas?
  • 18. Twitter Youtube Vimeo Vine Facebook Instagram CELERY BROKER REDIS MySQL Celery Worker Celery Worker Celery Worker Celery Worker Qual a arquitetura? W E B
  • 19. • Amazon AWS • Duas instâncias EC2 m3.large – 7.5GB RAM, 2vCPU, 6.5 ECU • RDS MySQL • OpsWork + Chef • S3 para armazenamento de arquivos estáticos • CloudWatch • Apenas um devops: eu. Como é feito o deploy?
  • 20. • Em média, 400 tweets / minuto • Em 24h: – 150k posts – 5.5k links de conteúdo – 23k imagens – 3k videos Qual o volume de dados processados?
  • 21. • Em dia de jogo do Barça, Neymar recebe em média 150k menções. • Quando o Corinthians foi campeão da Libertadores, foram 2MM de menções em 3 horas. Algumas curiosidades
  • 22. mgalves@gmail.com Obrigado!

×