Big data e agile analytics

904 views

Published on

Apresentação feita no TDC 2013 em 10/07/2013 na trilha de NoSQL.

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
904
On SlideShare
0
From Embeds
0
Number of Embeds
23
Actions
Shares
0
Downloads
21
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Big data e agile analytics

  1. 1. Big Data e Agile Analytics @lucabastos ThoughtWorks
  2. 2. O Mercado hoje precisa de analíticos
  3. 3. Os líderes estão sob pressão crescente para tomar as decisões certas e fazer previsões para seus negócios.
  4. 4. Estagnação, competição global crecente, mercado que se modifica rápido, redução de margens de lucro.
  5. 5. Alguns ramos industriais que eram antes eram poderosos estão quase em colapso. Exemplo: imprensa tradicional.
  6. 6. É preciso aumentar a retenção dos clientes e a participação no mercado.
  7. 7. É preciso medir, aprender.
  8. 8. A combinação de BigData com Agile Analytics promete ser a solução.
  9. 9. O que é Big Data?
  10. 10. Para mim Big Data são dados cujo tamanho são parte do problema
  11. 11. Agile Analytics
  12. 12. Do que estamos falando?
  13. 13. Conjunto de ferramentas e métodos
  14. 14. Conjunto de ferramentas e métodos que visa perceber padrões e extrair visões
  15. 15. Conjunto de ferramentas e métodos que visa perceber padrões e extrair visões a partir de registros de observações e dados de exemplos ou experiências passadas.
  16. 16. Para quê é usado
  17. 17. Web mining Decisões que envolvem julgamento Examinar imagens (screening) Previsões Diagnósticos Análises de marketing e de vendas
  18. 18. Afinal, que diabo é isso?
  19. 19. A arte de fazer as questões certas.
  20. 20. A ciência de usar dados para encontrar as respostas.
  21. 21. A coragem de agir sobre as evidências e sobre os dados mesmo quando contraria o senso comum e os conceitos previamente estabelecidos.
  22. 22. Alguns tipos de problemas que podemos resolver
  23. 23. Agrupar coisas relacionadas -‐ clustering
  24. 24. Agrupar coisas relacionadas -‐ clustering
  25. 25. Agrupar coisas relacionadas -‐ clustering
  26. 26. Agrupar coisas relacionadas -‐ clustering Não supervisionado
  27. 27. Exemplo de clustering: Linkedin, Skills & Expertise: http://www.linkedin.com/skills/skill/Machine_Learning?trk=skills-‐hp-‐search
  28. 28. Previsões Se dividem de acordo com a tarefa que faz: Classificação – prevê resultados qualitativos discretos do tipo S/N, morre/sobrevive Regressão – prevê resultados quantitativos
  29. 29. Classificação consiste em rotular um input baseado em dados previamente vistos Filtro anti spam Identificação de linguagem Detecção de rosto (você conhece o rosto)
  30. 30. Recomendações
  31. 31. Detecção de anomalias Reconhecer padrão de intrusão Resolver ambiguidades Fraudes financeiras
  32. 32. Por que chamar de Agile Analytics?
  33. 33. Collective Intelligence
  34. 34. Collective Intelligence Parece que há um esforço coletivo de inteligência quando na verdade os dados podem vir de fontes não exatamente das mais inteligentes
  35. 35. Collective Intelligence Prefiro não usar o termo genérico Collective Intelligence.
  36. 36. Predictive Analytics
  37. 37. Predictive Analytics Na verdade a técnicas usadas nesta área de conhecimento vão muito além de análise preditiva.
  38. 38. Predictive Analytics Prefiro não usar o termo genérico Predictive Analytics.
  39. 39. Machine Learning Permite uma discussão filosófica. Muita gente não aceita que máquinas sejam capazes de aprender.
  40. 40. Machine Learning
  41. 41. Machine Learning É o termo mais usado mas em geral subentende uso de algoritmos complexos que nem sempre são necessários.
  42. 42. Machine Learning Permite uma discussão filosófica.
  43. 43. Machine Learning Muita gente não aceita que máquinas sejam capazes de aprender. Wittgenstein, Waldemar Setzer e outros
  44. 44. Machine Learning Talvez não seja “politicamente correto” usar o termo genérico Machine Learning.
  45. 45. Agile Analytics Vou justificar o termo com exemplos e citações
  46. 46. DJ Patil Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn
  47. 47. DJ Patil Data Scientist -‐ Greylock Partners, ex eBay e ex LinkedIn “Try to be clever before you do the heavyweight work”
  48. 48. DJ Patil Antes de começar o trabalho duro usando algoritmos sofisticados de classificação ou information retrieval, é preciso observar os dados e ver se é possível encontrar um ponto de partida mais a frente para começar a iterar.
  49. 49. Hilary Mason Data Scientist -‐ bitly Nem sempre devemos a usar um tipo de armazenamento sofisticado para arquivos grandes de dados. Às vezes basta um arquivo .txt ou .csv.
  50. 50. As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux: cat, grep, head, tail, awk, find, xargs, sort, wc, etc..
  51. 51. As primeiras ferramentas que devemos experimentar são as de linha de comando do Linux: cat, grep, head, tail, awk, find, xargs, sort, wc, etc.. E não esquecer recursos gráficos do gnuplot.
  52. 52. É isso!

×