Alessandro Binhara
Data Scientist & Mobile Expert
Mestre em Tecnologia (UTFPR)
Bacharel em TIC, Técnico Eletrônica (CEFET-...
Armazena ?
Vende ?
Empresta?
Espiona ?
Divulga?
Não faz nada?
• Seus contatos
• Seus comentários
• Suas mensagens
• Seus postes
• Sua Localização
• Quanta informação o facebook sa
http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human-
brain-but...
• Em janeiro de 2011
• “As pessoas celebraram o ano novo no Facebook enviando um número
recorde de fotos – 750 milhões som...
• O cientista de dados é um especialista em análise
de informações. A característica mais importante
desse profissional é ...
• O Apache Hadoop é um projeto desenvolvimento como open-
source software para escalável , confiável e com processamento
d...
Por que ?
• Requisitos
• 500M+ usuário únicos por mês
• Bilhões de eventos interessantes por dia
• Necessidade de scalabil...
Hadoop no FaceBook
• Cluster em produção
• 4800 cores, 600 máquina, 16GB por máquina
• 8000 cores, 1000 máquinas, 32 GB po...
HDFS – Hadoop File System
• Inspirado em GFS
• Projetado para
trabalhar com arquivos
muito grandes
• Executado
em hardware...
HDFS- MapReduce Data Flow
HDP: Enterprise Hadoop Distribution
Hortonworks
Data Platform (HDP)
Enterprise Hadoop
• A única 100% open
source e complet...
Caso você leia todos os contratos vai gastar 180h
Seria um 1mês inteiro de trabalho por ano.
Segundo ... WallStret jornal:...
• Você da não exclusivamente, irrevogavelmente,
perpétuo, ilimitado, transferível sublicenciável,
livre de roaylties para ...
• Para que fim essas informações seriam usadas ?
• E se as empresa fizesse mau uso dessas informações?
• E se o governo ut...
• O Licenciamento do Iphone não menciaona a possibilidade de
grampear seu telefone .
• Mas o contrato da AT&T menciona :
•...
Sistema de Recomendação
• Sistema de Recomendação de Produtos
• Vitrines inteligentes para lojas online
• Aumento em 60% o...
• Em 2001 , Mais de um dúzia leis fora criadas nos EUA para proteger a
privacidade dos usuários... Mas....7 meses depois ....
• Uso de Cookies anônimos no passado
• Mudanças para cookies que podem ser
identificados.
• Os termos do google mudaram e ...
• Google Esta cruzando todos os dados na internet
• Empresas de cartão de crédito estão usando para definir limite
de créd...
• Empresa de GPS
• Vendendo os hábitos dos motoristas para a policia local para chegar
em casa mais rápido
• A policia pas...
• Governo dos EUA esta digitalizando todas as informações disponíveis.
• Eles podem prever o que esta acontecendo no país ...
O Carrier IQ é, em sua essência, um software que registra TODOS os
dados relacionados ao seu comportamento de uso de um ce...
Binhara@azuris.com.br
@binhara
www.azuris.com.br
www.gucrossmobile.com.br
www.facebook.com/gucrossmobile
www.monobrasil.co...
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???
Upcoming SlideShare
Loading in...5
×

O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???

164

Published on

Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.

Published in: Technology
0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
164
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
11
Comments
0
Likes
2
Embeds 0
No embeds

No notes for slide

O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???

  1. 1. Alessandro Binhara Data Scientist & Mobile Expert Mestre em Tecnologia (UTFPR) Bacharel em TIC, Técnico Eletrônica (CEFET-PR) Mono Hacker desde 2003 Fundador Projeto MonoBrasil Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ... BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra, Hive, Sqoop, Consultor Autorizado Xamarin
  2. 2. Armazena ? Vende ? Empresta? Espiona ? Divulga? Não faz nada?
  3. 3. • Seus contatos • Seus comentários • Suas mensagens • Seus postes • Sua Localização • Quanta informação o facebook sa
  4. 4. http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human- brain-but-what-now DeepFace pode olhar para duas fotos , e independentemente da iluminação ou do ângulo, pode-se dizer com precisão 97,25 % se as fotos contêm o mesmo rosto. Os seres humanos podem executar a mesma tarefa com precisão 97,53 %. Usa IA com redes neurais , consiste em um grupo de neurônios nove camadas profundas , e em seguida um processo de aprendizagem que vê a criação de 120 milhões de conexões (sinapses) entre esses neurônios , com base em um corpus de quatro milhões de fotos de rostos
  5. 5. • Em janeiro de 2011 • “As pessoas celebraram o ano novo no Facebook enviando um número recorde de fotos – 750 milhões somente no fim de semana!”, comunicou a diretora via Twitter, nesta terça-feira (4/1). • Simples, todos os dias o facebook recebe mais de 200 milhões de fotos!!! • Como armazena e consegue processar tudo isso???
  6. 6. • O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira. • “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", Fundação Getúlio Vargas do Rio de Janeiro (FGV-RJ), 2011. Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.
  7. 7. • O Apache Hadoop é um projeto desenvolvimento como open- source software para escalável , confiável e com processamento distribuído. Um sistema escalável e confiável para armazenamento compartilhado e análises. Ele automaticamente trata da replicação de dados e das falhas em cada nó. Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados Permite que os aplicativos usem petabytes de dados em paralelo. O que é Hadoop ?
  8. 8. Por que ? • Requisitos • 500M+ usuário únicos por mês • Bilhões de eventos interessantes por dia • Necessidade de scalabilidade massiva • PB’s de storage, milhares de arquivos, 1000’s de nós • Necessidade de ter baixo custo • Uso de hardware comum • Compartilhar recursos com vários projetos • Fornecer escala quando necessário • Precisa de infraestrutura confiável • Deve ser capaz de lidar com falhas - hardware, software, networking • A falha é esperada, e não uma exceção • Transparente para as aplicações • muito caro para construir confiabilidade em cada aplicação • A infra-estrutura do Hadoop prove essas capacidade.
  9. 9. Hadoop no FaceBook • Cluster em produção • 4800 cores, 600 máquina, 16GB por máquina • 8000 cores, 1000 máquinas, 32 GB por máquina • 4 SATA discos de 1 TB por máquina • 2 níveis de rede hierárquica, 40 máquinas por rack • Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009 • Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage. • Atualmente eles moveram 30PB de para um novo Cluster • Todos os dias o Facebook recebe 380milhões de novas fotos • Atualmente o Yahoo tem um cluster com mais de 42mil máquinas de teste
  10. 10. HDFS – Hadoop File System • Inspirado em GFS • Projetado para trabalhar com arquivos muito grandes • Executado em hardware commodity • Streaming de acesso a dados • Replicação e localidade
  11. 11. HDFS- MapReduce Data Flow
  12. 12. HDP: Enterprise Hadoop Distribution Hortonworks Data Platform (HDP) Enterprise Hadoop • A única 100% open source e completa • Classe empresarial, provado e testado em escala • Ecossistema endossado para garantir a interoperabilidade
  13. 13. Caso você leia todos os contratos vai gastar 180h Seria um 1mês inteiro de trabalho por ano. Segundo ... WallStret jornal: “Consumidores perdem 250bilhões de dólares ao ano com clausulas escondidas em letras pequenas”
  14. 14. • Você da não exclusivamente, irrevogavelmente, perpétuo, ilimitado, transferível sublicenciável, livre de roaylties para copiar, preparar trabalhos derivados de, molhorar, distribuir, publicar , manter,.... • O Linkedin se apropria de tudo para sempre. • O Instagram se dá ao direito de vender as suas fotos sem compensação posteriores para uso comerciais.
  15. 15. • Para que fim essas informações seriam usadas ? • E se as empresa fizesse mau uso dessas informações? • E se o governo utiliza-se dessa informações para espionagem ? • Somente por causa dos termos de uso e condições... • Quanto vale essa informação ? • Você está disposto a fornecer tuas informações para receber um cachorro quente de graça?
  16. 16. • O Licenciamento do Iphone não menciaona a possibilidade de grampear seu telefone . • Mas o contrato da AT&T menciona : • Para “Investigar, prevenir ou reagir em relação atividades ilegais”
  17. 17. Sistema de Recomendação • Sistema de Recomendação de Produtos • Vitrines inteligentes para lojas online • Aumento em 60% o volume de faturamento das lojas • Cluster com 70nós • Mais de 1.5 milhões de transações por segundo
  18. 18. • Em 2001 , Mais de um dúzia leis fora criadas nos EUA para proteger a privacidade dos usuários... Mas....7 meses depois ... • Todas as leis foram revogadas • ou abandonadas Em Assinatura do Ato Patriota A lei permite a vigilância de todas as comunicações, email, internet, telefones, etc...
  19. 19. • Uso de Cookies anônimos no passado • Mudanças para cookies que podem ser identificados. • Os termos do google mudaram e lá está escrito ”..apesar de anônimos os dados, usuários podem ser identificados quanto tiver necessidade.” • Em 2009, facebook tornou padrão como público no facebook. • Mesmo que você delete algo, continua lá.
  20. 20. • Google Esta cruzando todos os dados na internet • Empresas de cartão de crédito estão usando para definir limite de crédito. Caso de pessoas nos EUA que tiveram seus limites de cartão reduzidos • Bancos usam para aprovar ou não a abertura de contas. • Um caso de um cidadão que começou a receber promoções de produto para gestantes. E foi indignado a loja. • Empresa de seguro estão usando seus hábitos de compras, exemplo: Se você costuma comprar bebidas alcoólicas você apresenta um risco maior
  21. 21. • Empresa de GPS • Vendendo os hábitos dos motoristas para a policia local para chegar em casa mais rápido • A policia passou a colocar radares e fiscalizar essas rodas • Aplicando multas aos motoristas
  22. 22. • Governo dos EUA esta digitalizando todas as informações disponíveis. • Eles podem prever o que esta acontecendo no país e fora. • NSA é 3X maior que a CIA • E muito mais secreto que a CIA
  23. 23. O Carrier IQ é, em sua essência, um software que registra TODOS os dados relacionados ao seu comportamento de uso de um celular. Abriu o site do banco? Digitou palavrão no SMS? O Carrier IQ sabe. Abriu um site pornográfico? Ele também sabe. O Logging Test App, para Android, é o mais conhecido, pois oferece tanto a função de identificação quanto a de remoção. O Voodoo Carrier IQ Detector apenas localiza a posição do famigerado software em seu aparelho - função esta também exercida pelo Carrier IQ Detector.
  24. 24. Binhara@azuris.com.br @binhara www.azuris.com.br www.gucrossmobile.com.br www.facebook.com/gucrossmobile www.monobrasil.com/gux.html
  1. A particular slide catching your eye?

    Clipping is a handy way to collect important slides you want to go back to later.

×