O queo facebook faz com minhas fotos??? E o que o BigData tem haver com isso ???

  • 102 views
Uploaded on

Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o …

Atualmente o facebook recebe diariamente cerca de 380 milhões de fotos por dia, isso significa um custo de milhares de computadores para conseguir armazenar esse volume de dados. Mas por que o facebook, google e outros mantem serviço gratuitos se tem um custo alto para operar esses serviços? Conheça um pouco da tecnologia por trás desse serviços, a legalidade do armazenamento e rastreamento dos dados, e por que essa empresa investem tanto para dar um serviço de graça.

More in: Technology
  • Full Name Full Name Comment goes here.
    Are you sure you want to
    Your message goes here
    Be the first to comment
No Downloads

Views

Total Views
102
On Slideshare
0
From Embeds
0
Number of Embeds
0

Actions

Shares
Downloads
9
Comments
0
Likes
1

Embeds 0

No embeds

Report content

Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
    No notes for slide

Transcript

  • 1. Alessandro Binhara Data Scientist & Mobile Expert Mestre em Tecnologia (UTFPR) Bacharel em TIC, Técnico Eletrônica (CEFET-PR) Mono Hacker desde 2003 Fundador Projeto MonoBrasil Linguagens Fluente: C#, Java, PIG, PHP, Ruby., ... BigData: Hadoop, MapReduce Mahout, Hbase, Cassandra, Hive, Sqoop, Consultor Autorizado Xamarin
  • 2. Armazena ? Vende ? Empresta? Espiona ? Divulga? Não faz nada?
  • 3. • Seus contatos • Seus comentários • Suas mensagens • Seus postes • Sua Localização • Quanta informação o facebook sa
  • 4. http://www.extremetech.com/extreme/178777-facebooks-facial-recognition-software-is-now-as-accurate-as-the-human- brain-but-what-now DeepFace pode olhar para duas fotos , e independentemente da iluminação ou do ângulo, pode-se dizer com precisão 97,25 % se as fotos contêm o mesmo rosto. Os seres humanos podem executar a mesma tarefa com precisão 97,53 %. Usa IA com redes neurais , consiste em um grupo de neurônios nove camadas profundas , e em seguida um processo de aprendizagem que vê a criação de 120 milhões de conexões (sinapses) entre esses neurônios , com base em um corpus de quatro milhões de fotos de rostos
  • 5. • Em janeiro de 2011 • “As pessoas celebraram o ano novo no Facebook enviando um número recorde de fotos – 750 milhões somente no fim de semana!”, comunicou a diretora via Twitter, nesta terça-feira (4/1). • Simples, todos os dias o facebook recebe mais de 200 milhões de fotos!!! • Como armazena e consegue processar tudo isso???
  • 6. • O cientista de dados é um especialista em análise de informações. A característica mais importante desse profissional é a capacidade analítica. Por isso, quem tem uma sólida formação em matemática e lógica, como engenheiros, economistas, estatísticos e matemáticos, é forte candidato a se sair bem na carreira. • “Ter um consistente background em matemática é fundamental, senão a pessoa tem que suar muito para preencher a lacuna", Fundação Getúlio Vargas do Rio de Janeiro (FGV-RJ), 2011. Salário mediano anual em milhares de dólares dividido pelos grupos identificados. Fonte: O'Reilly.
  • 7. • O Apache Hadoop é um projeto desenvolvimento como open- source software para escalável , confiável e com processamento distribuído. Um sistema escalável e confiável para armazenamento compartilhado e análises. Ele automaticamente trata da replicação de dados e das falhas em cada nó. Ele faz o trabalho duro, o desenvolvedor pode se concentrar em processamento da lógica de dados Permite que os aplicativos usem petabytes de dados em paralelo. O que é Hadoop ?
  • 8. Por que ? • Requisitos • 500M+ usuário únicos por mês • Bilhões de eventos interessantes por dia • Necessidade de scalabilidade massiva • PB’s de storage, milhares de arquivos, 1000’s de nós • Necessidade de ter baixo custo • Uso de hardware comum • Compartilhar recursos com vários projetos • Fornecer escala quando necessário • Precisa de infraestrutura confiável • Deve ser capaz de lidar com falhas - hardware, software, networking • A falha é esperada, e não uma exceção • Transparente para as aplicações • muito caro para construir confiabilidade em cada aplicação • A infra-estrutura do Hadoop prove essas capacidade.
  • 9. Hadoop no FaceBook • Cluster em produção • 4800 cores, 600 máquina, 16GB por máquina • 8000 cores, 1000 máquinas, 32 GB por máquina • 4 SATA discos de 1 TB por máquina • 2 níveis de rede hierárquica, 40 máquinas por rack • Total do tamanho do cluster 2 PB, projetado para 12 PB no Q3 2009 • Em 2010 - A 1100-machine cluster with 8800 cores and about 12 PB raw storage. • Atualmente eles moveram 30PB de para um novo Cluster • Todos os dias o Facebook recebe 380milhões de novas fotos • Atualmente o Yahoo tem um cluster com mais de 42mil máquinas de teste
  • 10. HDFS – Hadoop File System • Inspirado em GFS • Projetado para trabalhar com arquivos muito grandes • Executado em hardware commodity • Streaming de acesso a dados • Replicação e localidade
  • 11. HDFS- MapReduce Data Flow
  • 12. HDP: Enterprise Hadoop Distribution Hortonworks Data Platform (HDP) Enterprise Hadoop • A única 100% open source e completa • Classe empresarial, provado e testado em escala • Ecossistema endossado para garantir a interoperabilidade
  • 13. Caso você leia todos os contratos vai gastar 180h Seria um 1mês inteiro de trabalho por ano. Segundo ... WallStret jornal: “Consumidores perdem 250bilhões de dólares ao ano com clausulas escondidas em letras pequenas”
  • 14. • Você da não exclusivamente, irrevogavelmente, perpétuo, ilimitado, transferível sublicenciável, livre de roaylties para copiar, preparar trabalhos derivados de, molhorar, distribuir, publicar , manter,.... • O Linkedin se apropria de tudo para sempre. • O Instagram se dá ao direito de vender as suas fotos sem compensação posteriores para uso comerciais.
  • 15. • Para que fim essas informações seriam usadas ? • E se as empresa fizesse mau uso dessas informações? • E se o governo utiliza-se dessa informações para espionagem ? • Somente por causa dos termos de uso e condições... • Quanto vale essa informação ? • Você está disposto a fornecer tuas informações para receber um cachorro quente de graça?
  • 16. • O Licenciamento do Iphone não menciaona a possibilidade de grampear seu telefone . • Mas o contrato da AT&T menciona : • Para “Investigar, prevenir ou reagir em relação atividades ilegais”
  • 17. Sistema de Recomendação • Sistema de Recomendação de Produtos • Vitrines inteligentes para lojas online • Aumento em 60% o volume de faturamento das lojas • Cluster com 70nós • Mais de 1.5 milhões de transações por segundo
  • 18. • Em 2001 , Mais de um dúzia leis fora criadas nos EUA para proteger a privacidade dos usuários... Mas....7 meses depois ... • Todas as leis foram revogadas • ou abandonadas Em Assinatura do Ato Patriota A lei permite a vigilância de todas as comunicações, email, internet, telefones, etc...
  • 19. • Uso de Cookies anônimos no passado • Mudanças para cookies que podem ser identificados. • Os termos do google mudaram e lá está escrito ”..apesar de anônimos os dados, usuários podem ser identificados quanto tiver necessidade.” • Em 2009, facebook tornou padrão como público no facebook. • Mesmo que você delete algo, continua lá.
  • 20. • Google Esta cruzando todos os dados na internet • Empresas de cartão de crédito estão usando para definir limite de crédito. Caso de pessoas nos EUA que tiveram seus limites de cartão reduzidos • Bancos usam para aprovar ou não a abertura de contas. • Um caso de um cidadão que começou a receber promoções de produto para gestantes. E foi indignado a loja. • Empresa de seguro estão usando seus hábitos de compras, exemplo: Se você costuma comprar bebidas alcoólicas você apresenta um risco maior
  • 21. • Empresa de GPS • Vendendo os hábitos dos motoristas para a policia local para chegar em casa mais rápido • A policia passou a colocar radares e fiscalizar essas rodas • Aplicando multas aos motoristas
  • 22. • Governo dos EUA esta digitalizando todas as informações disponíveis. • Eles podem prever o que esta acontecendo no país e fora. • NSA é 3X maior que a CIA • E muito mais secreto que a CIA
  • 23. O Carrier IQ é, em sua essência, um software que registra TODOS os dados relacionados ao seu comportamento de uso de um celular. Abriu o site do banco? Digitou palavrão no SMS? O Carrier IQ sabe. Abriu um site pornográfico? Ele também sabe. O Logging Test App, para Android, é o mais conhecido, pois oferece tanto a função de identificação quanto a de remoção. O Voodoo Carrier IQ Detector apenas localiza a posição do famigerado software em seu aparelho - função esta também exercida pelo Carrier IQ Detector.
  • 24. Binhara@azuris.com.br @binhara www.azuris.com.br www.gucrossmobile.com.br www.facebook.com/gucrossmobile www.monobrasil.com/gux.html