DOS ANTIGOS SISTEMAS DE
BUSCA NA INTERNET AO
NOVO PROCESSAMENTO DE
DADOS NÃO-ESTRUTURADOS
(BIG DATA)
Leandro Pimentel Borg...
P R O B L E M ÁT I C A :
Atualmente a quantidade de dados gerados por
segundo é muito maior do que a gerada há 10 anos no ...
Problema a ser explorado:
O problema a ser explorado é a falta de conhecimento,

tanto o usuário comum como do aluno inici...
CAPÍTULO I –Motores de busca (buscadores)
É

um

programa

para

encontrar

informações

armazenadas em um banco de dados ...
CAPÍTULO II – História dos Buscadores
1990 – Archie (arquivos em FTP anônimos);
1991 – Gopher (textos em geral);
Veronica ...
O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel
Washington, aos 21:25min, como exemplo de principal...
CAPÍTULO II – Tipos de Buscadores

Globais (Google, Yahoo, Bing);
Verticais (Buscapé, Bondfaro);
Locais (Telelistas, Apont...
CAPÍTULO II – Indexação de páginas
Forma mais eficiente de organizar e encontrar dados;
Formato atual: XML (maior eficácia...
CAPÍTULO II – ROBOTS
O robots.txt é um arquivo que é procurado pelas
ferramentas de busca para saber quais partes do site ...
CAPÍTULO II – SITEMAPS
Um Sitemap é um arquivo XML que lista os URLs de um
site para facilitar a indexação do site pelos m...
C A P Í T U L O I I – M E TA B U S C A
É um sistema que realiza uma pesquisa em vários
mecanismos de busca ao mesmo tempo,...
C A P Í T U L O I I – W E B C R AW L E R
Também chamados de agentes, bots, spiders, robots ou
scutters. São indexadores au...
C A P Í T U L O I I – A LTAV I S TA
O AltaVista

(www.altavista.digital.com) começou a

funcionar em 15/12/1995, pertencia...
CAPÍTULO II – Search Engine Optimization (SEO)
É o processo de influenciar a visibilidade de um site
num mecanismo de pesq...
QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/
CAPÍTULO III – Ontologia
Ontologia é uma modelagem de dados de um conjunto
de conceitos, objetos e estruturas.
É utilizada...
CAPÍTULO III – Ferramentas de Ontologia
Protégé 2000 - Ambiente interativo com arquitetura modulada.
Possui código aberto,...
CAPÍTULO III – Ferramentas de Ontologia
WebODE - Desenvolvido na Universidade Politécnica de Madri.
Aplicação Web com onto...
CAPÍTULO III – Ferramentas de Ontologia
OntoEdit - Ambiente gráfico para edição, navegação, e
alteração de ontologias. Dis...
CAPÍTULO III – Bibliotecas de Ontologia
Disponibilizam listas ou diretórios de ontologias com
mecanismos de buscas.

• DAM...
CAPÍTULO III – Linguagens de Ontologia
A DAML (DARP Agent Markup Language) é uma
linguagem de ontologia e inferência basea...
CAPÍTULO III – Bibliotecas de Ontologia
A OWL (Web Ontology Language) - para aplicações que
processam o conteúdo e o signi...
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
A Web Semântica foi uma iniciativa da World Wide Web
Consortium (W3C)...
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
A linguagem de consulta SPARQL para dados RDF é
formada pelos compone...
C A P Í T U L O I I I – W 3 C We b S e m â n t i c a
RDFa adiciona dados estruturados para HTML, ou seja,
um meio para uti...
CAPÍTULO IV – Sistemas Distribuídos
Um Banco de Dados Relacional define maneiras de
armazenar,

manipular

e

recuperar

d...
C A P Í T U L O I V – L i n ke d D a t a . O r g
Linked Data é a forma de se usar a internet para
conectar dados relaciona...
C A P Í T U L O I V – L i n ke d D a t a . O r g
O Movimento Open Data visa tornar os dados atuais
disponíveis livres para...
C A P Í T U L O I V – L i n ke d D a t a P l a t f o r m
O Grupo de Trabalho Linked Data Platform desenvolveu
um protocolo...
C A P Í T U L O I V – S PA R Q L
SPARQL é uma linguagem de consulta RDF para bancos
de dados capaz de recuperar e manipula...
CAPÍTULO IV – DBPedia
A DBpedia

é uma tarefa conjunta para extrair

informações estruturadas da Wikipedia e disponibilizá...
Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:
Mesmo exemplo utilizando RDF:
Mesmo exemplo utilizando JSON:
Mesmo exemplo utilizando NTriples:
CAPÍTULO IV – Buscadores e Indexadores
Existem crawlers que permitem processar RDF/XML,
Turtle, Notation 3, RDF e microfor...
C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s
A Web 1.0 tinha a interatividade limitada a troca de
emails e...
C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s
Em seu relatório de tecnologias emergentes, Gartner
afirmou q...
C A P Í T U L O V – B I G DATA
É o conjunto de soluções capaz de lidar com dados em
volume, variedade e velocidades gigant...
C A P Í T U L O V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )
C A P Í T U L O V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )
CAPÍTULO V – Projeto IBM Apache Hadoop
É um framework aberto em java para processamento
distribuído para Big Data praticam...
C A P Í T U L O V – Te r a b y t e S o r t B e n c h m a r k 2 0 1 3
CAPÍTULO V – IBM Big Data
CAPÍTULO V – Windows Azure
CAPÍTULO V – Google Big Query
Estatísticas de nascimento nos Estados Unidos de 1969
a 2008, sendo mais de 137 milhões de f...
C U R I O S I DA D E S

OLD PRINT SCREENS
FINAL
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.
Upcoming SlideShare
Loading in …5
×

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.

1,294 views

Published on

DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS (BIG DATA)

Published in: Technology
0 Comments
3 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total views
1,294
On SlideShare
0
From Embeds
0
Number of Embeds
3
Actions
Shares
0
Downloads
25
Comments
0
Likes
3
Embeds 0
No embeds

No notes for slide

Do Gopher, Web Crawler, Google, pagerank, sitemaps, ontologia, ao Big Data, Windows Azure, IBM Hadoop.

  1. 1. DOS ANTIGOS SISTEMAS DE BUSCA NA INTERNET AO NOVO PROCESSAMENTO DE DADOS NÃO-ESTRUTURADOS (BIG DATA) Leandro Pimentel Borges Matr. 1020900
  2. 2. P R O B L E M ÁT I C A : Atualmente a quantidade de dados gerados por segundo é muito maior do que a gerada há 10 anos no período de um ano, além desta ser não-estruturada também é preciso analisa-la e gerar resultados precisos em um curto período de tempo - BIG DATA. Para ser dado outro grande passo na evolução da internet é necessário que todas as máquinas se comuniquem e entendam os dados que recebem utilizando ONTOLOGIA.
  3. 3. Problema a ser explorado: O problema a ser explorado é a falta de conhecimento, tanto o usuário comum como do aluno inicial, de como funcionavam os primeiros buscadores da internet, como evoluíram, como encontra-se a internet atual, interação de sites e bancos de dados, como caminha o atual sistema de gerenciamento de informação dinâmico da internet e como será a internet do futuro. O objetivo é explicar tudo isso e de forma resumida mas sem aprofundar-se tecnologicamente em cada assunto.
  4. 4. CAPÍTULO I –Motores de busca (buscadores) É um programa para encontrar informações armazenadas em um banco de dados a partir de palavras-chave indicadas, apresentando os resultados organizadamente, e de maneira rápida e eficiente. As maiores empresas na área de busca em 01/10/2012 são Google (Us$ 249,2 bilhões), a Microsoft (Us$ 248,7 bilhões), o Yahoo disponível). (Us$ 20 bilhões) e o Bing (valor não
  5. 5. CAPÍTULO II – História dos Buscadores 1990 – Archie (arquivos em FTP anônimos); 1991 – Gopher (textos em geral); Veronica e Jughead (para o Gopher); 1993 – Wandex (índice de textos), Aliweb; 1994 – Web Crawler (buscador moderno), Lycos; 1995 – Yahoo Diretórios (formulário para cadastro); 1998 – beta spider na página inicial, Google; 2000 – robot automático varria links de sites (motores indexantes, crawlers ou spiders).
  6. 6. O Webcrawler aparece no filme “Possuídos”, (Fallen / 1998), com Denzel Washington, aos 21:25min, como exemplo de principal buscador.
  7. 7. CAPÍTULO II – Tipos de Buscadores Globais (Google, Yahoo, Bing); Verticais (Buscapé, Bondfaro); Locais (Telelistas, Apontador, Icarros); Diretórios (índices de categorias); Open Directory (www.DMOZ.org);
  8. 8. CAPÍTULO II – Indexação de páginas Forma mais eficiente de organizar e encontrar dados; Formato atual: XML (maior eficácia, crawler simples) Crawlers varrem sites copiando dados p/ B.D.; Pagerank definindo importância do site; Metatags definindo conteúdo para buscadores; keywords, description, content-language, content-type, author, reply-to, generator. Comandos: refresh, Header "Location"
  9. 9. CAPÍTULO II – ROBOTS O robots.txt é um arquivo que é procurado pelas ferramentas de busca para saber quais partes do site não devem ser indexados. Robots.txt User-agent: * Disallow: /cgi-bin/ #scripts e programas Disallow: /logado/ Disallow: /tmp/ #parte de testes Disallow: /private/ #arquivos da empresa
  10. 10. CAPÍTULO II – SITEMAPS Um Sitemap é um arquivo XML que lista os URLs de um site para facilitar a indexação do site pelos motores de busca de forma mais inteligente, podendo incluir informações sobre cada URL, última atualização, etc. Enquanto os sitemaps servem para inclusão de URL os robots.txt tem a função contrária, servindo para exclusão. O Google deu início ao Sitemaps versão 0.85 em junho de 2005, MSN e Yahoo anunciaram apoio em novembro de 2006 e em abril de 2007 a Ask e a IBM iniciaram suporte.
  11. 11. C A P Í T U L O I I – M E TA B U S C A É um sistema que realiza uma pesquisa em vários mecanismos de busca ao mesmo tempo, funcionando da mesma forma que os motores de busca convencionais e com a vantagem de padronizar e mostrar um resultado muito maior. Os metabuscadores (ou multibuscadores) são muito eficientes quando utilizados na busca de termos muito específicos e quando há necessidade de cruzar muitos dados afim de estreitar o resultado final de uma pesquisa.
  12. 12. C A P Í T U L O I I – W E B C R AW L E R Também chamados de agentes, bots, spiders, robots ou scutters. São indexadores automáticos que navegam pela internet de uma forma metódica e automatizada visitando cada página de um site, colhendo informações e copiando todo o texto principal e indexando-as ao banco de dados. Bots também podem ser usados para colher emails, verificar atualizações, validar links, validar código fonte, checar erros, apagar links inválidos dos bancos de dados, adicionar novos links, etc.
  13. 13. C A P Í T U L O I I – A LTAV I S TA O AltaVista (www.altavista.digital.com) começou a funcionar em 15/12/1995, pertencia a Digital Equipment Corporation e chegava a fazer 61.000 pesquisas diárias. Em 1998 a Compac compra o Altavista, depois foi comprada em 02/2003 pela Overture Services (GoTo.com) e depois comprada pelo Yahoo, em 08/2004, por Us$ 1,63 bilhão. Enquanto esta monografia estava sendo elaborada, o vice-presidente do Yahoo!, Jay Rossiter, anunciou que dia 08/07/2013 o Altavista Search encerraria seus serviços.
  14. 14. CAPÍTULO II – Search Engine Optimization (SEO) É o processo de influenciar a visibilidade de um site num mecanismo de pesquisa em resultados gratuitos ou pagos afim de receber mais visitantes e ter maior lucro, podendo pesquisar por imagens, vídeos, notícias, etc. Provavelmente essa expressão SEO entrou em uso em 1997 com John Audette e sua empresa Multimedia Marketing Group.
  15. 15. QDF: http://www.branded3.com/blogs/using-google-query-deserves-freshness-model/
  16. 16. CAPÍTULO III – Ontologia Ontologia é uma modelagem de dados de um conjunto de conceitos, objetos e estruturas. É utilizada em inteligência artificial, web semântica, engenharia de software e arquitetura da informação, como uma forma de representação de conhecimento. Ontologias geralmente descrevem Indivíduos (objetos básicos), Classes (conjuntos, coleções ou tipos de objetos), Atributos (propriedades e características dos objetos) e Relacionamentos (formas de relacionamento entre objetos).
  17. 17. CAPÍTULO III – Ferramentas de Ontologia Protégé 2000 - Ambiente interativo com arquitetura modulada. Possui código aberto, importando e exportando para XML.
  18. 18. CAPÍTULO III – Ferramentas de Ontologia WebODE - Desenvolvido na Universidade Politécnica de Madri. Aplicação Web com ontologias armazenadas em BD relacionais.
  19. 19. CAPÍTULO III – Ferramentas de Ontologia OntoEdit - Ambiente gráfico para edição, navegação, e alteração de ontologias. Disponível como Free ou Professional.
  20. 20. CAPÍTULO III – Bibliotecas de Ontologia Disponibilizam listas ou diretórios de ontologias com mecanismos de buscas. • DAML Ontology Library - ontologias em DAML. • SchemaWeb - diretório de RDF em OWL e DAML+OIL. • Swoogle - recursos RDF e ontologias. • OntoSelect - recursos em RDF/S, DAML e OWL. • Ontaria - diretório navegável em RDF e OWL.
  21. 21. CAPÍTULO III – Linguagens de Ontologia A DAML (DARP Agent Markup Language) é uma linguagem de ontologia e inferência baseada em RDF, uma iniciativa da DARPA (Defense Advanced Research Projects Agency) e oriunda da combinação de DAML e OIL, denominada DAML+OIL, uma linguagem anteriormente proposta pelo W3C.
  22. 22. CAPÍTULO III – Bibliotecas de Ontologia A OWL (Web Ontology Language) - para aplicações que processam o conteúdo e o significado de informações em termos em vocabulários e seus relacionamentos, expressando significados e semânticas mais facilmente do que XML, RDF e RDF Schema pois é uma revisão da linguagem DAML+OIL, passando a fazer parte das recomendações do W3C para a Web Semântica.
  23. 23. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a A Web Semântica foi uma iniciativa da World Wide Web Consortium (W3C), desenvolvendo especificações para troca de dados e processamento por programas independentes. www.w3c.br/Home/WebHome http://validator.w3.org W3C - Consórcio criado para estimular a acessibilidade em sites, estudar novas possibilidades em modelagens semânticas, metadados e vocabulários. Atualmente se empenha na abertura de dados governamentais.
  24. 24. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a A linguagem de consulta SPARQL para dados RDF é formada pelos componentes Resource Description Framework (RDF) Modelo Core, a linguagem RDF Schema, a linguagem Ontology Web (OWL) e do Sistema de Organização do Conhecimento Simples (SKOS). As recomendações POWDER permitem encontrar descrições que podem ser "unidas" em RDF. As recomendações GRDDL e RDFa integram o modelo RDF e formatos XHTML.
  25. 25. C A P Í T U L O I I I – W 3 C We b S e m â n t i c a RDFa adiciona dados estruturados para HTML, ou seja, um meio para utilizar Linked Data em aplicações web. O objetivo da linguagem R2RML é servir como uma linguagem padrão mapeando dados relacionais e esquemas de banco de dados relacional para RDF e OWL. O objetivo do Linked Perfil Data Group é fornecer uma camada de "nível de entrada" da Linked Data usando RESTful, baseado em API HTTP.
  26. 26. CAPÍTULO IV – Sistemas Distribuídos Um Banco de Dados Relacional define maneiras de armazenar, manipular e recuperar dados estruturados unicamente na forma de tabelas. Foram desenvolvidos para facilitar o acesso aos dados pois os usuários podem fazer perguntas através de vários pontos em centenas de tabelas, associadas por chaves (conjunto de relacionamentos. seus atributos), através de regras de
  27. 27. C A P Í T U L O I V – L i n ke d D a t a . O r g Linked Data é a forma de se usar a internet para conectar dados relacionados separados. A Wikipedia define como "um termo usado para descrever uma prática recomendada para expor, compartilhar e se conectar pedaços de dados, informações e conhecimentos sobre a Web Semântica usando URIs e RDF."
  28. 28. C A P Í T U L O I V – L i n ke d D a t a . O r g O Movimento Open Data visa tornar os dados atuais disponíveis livres para todos. Atualmente temos: Wikipédia, Wikibooks, Geonames, MusicBrainz, WordNet, a bibliografia DBLP e as publicações sob licenças Creative Commons ou Talis. Até setembro de 2011 foram 295 conjuntos de dados com mais de 31 bilhões de triplos RDF interligados por cerca de 504 milhões de ligações RDF.
  29. 29. C A P Í T U L O I V – L i n ke d D a t a P l a t f o r m O Grupo de Trabalho Linked Data Platform desenvolveu um protocolo para APIs RESTful Web Services para acessar dados RDF utilizando SPARQL que podem ser definidas independentemente para obter e alterar o estado de objetos no servidor, identificados com URIs. Aplicações LDP simples podem ser desenvolvidos e implantados usando apenas RDF e HTTP. Aplicações mais extensas do LDP podem ser construídas utilizando RDFS, SPARQL, OWL, RIF, etc.
  30. 30. C A P Í T U L O I V – S PA R Q L SPARQL é uma linguagem de consulta RDF para bancos de dados capaz de recuperar e manipular dados. Foi feito um padrão pelo Grupo RDF Data Access Working do W3C e é uma das principais tecnologias da web semântica pois permite uma consulta em padrões triplos, conjunções, disjunções e padrões opcionais além de existir implementações para várias linguagens de programação.
  31. 31. CAPÍTULO IV – DBPedia A DBpedia é uma tarefa conjunta para extrair informações estruturadas da Wikipedia e disponibilizá-las na Web, permitindo criar ligações com outros bancos de dados, interligando e melhoramento da própria enciclopédia. A DBpedia oferece um gigantesco banco de dados, em várias línguas, compartilhados sob uma licença de domínio público pois a ideia desse projeto é construir uma comunidade colaborativa, catalogando o conhecimento humano, modelando, representando e compartilhando informações.
  32. 32. Banco de dados da DBPedia sobre o Filme “O Homem do Futuro”:
  33. 33. Mesmo exemplo utilizando RDF:
  34. 34. Mesmo exemplo utilizando JSON:
  35. 35. Mesmo exemplo utilizando NTriples:
  36. 36. CAPÍTULO IV – Buscadores e Indexadores Existem crawlers que permitem processar RDF/XML, Turtle, Notation 3, RDF e microformatos para armazená-los como arquivos ou repositórios RDF e o LDspider . Exemplos: Sig.ma (http://sig.ma), (ws.nju.edu.cn/falcons/objectsearch/index.jsp), (swse.org/index.php), Sindice (swoogle.umbc.edu), Watson RST_API.html), etc. (sindice.com), Falcons SWSE Swoogle (kmi-web05.open.ac.uk/
  37. 37. C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s A Web 1.0 tinha a interatividade limitada a troca de emails e chats e a interatividade era praticamente nula. Lévy (2010) chama a Web 2.0 de computação social, onde a criação e layout dos conteúdos é feita pelo usuário. A Web 3.0 foi anunciada pela primeira vez em 2011, por Tim Berners Lee, James Hendler e Ora Lassila, intitulado “Web Semântica: um novo formato de conteúdo para a Web que tem significado para computadores e vai iniciar uma revolução de novas possibilidades”.
  38. 38. C A P Í T U L O V – Te c n o l o g i a s E m e r g e n t e s Em seu relatório de tecnologias emergentes, Gartner afirmou que Column-store DBMS, Computação da Nuvem, InMemory Database Management Systems serão os três maiores transformadores de tecnologias nos próximos cinco anos. Esse mesmo relatório também cita Complex Event Processing, conteúdo analítico, serviços de contextos enriquecidos, Computação na Nuvem híbrida, Framework de Capacidades de Informação e Telemática.
  39. 39. C A P Í T U L O V – B I G DATA É o conjunto de soluções capaz de lidar com dados em volume, variedade e velocidades gigantescos, analisando informações em tempo real e sendo fundamental para a tomada de decisões. A quantidade global de dados digitais crescerá de forma exponencial de 1,8 zettabytes, em 04/2012, para 7,9 zettabytes em 3 anos (04/2015).
  40. 40. C A P Í T U L O V – B I G DATA 1 . 0 ( 0 4 / 2 0 1 2 )
  41. 41. C A P Í T U L O V – B I G DATA 2 . 0 ( 1 1 / 2 0 1 2 )
  42. 42. CAPÍTULO V – Projeto IBM Apache Hadoop É um framework aberto em java para processamento distribuído para Big Data praticamente financiador pelo Yahoo. Foi o vencedor do Terabyte Sort Benchmark 2013 com os impressionantes resultados: Velocidade máxima de processamento de 1.42 TB/min, com 102.5TB de dados analisados e refinados em 72 minutos e utilizando 2100 nodes de 2.3Ghz hexcore Xeon E5-2630, 64 GB memory, 12x3TB disks, sendo 80% mais rápido que as concorrentes .
  43. 43. C A P Í T U L O V – Te r a b y t e S o r t B e n c h m a r k 2 0 1 3
  44. 44. CAPÍTULO V – IBM Big Data
  45. 45. CAPÍTULO V – Windows Azure
  46. 46. CAPÍTULO V – Google Big Query Estatísticas de nascimento nos Estados Unidos de 1969 a 2008, sendo mais de 137 milhões de fileiras de dados.
  47. 47. C U R I O S I DA D E S OLD PRINT SCREENS
  48. 48. FINAL

×