2. Introdução
• Variedade de dados gerados e armazenados
• Mas apenas ter dados não basta: é importante conseguir e saber usá-los.
É aí que o conceito de Big Data entra em cena.
• Conceito irá contribuir para o cotidiano de empresas, governos e demais
instituições.
4. O conceito de Big Data
• A princípio, podemos definir o conceito de Big Data como sendo conjuntos de dados
extremamente amplos e que, por este motivo, necessitam de ferramentas especialmente
preparadas para lidar com grandes volumes, de forma que toda e qualquer informação nestes
meios possa ser encontrada, analisada e aproveitada em tempo hábil.
• Informação é poder, logo com esses dados em mãos poderá entender como melhorar um
produto, como criar uma estratégia de marketing mais eficiente, como cortar gastos, como
produzir mais em menos tempo, como evitar o desperdício de recursos, como superar um
concorrente, como disponibilizar serviços para a um cliente especial de maneira satisfatória
e assim por diante.
• fatores que podem inclusive ser decisivos para o futuro de uma companhia.
• O Big Data é recente ? Data Mining, Business Intelligence e CRM (Customer Relationship
Management).
• Big Data é somente um grande volume de dados ?
5. Porque Big Data é tão importante?
• Avanços computacionais nos permitem guardar, organizar e analisar.
• Esta longe de parar este grande volume de dados IoT… conexão de vários dispositivos com
a internet.
• As tecnologias atuais nos permitiram - e permitem - aumentar exponencialmente a
quantidade de informações no mundo.
6. Os V’s do Big Data
• Volume é o que conhecemos.
• Velocidade para dar conta de determinados problemas, o tratamento dos dados (obtenção,
gravação, atualização, enfim) deve ser feito em tempo hábil.
• Variedade os volume de dados que temos hoje são consequência também da diversidade de
informações. Dados estruturados e não-estruturados.
• Veracidade dos dados esses dados são consistentes ?
• “Volume + Velocidade + Variedade + Veracidade”, o resultado tem que gerar algum Valor.
7. Soluções de Big Data
• Lidar com Volume muito alto de dados, trabalhar com processamento distribuído e
elasticidade.
• Banco de dados “Tradicionais” que exploram o modelo relacional não são adequados a estes
requisitos já que são menos flexíveis.
• ACID deixaram o banco relacional muito popular.
• A elasticidade, por exemplo, pode ser inviabilizada pela atomicidade e pela consistência.
8. NoSQL
• Histórico
• O NoSQL faz referência às soluções de bancos de dados que possibilitam armazenamento de
diversas formas
• Bancos do tipo são mais flexíveis, sendo inclusive compatíveis com um grupo de premissas
que "compete" com as propriedades ACID: a BASE (Basically Available, Soft state,
Eventually consistency - Basicamente disponível, Estado Leve, Eventualmente consistente).
• Via de regra, escalar (torná-lo maior) um bancos de dados NoSQL é mais fácil e menos
custoso.
• É necessário também contar com ferramentas que permitam o tratamento dos volumes.
Neste ponto, o Hadoop é, de longe, a principal referência.
9. Hadoop
• O Hadoop é uma plataforma open source desenvolvida especialmente para processamento e
análise de grandes volumes de dados, sejam eles estruturados ou não estruturados.
• Pode-se dizer que o projeto teve início em meados de 2003, esta tecnologia recebeu o nome
de MapReduce.
• O Hadoop é tido como uma solução adequada para Big Data por vários motivos:
• Proporciona economia, já que não exige o pagamento de licenças e suporta hardware
convencional, permitindo a criação de projetos com máquinas consideravelmente mais
baratas;
• O Hadoop conta, por padrão, com recursos de tolerância a falhas, como replicação de
dados;
• O Hadoop é escalável: havendo necessidade de processamento para suportar maior
quantidade de dados, é possível acrescentar computadores sem necessidade de realizar
reconfigurações complexas no sistema.