O documento discute como a ciência de dados e análise de big data podem ser aplicadas em pesquisas científicas e sociais. Apresenta técnicas como aprendizado de máquina, análise de redes sociais, extração de informações, análise de sentimentos e modelagem de tópicos que podem ser usadas por cientistas sociais para explorar grandes conjuntos de dados. Também reflete sobre como essas abordagens podem gerar novas perguntas e perspectivas para pesquisas sociais.
54. • Mais de 3000 livros publicados diariamente
• Uma edição de domingo do NYT contém mais
informação do que um cidadão do século XVIII
leria durante toda a vida
+de 100 bilhões de
buscas no Google
por mês (~40.000
por segundo).
Quem tratava
destas
necessidades de
informação há 18
anos, antes do
Google existir?
63. • Big Data se refere usualmente a datasets com tamanho além da capacidade
de processamento por ferramentas usuais de software, em tempo hábil
• O “tamanho” do que é considerado Big Data é fugidio. Em 2012 eram poucos
terabytes; hoje já são muitos petabytes.
• Big Data é também um conjunto de técnicas e tecnologias que requerem
novas abordagens e métodos para se buscar valor em conjuntos de dados
diversificados, complexos e em escala massiva.
O que é
Big Data?
64. • Como transformar 12TB de tweets
diários em um produto de análise
de sentimento e marketing digital?
• Como converter dezenas de
gigabytes de notícias em insight
sobre oportunidade de negócios?
• Milhares de operações no Bovespa a
cada segundo;
• Milhares de acessos aos repositórios
por segundo
• Centenas de tentativas de ataque
por minuto aos servidores da FGV
durante eventos como concursos.
Fonte: IBM Corporation
• Dados estruturados e não estruturados;
• Bancos de dados, texto, áudio, vídeo,
logs de servidores, streams de redes
sociais, câmeras de vigilância,
shapefiles, dados de sensores;
• 70% do tempo de análise gasto na
limpeza de dados.
Tamanho importa. Mas não é só tamanho…
65. Estimativas obtidas através da
energia consumida indicam que a
Google possua 2.4 M servidores e
15 exabytes de dados (2013)
IDC Brazil BI & Big Data Conference 2013
Quem é “Big”?
E no Brasil?
500 TB por dia (2013)
70. Data Science ou e-Science
Jim Gray: e-Science is where
“IT meets scientists.”
http://research.microsoft.com/en-us/collaboration/fourthparadigm
71. • Há mais de mil anos: a ciência era empírica
• Baseada na descrição de fenômenos naturais
• Há algumas centenas de anos: surgem ramos
teóricos
• Uso de modelos e generalizações
• Há algumas décadas: surgem ramos
computacionais
• simulação de fenômenos complexos
• Hoje: exploração de dados (eScience)
• Unificação de teoria, experimentos e simulação
• Dados capturados por instrumentos ou gerados por
simuladores
• Processamento intensivo via software científico
• Informação e Conhecimento armazenados no computador
• Cientistas analisam bancos de dados e arquivos usando
ferramentas analíticas e estatísticas
Paradigmas científicos
86. • Atividade relacionada à Recuperação de Informação, mas com o objetivo de extração
de informações estruturadas de documentos semi-estruturados ou não estruturados
através de técnicas de PLN, utilizando lógica e ontologias;
• Funciona em Domínios Restritos;
• Exemplo: extrair a estrutura (Companhia, Comportamento das ações, percentual) de
frases como: “As ações da Petrobras cairam fortemente ontem devido a queda do
preço do Petróleo”.
Extração de Informações
89. • Utiliza as técnicas anteriores para extrair informações sobre as relações afetivas e
estados emocionais do autor;
• Busca também identificar as polaridades (negativa, neutra, positiva) em relação ao
objeto estudado, que pode ser um produto consumido sobre o qual se está
manifestando uma opinião;
• Domínios restritos e problemas: ironia, sarcasmo, sinonímias, duplos-sentidos, etc.
Análise de Sentimentos