SlideShare a Scribd company logo
1 of 16
Download to read offline
1 
A sociedade na era do big data: Dados demais, filtros de 
menos 
Pedro Alexandre Cabral 1 
Gustavo Said 2 
Resumo: O armazenamento da informação é característica intrínseca ao ser humano. Desde 
as eras mais remotas o homem sempre pautou-se pela eminente necessidade de registrar 
dados. Entretanto, nos dias atuais, com a profusão da internet, essa quantidade de informações 
alcançou um crescimento exponencial. Nesse contexto, o presente trabalho tem como objetivo 
analisar como técnicas de data mining podem ajudar na produção de conhecimento em 
contextos em que o pesquisador lida com grandes volumes de dados. Para tanto, será realizada 
uma contextualização acerca da “sociedade na era do big data”, de forma especial nos 
cenários que tangenciam a orquestração de criação de dados a partir das redes sociais. Além 
disso, será realizada uma incursão epistemológica acerca do tema, pontuando a aplicabilidade 
do datamining em meio a esses massivos volumes de dados, tendo como aporte 
teórico TURBAN (2005), LIMA JR (2004), dentre outros. 
Palavras-chave: Big data, data mining, redes sociais 
. 
1 Pedro Alexandre Cabral é Bacharel em Administração pela Universidade Estadual do Piauí – UESPI. 
Especialista em Administração Estratégica pelo Centro de Ensino Unificado de Teresina- CEUT. Mestrando em 
Comunicação no PPGCOM da UFPI. E-mail: pedroale@pedroale.com. 
2 Gustavo Said é doutor em Ciências da Comunicação pela Unisinos. Professor do Programa de Pós-Graduação 
em Comunicação da Universidade Federal do Piauí. E-mail: gsaid@uol.com.br.
2 
1 INTRODUÇÃO 
O armazenamento da informação é característica intrínseca ao ser humano. Ao 
analisar a história percebemos que desde os primórdios o homem carece da necessidade de 
guardar informações: figuras rupestres em cavernas ou escritas em paredes de pedras 
encravadas nas pirâmides egípcias são apenas alguns exemplos. Isto também é visto nas 
culturas que somente dominam a linguagem oral, na busca de perpetuar o antigo por 
intermédio da oralidade (LIMA JUNIOR, 2011). 
Hoje, a penetração da internet e das tecnologias digitais no cotidiano do cidadão 
comum alavancou uma incrível mobilidade e ubiquidade comunicacional e informacional 
no nível do indivíduo, e não mais apenas no nível das organizações, catalisando assim, tanto 
o controle e a transparência, quanto às possibilidades de auto exposição em níveis inéditos 
na nossa história (GABRIEL, 2010). 
O valor mais acessível de máquinas computacionais (processamento e memória) e dos 
dispositivos de captura e armazenagem de dados (sensores, câmeras fotográficas e de vídeo, 
celulares, pen-drives, flash memory, discos rígidos externos, etc.) criaram inimaginável 
quantidade de dados, que estão sendo disponibilizados na Web, proporcionando a formação 
da “Era do Big Data” (LIMA JUNIOR 2011). 
Em outro trabalho desenvolvido em 2012 , intitulado de Big Data, Jornalismo 
Computacional e Data Journalism: estrutura, pensamento e prática profissional na Web de 
dados, Lima Junior (2012, p. 211) define Big Data (BD) como sendo um 
[...] conjunto de dados (dataset) cujo tamanho está além da 
habilidade de ferramentas típicas de banco de dados em capturar, 
gerenciar e analisar. A definição é intencionalmente subjetiva e 
incorpora uma definição que se move de como um grande conjunto 
de dados necessita ser para ser considerado um big data. 
Como o autor propõe, não existe uma definição precisa acerca do Big Data, entretanto 
autores como Zikopoulos et al (2012) advogam que o BD caracteriza-se pela presença de 
quatro aspectos: volume, velocidade, variedade e veracidade. Volume refere-se, como o 
próprio nome sugere, a quantidade de dados disponível na internet e que nos últimos anos 
vem crescendo de forma exponencial. A velocidade diz respeito a rapidez que os dados
podem ser capturados e processados. Variedade, por sua vez, pauta-se nas diversas fontes de 
dados em que estes podem ser encontrados e o último aspecto, veracidade, abrange com 
característica o fato que estes dados não apresentam uma verdade absoluta, ou seja, certa 
incerteza onde deve-se observá-los com muita parcimônia para que os mesmos possam 
gerar informações úteis e oportunas. 
Isto posto, o massivo crescimento de dados na internet traz consigo grandes óbices no 
que tange a disponibilização da informação. Ao digitarmos a palavra “identidade” no 
Google, por exemplo, encontramos aproximadamente 834.000.000 resultados3, dificultando 
o processo de seleção e interpretação das informações por parte do usuário. Outro grande 
problema, segundo Sprink, Wolfram et al (2001) é a dificuldade encontrada pelos usuários 
em expressar a necessidade de informação por meio de palavras chaves, visto que 
aproximadamente cinquenta e dois por cento das buscas realizadas nas máquinas são 
reformuladas. 
Dentro dessa nova perspectiva de utilização das bases de dados, Machado e Palacios 
(2007), em estudo sobre as competências dos profissionais de Comunicação, citam a 
existência de pesquisas que tratam sobre a prática dos profissionais da área, em especial a 
necessidade destes se adaptarem às novas exigências do mercado, tendo o domínio dos 
processos de digitalização da informação. 
Dentre as competências digitais compiladas no estudo citado, eis algumas: uso básico 
do computador como ferramenta para busca, avaliação e classificação de informações; 
“cultura de internet” (MACHADO e PALACIOS, 2007, p.79); conhecimentos básicos e 
utilização de programas de edição de texto, tratamento de imagem, áudio, programação 
visual; conhecimento teórico sobre redes e seu funcionamento e alta capacidade de 
aprendizagem de uso de novos programas. 
Para Lima Junior (2011), a capacidade e facilidade em reunir e armazenar informações 
em um banco de dados, assim como sua utilização, cresce a cada dia e na mesma proporção 
que novas tecnologias são desenvolvidas e propagadas para facilitar o trabalho do 
consumidor. Com a popularização da rede mundial de computadores, quase todo e qualquer 
conteúdo produzido passa a ser colocado em um espaço considerado até então infinito, 
3 
3 Pesquisa realizada em 05/07/2014
reflexo também da atualização de produtos comunicacionais palpáveis, como revistas, 
jornais e principalmente livros. 
Nesse contexto, organizações de toda a ordem, bem como usuários comuns, estão 
migrando seus conteúdos para os discos rígidos dos computadores. Logo, a atividade em 
reunir a maior quantidade de informações e disponibilizar de forma organizada, simples e 
objetiva, começa a se tornar uma tarefa obrigatória no mundo da comunicação, mas 
concomitantemente árdua e repleta de ruído. O modo mais clássico de armazenamento de 
informação é através da palavra escrita, impressa. O acesso à informação estocada dessa 
forma é lento, difícil e de pouco rendimento. Para todas as etapas da manipulação da 
informação é necessária a presença do ser humano, e suas limitações na capacidade de 
aquisição de dados e processamento de grande volume de informações constituem o 
principal gargalo do processo (MANDEL, SIMON, & DELYRA, 1997). 
Inobstante a este excesso de dados, a quantidade de informações produzidas 
encontra-se, em sua maioria disposta em base de dados não estruturadas, ou seja, base de 
documentos textuais, cujo formato está adequado ao homem que, somente através da leitura, 
é capaz de decodificar a informação contida no texto e aprendê-la (SCHIESSL, 2007). 
Frente a este contexto de enormes mananciais de dados, a fim de prover uma fluidez e 
agilidade no manuseio da informação, existe uma necessidade premente de associar novas 
tecnologias ao contexto atual onde, dentro do nosso entendimento, as pesquisas atuais em 
comunicação já não conseguem resolver suas inquietações face a este grande volume de 
dados. Assim sendo, sugere-se que exista uma interdisciplinaridade maior com outras áreas, 
sobretudo as que advêm das ciências da computação. 
4 
2 REDES SOCIAIS E O EXCESSO DE DADOS 
A sociedade contemporânea está cada vez mais imersa em redes de conexões digitais, 
nas quais os fluxos de informações estão quase sempre associados a uma “inócua” conversa 
polissêmica nos mais variados canais. A conectividade dá lugar à construção de novos 
artefatos tecnológicos, mas pode-se perguntar se ela está, de fato, a serviço de uma 
necessidade básica da existência humana: a socialização. 
Mesmo antes do surgimento da internet essas interações sociais, via tecnologia, já 
eram percebidas. O processo se deu com o surgimento dos meios de transporte e de
comunicação (MCLUHAN 1964). Com o uso e acesso a novos serviços e produtos 
tecnológicos, sobretudo os advindos da internet e, de uma forma mais fecunda as redes 
sociais, temos percebido a articulação de plataformas tecnológicas para formação de novas 
comunidades e criação de mecanismos cada vez mais interacionais, onde, possivelmente, se 
renovam de forma intensa e reforçam a construção de discursos polifônicos e dialógicos. 
Ainda dentro deste prisma, nota-se que a evolução tecnológica vem refletindo 
diretamente sobre as sociedades e principalmente sobre o comportamento humano. 
Percebemos que houve um crescimento exponencial de Tecnologias de Informação e 
Comunicação (TICs) nos últimos séculos. De modo geral, todas essas tecnologias 
impulsionaram uma nova lógica social e cultural que, dentro desta premissa, o homem passa 
a ser criador e usuário das ferramentas tecnológicas, apropriando-se das possibilidades 
técnicas e, simultaneamente, sendo afetado por elas em todos os aspectos de sua existência. 
(TEIXEIRA 2011) 
Em meio a todo esse crescimento tecnológico percebe-se que, desde os primórdios, o 
homem, por apresentar-se como um animal gregário, precisou estar em grupos para 
sobreviver e, assim, com o passar dos anos passou a utilizar cada vez mais ferramentas de 
tecnologias de informação e comunicação para potencializar e diversificar as diversas 
maneiras de se comunicar. Uma parcela considerável deste avanço pauta-se na melhoria 
incessante de processos que permeiam a atividade de comunicação. Hoje, a comunicação 
toma uma outra extensão, pautada pelo uso de microchips, redes de internet sem fios e pelo 
excesso de informação. 
Atualmente, adentramos em uma “era da conexão” (WEINBERGER, 2003), onde 
flagra-se de forma cada vez proeminente a necessidade de uma conexão ubíqua e uso cada 
vez mais frequente de gadgets que tem como objetivo tornar a pervasive computing 4 ainda 
mais mandatória. (LEMOS 2002). A partir da popularização do acesso a novas tecnologias 
percebe-se uma difusão e de certo modo uma “democratização” no acesso a internet. Em 
5 
4 disseminação dos computadores em todos os lugares.
recente pesquisa elaborada pela Nielsen5, no Brasil, a classe C consome mais internet que a 
classe A e B, enquanto na classe A e B o consumo de médio por pessoa de páginas era no 
máximo 821, a classe C abriu, em média, 972 páginas no mês. Trata-se assim de 
transformações da práxis social e na forma de produzir e consumir informação. (LEMOS 
2005). 
Para Lemos (2005), a era da conexão é a era da mobilidade, onde visualiza-se uma 
densidade mobile, maior inclusive que a quantidade de computadores. Dados da Anatel 
(Agência Nacional de Telecomunicações) revelam que o Brasil terminou o mês de março de 
2014 com 273,6 milhões de celulares, o que representa uma teledensidade de 135,3 
dispositivos móveis para cada 100 habitantes. Em linhas gerais, este comportamento é 
presente em todos as unidades da federação. Apenas o estado do Maranhão apresenta uma 
densidade de celular menor que 100 aparelhos para cada 100 habitantes, conforme demostra 
a figura I. 
6 
FIGURE 1 - Densidade do Celular Brasil (Fev/14) 
Dentro desta acepção, Lemos (2005) destaca que a popularização de celulares e das 
redes de acesso a internet vem proporcionado mudanças na produção e consumo de 
informação, uma vez que o acesso esta imbricado de uma forma cada vez mais 
5 Empresa germânica americana especializado em prover pesquisas de mercado
pervasiva, ou seja conectividade em todos os lugares. Cooper, Green, Murtagh e Harper 
(2002) partem do entendimento que a era da conexão é a era da mobilidade. Essa nova era, 
pressupõe a ideia que os dispositivos móveis irão se tornar a principal forma de conexão à 
rede mundial de computadores. Em linhas gerais, percebe-se que o acesso mobile, nos 
últimos anos, vem crescendo e ficando cada vez mais presente no cotidiano das pessoas que, 
de certo modo, geram mais dados, uma vez que o device esta sempre ao alcance da mão. 
De acordo com projeções da CISCO®, empresa estadunidense especializada em 
soluções em redes de comunicação e dados, o tráfego na internet via dispositivos móveis em 
2017 será 13 vezes maior do que em 2012. Entretanto é oportuno salientar que boa parte 
deste acesso é destinado para interação nas redes sociais. A Nielsen publicou em 2012 um 
estudo intitulado State of the media6: the social media report onde flagrou um aumento 
considerável no tempo gasto nas redes sociais, via smartphone, em relação ao ano de 2011 e 
2012 conforme tabela abaixo: 
7 
Social Networking YOY% 
Change 
Facebook 61,0% 
Twitter 48,0% 
foursquare 154,0% 
Pinterest 6,1% 
Table 1 - Total Minutes Spent Social Networking 
Adaptado pelo autor 
Dentro dessa premissa, estas redes dão lugar a um ambiente de enorme interação e 
geração de informação. Ao analisar, de forma pontual, o buzz gerado em torno da morte do 
CEO da Apple, Steve Jobs, a empresa australiana de monitoramento de mídia social, SR7, 
estima que foram gerados 10 mil twittes por segundo citando o ocorrido. O exemplo citado 
permite inferir que: 
Na sociedade mediatizada, as instituições, as práticas sociais e 
culturais articulam-se diretamente com os meios de comunicação, de 
tal maneira que a mídia se torna progressivamente o lugar por 
excelência da produção social do sentido, modificando a ontologia 
tradicional dos fatos sociais (SODRÉ, 1999, p. 27). 
6 Disponível em http://www.nielsen.com/content/dam/corporate/us/en/reports-downloads/2012-Reports/The- 
Social-Media-Report-2012.pdf acesso em 14/05/14
Esta modificação dar-se, sobretudo, na forma como as pessoas estão buscando e 
criando informação. Há algumas décadas, basicamente, só tínhamos a TV e o rádio como 
principais difusores de notícias. Hoje, as redes sociais funcionam também como agentes de 
comunicação de massa. Essas novas interações, por sua vez, geram cada vez mais enormes 
quantidades de dados. Em outro estudo realizado pela CISCO®, o tráfego na internet 
cresceu 45% em um ano (entre 2009 e 2010), chegando a 15 exabytes7 por mês, e as 
projeções são de que o fluxo de informação na internet em 2015 será quatro vezes maior, 
chegando a 767 exabytes no ano. Recentemente, o PennyStocks lab8 desenvolveu um 
infográfico interativo, onde mostra o que esta acontecendo na internet em tempo real. 
Dentre os inúmeros insights, a ferramenta mostra, por exemplo, que em um minuto, 27.780 
posts são publicados no Tumblr, 204.166.680 e-mails são enviados, bem como 138.840 
horas de conteúdo são assistidas no YouTube. Ao analisar os dados oriundos das redes 
sociais percebe-se que esse tráfego torna-se ainda mais expressivo, em apenas um minuto 
temos: 
8 
a) WhatsApp: 11.088 contas criadas, 2.08.251.929 mensagens são enviadas; 
b) Facebook: 3.549.328 likes, 60.088.768 posts e 6.612 Gb de dados são gerados; 
c) Twitter: 6.617.700 twittes são enviados e 12.771 novas contas. 
7 Um exabyte corresponde a 1 bilhão de gigabytes. 
8 Disponível em http://pennystocks.la/ acesso em 19/05/14
9 
FIGURE 2 - Penny Stocks 
É perceptível que nas últimas décadas, a tecnologia, sobretudo as utilizadas na 
produção e difusão de conteúdo na área da comunicação, sofreu uma grande inovação. 
“Diversas plataformas digitais conectadas ficaram mais acessíveis do ponto de vista 
econômico e também foram reconfiguradas para serem acessadas de forma mais amigável 
por profissionais e amadores” (LIMA JUNIOR, 2012) 
Entretanto, é oportuno destacar que as pesquisas em comunicação outrora utilizadas já 
não conseguem mais resolver as inquietações trazidas por essas novas formas de 
“sociabilização digital”. Neste ímpeto, nasce a necessidade cada vez mais premente de 
buscar uma interdisciplinaridade com outras áreas do conhecimento, principalmente as de 
base tecnológica. Lima Junior (2012, p.4) parte do entendimento que 
A expansão tecnológica, além de ampliar e baratear os custos das 
possibilidades de produção e distribuição de conteúdos digitais, também 
abriu novas frentes na área da pesquisa acadêmica [...] Para acompanhar 
todo o processo de evolução tecnológica, é premente que os pesquisadores 
da área da comunicação social ampliem seus ferramentais metodológicos, 
adaptando-os aos instrumentos de verificação que são desenvolvidos em 
outras áreas do conhecimento. (LIMA JUNIOR 2012, p.4) 
Antes os estudos relacionadas ao comportamento humano citados nas pesquisas em 
comunicação eram alicerçados em metodologias behavioristas, agora tem-se a possibilidade 
de usar aparatos tecnológicos (LIMA JUNIOR, 2012). Dentro dessa conjectura, a ideia de
utilizar tecnologia na construção de novas pesquisas em comunicação engloba uma 
importância capital no alcance dos objetos. Isto posto, tem-se percebido que a sociedade, de 
modo geral, tem visualizado um olhar diferente sobre temáticas tecnológicas que antes eram 
utilizadas por experts em computação (LIMA JUNIOR, 2012). 
O pesquisador canadense em filosofia da tecnologia da escola de comunicação Simon 
Fraser University, Andrew Feenberg pontua no seu estudo What Is Philosophy of 
Technology9? que olhar da sociedade esta cada vez imbricado em assuntos de cunho 
tecnológicos. Em resumo, 
The public sphere appears to be opening slowly to encompass technical 
issues that were formerly viewed as the exclusive preserve of experts. Can 
this trend continue to the point where citizenship will involve the exercise 
of human control over the technical framework of our lives? We must hope 
so for the alternative appears to be certain destruction. Of course the 
problems are not only technological. Democracy is in bad shape today on 
all fronts, but no one has come up with a better alternative. If people are 
able to conceive and pursue their intrinsic interest in peace and fulfillment 
through the political process, they will inevitably address the question of 
technology along with many other questions that hang in suspense today. 
We can only hope this will happen sooner rather than later10 
Dessa forma, o pressuposto de um “pensamento computacional” defendido por 
Jeannete M. Wing pontua como temática principal a resolubilidade trazida pelos métodos 
computacionais referenda nosso entendimento acerca da utilização de tecnologia para 
resolver problemas de pesquisas em comunicação, já que esta “nova sociedade” caracteriza-se 
pela utilização e produção de grande volume de dados. Nesse contexto, sem algoritmos e 
métodos de pesquisa específicos para esse fim seria praticamente impossível resolve-los, a 
saber: 
Métodos e modelos computacionais nos encorajam a resolver problemas e 
desenhar sistemas que nenhum de nós seria capaz de desenvolver sozinho. 
O pensamento computacional envolve resolver problemas, desenhar 
sistemas e entender o comportamento humano, inspirados nos conceitos 
fundamentais das Ciências da Computação (Wing, 2006, p. 33). 
9 Disponível em http://www.sfu.ca/~andrewf/komaba.htm acesso em 19/06/2014, 
10 A esfera pública parece estar se abrindo lentamente para abranger assuntos técnicos que antes eram vistos 
como da esfera exclusiva dos especialistas. Pode esta tendência continuar a ponto de a cidadania envolver o 
exercício de controle humano sobre a estrutura técnica de nossas vidas? Esperemos que sim, pois a alternativa 
parece levar a certa destruição. Naturalmente os problemas não são apenas tecnológicos. A democracia está em 
má forma hoje em todas as frentes, mas ninguém propôs uma alternativa melhor. Se as pessoas puderem 
conceber e perseguir seus interesses intrínsecos em paz e plenitude por meio do processo politico, elas 
inevitavelmente abordarão a questão da tecnologia, juntamente com muitas outras questões que hoje estão em 
suspenso. Resta-nos apenas esperar que isso aconteça mais cedo que mais tarde. (FEENBERG, 2003; tradução 
nossa) 
10
11 
3 O USO DO DATA MINING NA DESCOBERTA DE “DADOS INVISÍVEIS” 
Estudos recentes comprovam que 85 % (oitenta e cinco por cento) de toda a 
informação do mundo está em formato textual (GDS PUBLISHING, 2008) (IBM, 2008). 
Entretanto, analisar base de dados não estruturadas como textos sempre representou um 
óbice, devido a grande dificuldade de sistematizar o significado do que está escrito. Signos 
gramaticais como acentos e abreviações promovem significados adversos e inserem uma 
contextualização diferente ao que foi dito. (PINHEIRO, 2009). 
Face a este enorme manancial de dados, faz-se necessário a utilização de mecanismos 
que visem descobrir padrões e informações até então desconhecidas. Neste ímpeto, o data 
mining apresentam-se como um agente capital na descoberta destes conhecimentos. Weiss 
(2007, p.87) define DM como sendo: 
Busca de informação valiosa em grandes volumes de dados. Data mining é 
o esforço desenvolvido por homens e máquinas. Os homens desenham os 
bancos de dados, descrevem os problemas e setam os objetivos. As 
máquinas mineram os dados, em busca de padrões que atendam a estes 
objetivos (tradução do autor). 
Weiss et al. (2007) corrobora com Wiess (2007) quando propõe que o data mining 
busca por regularidades, padrões ou tendências em textos de linguagem natural. Já Hearst 
(1999) traz uma definição mais holística ao pontuar DM como sendo um método de apoiar 
pesquisadores a derivar novas e relevantes informações de uma grande coleção de dados. 
Outra definição bastante utilizada sobre DM é a proposta trazida na obra From Data Mining 
to Knowledge Discovery, na qual o data mining funciona como: 
Extração de conhecimento de Base de Dados é o processo não-trivial de 
identificação de padrões válidos, novos, potencialmente úteis e 
compreensíveis embutidos nos dados (FAYYAD, PIATESKYSHAPIRO, 
SMYTH, 1996, p. 6). 
Mesmo não sendo uma técnica nascida no seio da comunicação, a sua utilização pode 
trazer grandes benefícios para o campo e de forma mais fecunda para o Jornalismo. Neste 
contexto, Fidalgo (2007, 161) três vantagens principais para a aplicabilidade de DM, sendo 
elas: 
A primeira é não exigir tanto tempo de trabalho de jornalistas como uma
análise interativa (baseada em consultas individuais escolhidas caso a caso) 
de um grande volume de dados pode implicar. A segunda é um ganho de 
capacidade de extração de conhecimento, devido a ser possível testar um 
número muito mais vasto de hipotéticas relações interessantes ao nível dos 
dados do que seria possível se essas hipóteses tivessem de ser diretamente 
sugeridas ao sistema de pesquisa (e os seus resultados tivessem de ser 
diretamente avaliados) por especialistas humanos. A terceira vantagem, 
mais subtil, é que ao testarem automaticamente conjuntos exaustivos de 
possíveis padrões, os sistemas de KDD (knowledge-discovery in 
databases) tem mais probabilidades de testar e encontrar conhecimento 
inesperado (e inovador) do que se pode esperar de consultas interativas 
sugeridas com base no conhecimento sobre o domínio previamente 
existente. 
Ainda dentro desta perceptiva, Fidalgo (2007, 163) acredita que os jornalistas do 
futuro serão uma espécie de McGyver, homens ou mulheres de mil e um recursos, 
trabalhando sozinhos, equipados com uma câmara de vídeo digital, telefone satélite, portátil 
com software de edição vídeo e html, e ligação sem fios à Internet. 
O que a possibilidade e a exequibilidade da mineração de dados nos 
mostram é a necessidade de formar jornalistas que integrados em equipas 
multidisciplinares de informáticos, especialistas de estatística e de 
hermenêutica de dados, saibam detectar o valor noticioso das relações e 
dos padrões extraídos da massa imensa de dados, coligidos a acumulados a 
uma rapidez estonteante. Teremos, tal como já temos hoje, jornalistas de 
rua e jornalistas de secretária, sendo os primeiros de facto os tais backpack 
journalists e os segundos investigadores de factos complexos, descobrindo 
relações importantíssimas de um ponto de vista jornalístico entre 
ocorrências de uma absoluta trivialidade quanto encaradas isoladamente 
(Fidalgo 2007). 
Entretanto, para obtenção de êxito na utilização de técnicas de DM, é de suma 
importância mapear e desenvolver fluxos de trabalho que permitam uma maior assertividade 
no que diz respeito a sua utilização. Sendo assim, Aranha (2007) sugere o seguinte fluxo: 
12
13 
Figure 3: Fases Data mining - adaptado pelo autor 
A primeira fase é a coleta, onde tem-se o processo de formação de uma base dados, 
ferramenta essa indispensável para elaboração do processo de data mining. A próxima etapa 
é o pré-processamento, pois sistemas de data mining não submetem aos seus algoritmos de 
descoberta de conhecimento coleções de textos despreparadas (GOMES, 2008). Uma vez 
realizada a coleta de dados, o próximo passo é a preparação dos textos para que os mesmos 
possam ser manipulados pelos algoritmos de Mineração de Textos. 
Após o pre-processamento inicia-se a fase da indexação, que consiste no processo 
responsável pela criação de estruturas auxiliares denominadas índices e que garantem a 
rapidez e agilidade na recuperação dos dados. De acordo com Soares (2009 p. 99), 
Técnicas de indexação de documentos foram bastante difundidas pela 
demanda e crescimento da área de Recuperação de Informação desde a 
década de sessenta. Contudo, muitas pessoas acreditam que esta é uma área 
nova. Esta ideia talvez tenha surgido com a grande popularização das 
máquinas de buscas que tornaram possível a pesquisa do conteúdo de 
páginas web, ou seja, documentos textuais. 
Uma vez indexados, os dados serão submetidos a algoritmos de aprendizados de 
máquinas e estatística. Segundo Manovich, (2001, p. 197) algoritmo é um conjunto bem 
definido de instruções em pseudo linguagem computacional ou linguagem de descrição, que 
define as estruturas dos dados, com vistas a manipulá-los e a formatar os resultados. 
A quarta fase é a etapa de mineração que ocorre a busca efetiva por conhecimentos 
novos e úteis a partir dos dados. Compreende a aplicação de algoritmos de Aprendizado de 
Máquina sobre os dados de forma a abstrair o conhecimento implícito presente nestes.
Finalizado o processo de data mining, temos a etapa de análise, onde será realizada 
avaliação de todo o conhecimento obtido pelo processo. Enquanto a etapa de análise, 
algumas vezes chamada de Pós-Processamento, abrange o tratamento do conhecimento 
obtido na etapa de Mineração, através da análise, visualização e interpretação deste. 
14 
4 CONSIDERAÇÕES FINAIS 
Em meio a este novo cenário, onde as pessoas passaram de meras telespectadoras e 
assumiram também a condição de produtores de informação, temos uma sociedade centrada 
na era do “big data”, onde a quantidade de bytes produzidos na web, e de maneira mais 
pontual nas redes sociais, necessitam de filtros cada vez mais dinâmicos para transformar 
este manancial de dados em informação útil e relevante. 
Diante desse contexto, o data mining apresenta-se como uma ferramenta que pode 
alicerçar estes filtros, uma vez que ele configura-se como um instrumento eficiente na busca 
de padrões de grandes volumes de dados até então desconhecidos. Isto posto, é necessário 
compreender também que, como boa parte destes dados estão dispostos de uma forma não 
estruturada, uma leitura a “olho nu” torna o processo de análise oneroso e muitas vezes 
inviável face a premência na analise destas informações. 
Ademais, em uma conjuntura onde a quantidade de dados passou a ser um óbice 
tanto para as organizações quanto para as empresas, o emprego de técnicas de mineração de 
dados passa a ser condição fulcral na busca de insights e na produção de conhecimento. 
5 REFERENCIAS 
ARANHA, C., Freitas, M. C., Dias, M. C., e Passos, E. (2004). "Um modelo de 
desambigüização de palavras e contextos". TIL 2004: Workshop de Tecnologia da 
Informação e da Linguagem Humana 
Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. “From Data Mining to Knowledge 
Discovery: An Overview”. In: Advances in Knowledge Discovery and Data Mining, AAAI 
Press, 1996. 
FIDALGO, António. A resolução semântica no jornalismo online. In: BARBOSA, Suzana 
(Org.). Jornalismo digital de terceira geração. Coleção Estudos em Comunicação. 
Covilhã, PT: LabcomBooks, 2007b. p. 93-102.
GABRIEL, Marta. Marketing de Otimização de Buscas na Web. São Paulo: Esfera, 2008. 
GDS PUBLISHING. (2008). Managing the Data Explosion. Business Management . 
LEMOS, André. Cibercultura e Mobilidade: a Era da Conexão.Razón Palabra, 
México,out.-nov.2004 
LEMOS, André. Cibercultura, Tecnologia e Vida Social na Cultura. Contemporânea. 
Porto Alegre, Sulina. 2010 
LIMA JR. Walter Teixeira. Jornalismo Inteligente na era do data mining. Publicado na 
Revista do Programa de Pós-graduação da Faculdade Cásper Líbero, ano IX – no.18, p. 121- 
126, 2011. 
LIMA JUNIOR, W. T. . Big Data, Jornalismo Computacional e Data Journalism: 
estrutura, pensamento e prática profissional na Web de Dados. Estudos em 
Comunicacao, v. 12, p. 207-222, 2012 
LIMA JUNIOR, W. T. . Intersecções possíveis: tecnologia, comunicação e ciência 
cognitiva. Comunicação & Sociedade, v. 34, p. 93-119, 2013. 
Homepage:http://https://www.metodista.br/revistas/revistas-ims/ 
15 
index.php/CSO/article/viewArticle/3310; Série: 2; ISSN/ISBN: 01012657. 
MACHADO, Elias. O ensino de jornalismo em tempos de ciberespaço. In MACHADO, 
Elias e PALACIOS, Marcos. O Ensino de Jornalismo em Redes de Alta Velocidade. 
Metodologias e Softwares. Salvador: EDUFBA: 2007. 
MANDEL, A., SIMON, I., & DELYRA, J. (1997). Informação: computação e 
comunicação. Revista da USP , 35, 11-45. 
SCHIESSSL, José Marcelo. Descoberta de conhecimento em texto aplicada a um 
sistema de atendimento ao consumidor. 2007 Dissertação (mestrado em Ciência da 
Inforamação) – Universidade de Brasília), Brasília, 2007. 
SCHIESSSL, José Marcelo. Descoberta de conhecimento em texto aplicada a um 
sistema de atendimento ao consumidor. 2007 Dissertação (mestrado em Ciência da 
Inforamação) – Universidade de Brasília), Brasília, 2007. 
SPINK, A., WOLFRAM, D., JANSEN, M. B., & SARACEVIC, T. (2001). Searching the 
web: the public and their queries. Journal of the American Society for Information 
Science and Technology , Vol. 52, 226–234. 
WEINBERGER, D., Why Open Spectrum Matters. The end of the broadcast nation., in 
http://www.evident.com , 2003. 
WEISS, S. M., Indurkhya, N., Zhang, T., e Damerau, F. (2005). Text Mining: Predictive 
Methods for Analyzing Unstructured Information. Springer Science+Business Media, Inc. 
WEISS. S.M . et al. TEXT MINING. Predictive Methods for Analyzing Unstructured 
Information. Springer, New York 2005
WING, J. M. Computacional thinking. Communications of the ACM, v. 39, n. 3, 2006. 
Disponível em: http://www.cs.cmu. edu/afs/cs/usr/wing/www/publications/Wing06.pdf. 
Acesso em: 19/06/2014 
ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J; 
CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform. 
Emeryville: McGraw-Hill Osborne Media, 2012 
16

More Related Content

What's hot

Xavier sociedade-da-informacao
Xavier sociedade-da-informacaoXavier sociedade-da-informacao
Xavier sociedade-da-informacaoDaniel Arena
 
O Excesso de Informação e as suas implicações para Indivíduos e Organizações
O Excesso de Informação e as suas implicações para Indivíduos e OrganizaçõesO Excesso de Informação e as suas implicações para Indivíduos e Organizações
O Excesso de Informação e as suas implicações para Indivíduos e OrganizaçõesLuis Borges Gouveia
 
Sistemas De Informações
Sistemas De InformaçõesSistemas De Informações
Sistemas De InformaçõesMateus Cozer
 
Sociedade da Informação Uma quase teologia da revolução
Sociedade da InformaçãoUma quase teologia da revoluçãoSociedade da InformaçãoUma quase teologia da revolução
Sociedade da Informação Uma quase teologia da revoluçãoLuis Borges Gouveia
 
Seminário de informática(2)
Seminário de informática(2)Seminário de informática(2)
Seminário de informática(2)lizzmarcella
 
Tecnologia, Sociedade e Educação: uma encruzilhada de influências
Tecnologia, Sociedade e Educação: uma encruzilhada de influênciasTecnologia, Sociedade e Educação: uma encruzilhada de influências
Tecnologia, Sociedade e Educação: uma encruzilhada de influênciasFrancisco Santos
 
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...AcessaSP
 
15.03.26 big data os novos desafios para o profissional da informação
15.03.26   big data os novos desafios para o profissional da informação15.03.26   big data os novos desafios para o profissional da informação
15.03.26 big data os novos desafios para o profissional da informaçãoTalita Lima
 
Seminário Teoria da Comunicação - Lev Manovich e as Novas Mídias
Seminário Teoria da Comunicação - Lev Manovich e as Novas MídiasSeminário Teoria da Comunicação - Lev Manovich e as Novas Mídias
Seminário Teoria da Comunicação - Lev Manovich e as Novas MídiasSergio Oliveira
 
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...Alessandra Lima
 
Módulo 1 cultura digital
Módulo 1   cultura digitalMódulo 1   cultura digital
Módulo 1 cultura digitalThiago Skárnio
 
A sociedade de informação na vida quoatidiana
A sociedade de informação na vida quoatidianaA sociedade de informação na vida quoatidiana
A sociedade de informação na vida quoatidianacharmechulo
 

What's hot (20)

Xavier sociedade-da-informacao
Xavier sociedade-da-informacaoXavier sociedade-da-informacao
Xavier sociedade-da-informacao
 
O Excesso de Informação e as suas implicações para Indivíduos e Organizações
O Excesso de Informação e as suas implicações para Indivíduos e OrganizaçõesO Excesso de Informação e as suas implicações para Indivíduos e Organizações
O Excesso de Informação e as suas implicações para Indivíduos e Organizações
 
Sistemas De Informações
Sistemas De InformaçõesSistemas De Informações
Sistemas De Informações
 
Artigo margarida talita pdf
Artigo margarida talita pdfArtigo margarida talita pdf
Artigo margarida talita pdf
 
Sociedade da Informação Uma quase teologia da revolução
Sociedade da InformaçãoUma quase teologia da revoluçãoSociedade da InformaçãoUma quase teologia da revolução
Sociedade da Informação Uma quase teologia da revolução
 
Concurso do Senado
Concurso do SenadoConcurso do Senado
Concurso do Senado
 
Internet
InternetInternet
Internet
 
Seminário de informática(2)
Seminário de informática(2)Seminário de informática(2)
Seminário de informática(2)
 
Tecnologia, Sociedade e Educação: uma encruzilhada de influências
Tecnologia, Sociedade e Educação: uma encruzilhada de influênciasTecnologia, Sociedade e Educação: uma encruzilhada de influências
Tecnologia, Sociedade e Educação: uma encruzilhada de influências
 
Aula 01
Aula 01Aula 01
Aula 01
 
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...
Observatório da Cultura Digital - Conexões Científicas 2012: "Tecnologia e Cr...
 
Aula1 2012-1
Aula1   2012-1Aula1   2012-1
Aula1 2012-1
 
15.03.26 big data os novos desafios para o profissional da informação
15.03.26   big data os novos desafios para o profissional da informação15.03.26   big data os novos desafios para o profissional da informação
15.03.26 big data os novos desafios para o profissional da informação
 
Seminário Teoria da Comunicação - Lev Manovich e as Novas Mídias
Seminário Teoria da Comunicação - Lev Manovich e as Novas MídiasSeminário Teoria da Comunicação - Lev Manovich e as Novas Mídias
Seminário Teoria da Comunicação - Lev Manovich e as Novas Mídias
 
Prova sobre redes
Prova sobre redesProva sobre redes
Prova sobre redes
 
Prova sobre redes
Prova sobre redesProva sobre redes
Prova sobre redes
 
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...
A INTERNET E O PODER DA COMUNICAÇÃO NA SOCIEDADE EM REDE: INFLUÊNCIAS NAS FOR...
 
Módulo 1 cultura digital
Módulo 1   cultura digitalMódulo 1   cultura digital
Módulo 1 cultura digital
 
Unidade3
Unidade3Unidade3
Unidade3
 
A sociedade de informação na vida quoatidiana
A sociedade de informação na vida quoatidianaA sociedade de informação na vida quoatidiana
A sociedade de informação na vida quoatidiana
 

Similar to Aplicação do data mining em grandes volumes de dados nas redes sociais

A atuação do profissional bibliotecário na era digital
A atuação do profissional bibliotecário na era digitalA atuação do profissional bibliotecário na era digital
A atuação do profissional bibliotecário na era digitalLygia Canelas
 
A usabilidade na Sociedade em Rede
A usabilidade na Sociedade em RedeA usabilidade na Sociedade em Rede
A usabilidade na Sociedade em RedePaulo Sousa
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...Rodrigo Moreira Garcia
 
O momento da Transformação digital
O momento da Transformação digitalO momento da Transformação digital
O momento da Transformação digitalLuis Borges Gouveia
 
A interoperabilidade na construção de tesauros e ontologias cida
A interoperabilidade na construção de tesauros e ontologias cidaA interoperabilidade na construção de tesauros e ontologias cida
A interoperabilidade na construção de tesauros e ontologias cidaAdrianelegnani
 
Tecnologia e inclusão social - obra de Mark War Warschauer
Tecnologia e inclusão social - obra de Mark War WarschauerTecnologia e inclusão social - obra de Mark War Warschauer
Tecnologia e inclusão social - obra de Mark War WarschauerDaniel Augustin Pereira
 
Linguagens e Tecnologias na Educação
Linguagens e Tecnologias na EducaçãoLinguagens e Tecnologias na Educação
Linguagens e Tecnologias na Educaçãonovafaculdade
 
Palestra na Unirio - Tese de Doutorado
Palestra na Unirio - Tese de DoutoradoPalestra na Unirio - Tese de Doutorado
Palestra na Unirio - Tese de DoutoradoLuiz Agner
 
Nepomuceno Web
Nepomuceno WebNepomuceno Web
Nepomuceno Webcnepo
 
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...Naira Michelle Alves Pereira
 
Competências críticas para a Sociedade da Informação e do conhecimento
Competências críticas para a Sociedade da Informação e do conhecimentoCompetências críticas para a Sociedade da Informação e do conhecimento
Competências críticas para a Sociedade da Informação e do conhecimentoLuis Borges Gouveia
 
Compartilhar: um estudo sobre os usos da tecnologia entre os jovens
Compartilhar: um estudo sobre os usos da tecnologia entre os jovensCompartilhar: um estudo sobre os usos da tecnologia entre os jovens
Compartilhar: um estudo sobre os usos da tecnologia entre os jovensAlberto Pereira
 
Novas Tecnologias E EducaçãO
Novas Tecnologias E EducaçãONovas Tecnologias E EducaçãO
Novas Tecnologias E EducaçãOEliane Almeida
 
2012 tecnologias da comunicação para a educação intercon
2012 tecnologias da comunicação para a educação intercon2012 tecnologias da comunicação para a educação intercon
2012 tecnologias da comunicação para a educação interconJosé Lauro Martins
 
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianos
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianosCibercultura e educação em tempos de mobilidade: conversando com os cotidianos
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianosEdmea Santos
 

Similar to Aplicação do data mining em grandes volumes de dados nas redes sociais (20)

Documento de qualificação Nepomuceno Tese
Documento de qualificação Nepomuceno TeseDocumento de qualificação Nepomuceno Tese
Documento de qualificação Nepomuceno Tese
 
Trabalho de clc ng5 dr2
Trabalho de clc ng5 dr2Trabalho de clc ng5 dr2
Trabalho de clc ng5 dr2
 
A atuação do profissional bibliotecário na era digital
A atuação do profissional bibliotecário na era digitalA atuação do profissional bibliotecário na era digital
A atuação do profissional bibliotecário na era digital
 
A usabilidade na Sociedade em Rede
A usabilidade na Sociedade em RedeA usabilidade na Sociedade em Rede
A usabilidade na Sociedade em Rede
 
O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...O comportamento do usuário final na recuperação temática da informação: um es...
O comportamento do usuário final na recuperação temática da informação: um es...
 
O momento da Transformação digital
O momento da Transformação digitalO momento da Transformação digital
O momento da Transformação digital
 
A interoperabilidade na construção de tesauros e ontologias cida
A interoperabilidade na construção de tesauros e ontologias cidaA interoperabilidade na construção de tesauros e ontologias cida
A interoperabilidade na construção de tesauros e ontologias cida
 
Tecnologia e inclusão social - obra de Mark War Warschauer
Tecnologia e inclusão social - obra de Mark War WarschauerTecnologia e inclusão social - obra de Mark War Warschauer
Tecnologia e inclusão social - obra de Mark War Warschauer
 
Linguagens e Tecnologias na Educação
Linguagens e Tecnologias na EducaçãoLinguagens e Tecnologias na Educação
Linguagens e Tecnologias na Educação
 
Tecnologia e Sociedade
Tecnologia e SociedadeTecnologia e Sociedade
Tecnologia e Sociedade
 
Palestra na Unirio - Tese de Doutorado
Palestra na Unirio - Tese de DoutoradoPalestra na Unirio - Tese de Doutorado
Palestra na Unirio - Tese de Doutorado
 
1º série reda cem - 10.29
1º série   reda cem -  10.291º série   reda cem -  10.29
1º série reda cem - 10.29
 
Nepomuceno Web
Nepomuceno WebNepomuceno Web
Nepomuceno Web
 
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...
O mito da "Super-Tecnologia da Informação e Comunicação: os problemas e desaf...
 
Competências críticas para a Sociedade da Informação e do conhecimento
Competências críticas para a Sociedade da Informação e do conhecimentoCompetências críticas para a Sociedade da Informação e do conhecimento
Competências críticas para a Sociedade da Informação e do conhecimento
 
Compartilhar: um estudo sobre os usos da tecnologia entre os jovens
Compartilhar: um estudo sobre os usos da tecnologia entre os jovensCompartilhar: um estudo sobre os usos da tecnologia entre os jovens
Compartilhar: um estudo sobre os usos da tecnologia entre os jovens
 
Novas Tecnologias E EducaçãO
Novas Tecnologias E EducaçãONovas Tecnologias E EducaçãO
Novas Tecnologias E EducaçãO
 
TIC
TICTIC
TIC
 
2012 tecnologias da comunicação para a educação intercon
2012 tecnologias da comunicação para a educação intercon2012 tecnologias da comunicação para a educação intercon
2012 tecnologias da comunicação para a educação intercon
 
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianos
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianosCibercultura e educação em tempos de mobilidade: conversando com os cotidianos
Cibercultura e educação em tempos de mobilidade: conversando com os cotidianos
 

More from Pedro Alexandre Cabral

More from Pedro Alexandre Cabral (15)

Novos caminhos do Marketing 3.0
Novos caminhos do Marketing 3.0Novos caminhos do Marketing 3.0
Novos caminhos do Marketing 3.0
 
Sociedade na era do big data: Dados demais, filtros de menos
Sociedade na era do big data: Dados demais, filtros de menosSociedade na era do big data: Dados demais, filtros de menos
Sociedade na era do big data: Dados demais, filtros de menos
 
O USO DO DATA MINING NA DESCOBERTA DE MARCAS IDENTITÁRIAS DO PIAUÍ: UM ESTUDO...
O USO DO DATA MINING NA DESCOBERTA DE MARCAS IDENTITÁRIAS DO PIAUÍ: UM ESTUDO...O USO DO DATA MINING NA DESCOBERTA DE MARCAS IDENTITÁRIAS DO PIAUÍ: UM ESTUDO...
O USO DO DATA MINING NA DESCOBERTA DE MARCAS IDENTITÁRIAS DO PIAUÍ: UM ESTUDO...
 
A transformação da visibilidade
A transformação da visibilidadeA transformação da visibilidade
A transformação da visibilidade
 
Neuromarketing
NeuromarketingNeuromarketing
Neuromarketing
 
Transformaçoes no Ambiente de Maketing
Transformaçoes no Ambiente de MaketingTransformaçoes no Ambiente de Maketing
Transformaçoes no Ambiente de Maketing
 
Aula analise competitividade
Aula analise competitividadeAula analise competitividade
Aula analise competitividade
 
Aula sobre Brand
Aula sobre BrandAula sobre Brand
Aula sobre Brand
 
Conceitos básicos - Marketing
Conceitos básicos - MarketingConceitos básicos - Marketing
Conceitos básicos - Marketing
 
A utilização da tecnologia da informação na gestão de planos de saúde
 A utilização da tecnologia da informação na gestão de planos de saúde A utilização da tecnologia da informação na gestão de planos de saúde
A utilização da tecnologia da informação na gestão de planos de saúde
 
Previsao de Demanda
Previsao de DemandaPrevisao de Demanda
Previsao de Demanda
 
SENSE - INFOWAY
SENSE - INFOWAYSENSE - INFOWAY
SENSE - INFOWAY
 
Desafio chemtech
Desafio chemtechDesafio chemtech
Desafio chemtech
 
Analise Dos Mercados Consumidores
Analise Dos Mercados ConsumidoresAnalise Dos Mercados Consumidores
Analise Dos Mercados Consumidores
 
Analise Dos Mercados Consumidores
Analise Dos Mercados ConsumidoresAnalise Dos Mercados Consumidores
Analise Dos Mercados Consumidores
 

Recently uploaded

AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptx
AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptxAULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptx
AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptxGislaineDuresCruz
 
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptx
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptxPOETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptx
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptxJMTCS
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...Martin M Flynn
 
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdf
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdfTIPOS DE DISCURSO - TUDO SALA DE AULA.pdf
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdfmarialuciadasilva17
 
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptx
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptxQUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptx
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptxAntonioVieira539017
 
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptx
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptxEVANGELISMO É MISSÕES ATUALIZADO 2024.pptx
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptxHenriqueLuciano2
 
Prova de Empreendedorismo com gabarito.pptx
Prova de Empreendedorismo com gabarito.pptxProva de Empreendedorismo com gabarito.pptx
Prova de Empreendedorismo com gabarito.pptxJosAurelioGoesChaves
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileirosMary Alvarenga
 
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptx
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptxSlides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptx
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptxLuizHenriquedeAlmeid6
 
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...nexocan937
 
Revolução Industrial - Revolução Industrial .pptx
Revolução Industrial - Revolução Industrial .pptxRevolução Industrial - Revolução Industrial .pptx
Revolução Industrial - Revolução Industrial .pptxHlioMachado1
 
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptTREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptAlineSilvaPotuk
 
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...Unidad de Espiritualidad Eudista
 
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTRE
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTREVACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTRE
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTREIVONETETAVARESRAMOS
 
Mini livro sanfona - Povos Indigenas Brasileiros
Mini livro sanfona  - Povos Indigenas BrasileirosMini livro sanfona  - Povos Indigenas Brasileiros
Mini livro sanfona - Povos Indigenas BrasileirosMary Alvarenga
 
Baladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxBaladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxacaciocarmo1
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxDeyvidBriel
 
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETO
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETOProjeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETO
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETODouglasVasconcelosMa
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaFernanda Ledesma
 

Recently uploaded (20)

AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptx
AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptxAULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptx
AULA-06---DIZIMA-PERIODICA_9fdc896dbd1d4cce85a9fbd2e670e62f.pptx
 
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptx
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptxPOETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptx
POETAS CONTEMPORANEOS_TEMATICAS_explicacao.pptx
 
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
DIGNITAS INFINITA - DIGNIDADE HUMANA -Declaração do Dicastério para a Doutrin...
 
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdf
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdfTIPOS DE DISCURSO - TUDO SALA DE AULA.pdf
TIPOS DE DISCURSO - TUDO SALA DE AULA.pdf
 
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptx
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptxQUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptx
QUIZ – GEOGRAFIA - 8º ANO - PROVA MENSAL.pptx
 
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptx
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptxEVANGELISMO É MISSÕES ATUALIZADO 2024.pptx
EVANGELISMO É MISSÕES ATUALIZADO 2024.pptx
 
Prova de Empreendedorismo com gabarito.pptx
Prova de Empreendedorismo com gabarito.pptxProva de Empreendedorismo com gabarito.pptx
Prova de Empreendedorismo com gabarito.pptx
 
19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros19 de abril - Dia dos povos indigenas brasileiros
19 de abril - Dia dos povos indigenas brasileiros
 
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptx
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptxSlides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptx
Slides Lição 3, CPAD, O Céu - o Destino do Cristão, 2Tr24,.pptx
 
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...
Minha Luta (Mein Kampf), A História do País que Lutou contra a União Soviétic...
 
Revolução Industrial - Revolução Industrial .pptx
Revolução Industrial - Revolução Industrial .pptxRevolução Industrial - Revolução Industrial .pptx
Revolução Industrial - Revolução Industrial .pptx
 
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.pptTREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
TREINAMENTO - BOAS PRATICAS DE HIGIENE NA COZINHA.ppt
 
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...
A Unidade de Espiritualidade Eudista se une ao sentimiento de toda a igreja u...
 
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTRE
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTREVACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTRE
VACINAR E DOAR, É SÓ COMEÇAR - - 1º BIMESTRE
 
“O AMANHÃ EXIGE O MELHOR DE HOJE” _
“O AMANHÃ EXIGE O MELHOR DE HOJE”       _“O AMANHÃ EXIGE O MELHOR DE HOJE”       _
“O AMANHÃ EXIGE O MELHOR DE HOJE” _
 
Mini livro sanfona - Povos Indigenas Brasileiros
Mini livro sanfona  - Povos Indigenas BrasileirosMini livro sanfona  - Povos Indigenas Brasileiros
Mini livro sanfona - Povos Indigenas Brasileiros
 
Baladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptxBaladão sobre Variação Linguistica para o spaece.pptx
Baladão sobre Variação Linguistica para o spaece.pptx
 
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptxÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
ÁREA DE FIGURAS PLANAS - DESCRITOR DE MATEMATICA D12 ENSINO MEDIO.pptx
 
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETO
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETOProjeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETO
Projeto leitura HTPC abril - FORMAÇÃP SOBRE O PROJETO
 
A Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão LinguísticaA Inteligência Artificial na Educação e a Inclusão Linguística
A Inteligência Artificial na Educação e a Inclusão Linguística
 

Aplicação do data mining em grandes volumes de dados nas redes sociais

  • 1. 1 A sociedade na era do big data: Dados demais, filtros de menos Pedro Alexandre Cabral 1 Gustavo Said 2 Resumo: O armazenamento da informação é característica intrínseca ao ser humano. Desde as eras mais remotas o homem sempre pautou-se pela eminente necessidade de registrar dados. Entretanto, nos dias atuais, com a profusão da internet, essa quantidade de informações alcançou um crescimento exponencial. Nesse contexto, o presente trabalho tem como objetivo analisar como técnicas de data mining podem ajudar na produção de conhecimento em contextos em que o pesquisador lida com grandes volumes de dados. Para tanto, será realizada uma contextualização acerca da “sociedade na era do big data”, de forma especial nos cenários que tangenciam a orquestração de criação de dados a partir das redes sociais. Além disso, será realizada uma incursão epistemológica acerca do tema, pontuando a aplicabilidade do datamining em meio a esses massivos volumes de dados, tendo como aporte teórico TURBAN (2005), LIMA JR (2004), dentre outros. Palavras-chave: Big data, data mining, redes sociais . 1 Pedro Alexandre Cabral é Bacharel em Administração pela Universidade Estadual do Piauí – UESPI. Especialista em Administração Estratégica pelo Centro de Ensino Unificado de Teresina- CEUT. Mestrando em Comunicação no PPGCOM da UFPI. E-mail: pedroale@pedroale.com. 2 Gustavo Said é doutor em Ciências da Comunicação pela Unisinos. Professor do Programa de Pós-Graduação em Comunicação da Universidade Federal do Piauí. E-mail: gsaid@uol.com.br.
  • 2. 2 1 INTRODUÇÃO O armazenamento da informação é característica intrínseca ao ser humano. Ao analisar a história percebemos que desde os primórdios o homem carece da necessidade de guardar informações: figuras rupestres em cavernas ou escritas em paredes de pedras encravadas nas pirâmides egípcias são apenas alguns exemplos. Isto também é visto nas culturas que somente dominam a linguagem oral, na busca de perpetuar o antigo por intermédio da oralidade (LIMA JUNIOR, 2011). Hoje, a penetração da internet e das tecnologias digitais no cotidiano do cidadão comum alavancou uma incrível mobilidade e ubiquidade comunicacional e informacional no nível do indivíduo, e não mais apenas no nível das organizações, catalisando assim, tanto o controle e a transparência, quanto às possibilidades de auto exposição em níveis inéditos na nossa história (GABRIEL, 2010). O valor mais acessível de máquinas computacionais (processamento e memória) e dos dispositivos de captura e armazenagem de dados (sensores, câmeras fotográficas e de vídeo, celulares, pen-drives, flash memory, discos rígidos externos, etc.) criaram inimaginável quantidade de dados, que estão sendo disponibilizados na Web, proporcionando a formação da “Era do Big Data” (LIMA JUNIOR 2011). Em outro trabalho desenvolvido em 2012 , intitulado de Big Data, Jornalismo Computacional e Data Journalism: estrutura, pensamento e prática profissional na Web de dados, Lima Junior (2012, p. 211) define Big Data (BD) como sendo um [...] conjunto de dados (dataset) cujo tamanho está além da habilidade de ferramentas típicas de banco de dados em capturar, gerenciar e analisar. A definição é intencionalmente subjetiva e incorpora uma definição que se move de como um grande conjunto de dados necessita ser para ser considerado um big data. Como o autor propõe, não existe uma definição precisa acerca do Big Data, entretanto autores como Zikopoulos et al (2012) advogam que o BD caracteriza-se pela presença de quatro aspectos: volume, velocidade, variedade e veracidade. Volume refere-se, como o próprio nome sugere, a quantidade de dados disponível na internet e que nos últimos anos vem crescendo de forma exponencial. A velocidade diz respeito a rapidez que os dados
  • 3. podem ser capturados e processados. Variedade, por sua vez, pauta-se nas diversas fontes de dados em que estes podem ser encontrados e o último aspecto, veracidade, abrange com característica o fato que estes dados não apresentam uma verdade absoluta, ou seja, certa incerteza onde deve-se observá-los com muita parcimônia para que os mesmos possam gerar informações úteis e oportunas. Isto posto, o massivo crescimento de dados na internet traz consigo grandes óbices no que tange a disponibilização da informação. Ao digitarmos a palavra “identidade” no Google, por exemplo, encontramos aproximadamente 834.000.000 resultados3, dificultando o processo de seleção e interpretação das informações por parte do usuário. Outro grande problema, segundo Sprink, Wolfram et al (2001) é a dificuldade encontrada pelos usuários em expressar a necessidade de informação por meio de palavras chaves, visto que aproximadamente cinquenta e dois por cento das buscas realizadas nas máquinas são reformuladas. Dentro dessa nova perspectiva de utilização das bases de dados, Machado e Palacios (2007), em estudo sobre as competências dos profissionais de Comunicação, citam a existência de pesquisas que tratam sobre a prática dos profissionais da área, em especial a necessidade destes se adaptarem às novas exigências do mercado, tendo o domínio dos processos de digitalização da informação. Dentre as competências digitais compiladas no estudo citado, eis algumas: uso básico do computador como ferramenta para busca, avaliação e classificação de informações; “cultura de internet” (MACHADO e PALACIOS, 2007, p.79); conhecimentos básicos e utilização de programas de edição de texto, tratamento de imagem, áudio, programação visual; conhecimento teórico sobre redes e seu funcionamento e alta capacidade de aprendizagem de uso de novos programas. Para Lima Junior (2011), a capacidade e facilidade em reunir e armazenar informações em um banco de dados, assim como sua utilização, cresce a cada dia e na mesma proporção que novas tecnologias são desenvolvidas e propagadas para facilitar o trabalho do consumidor. Com a popularização da rede mundial de computadores, quase todo e qualquer conteúdo produzido passa a ser colocado em um espaço considerado até então infinito, 3 3 Pesquisa realizada em 05/07/2014
  • 4. reflexo também da atualização de produtos comunicacionais palpáveis, como revistas, jornais e principalmente livros. Nesse contexto, organizações de toda a ordem, bem como usuários comuns, estão migrando seus conteúdos para os discos rígidos dos computadores. Logo, a atividade em reunir a maior quantidade de informações e disponibilizar de forma organizada, simples e objetiva, começa a se tornar uma tarefa obrigatória no mundo da comunicação, mas concomitantemente árdua e repleta de ruído. O modo mais clássico de armazenamento de informação é através da palavra escrita, impressa. O acesso à informação estocada dessa forma é lento, difícil e de pouco rendimento. Para todas as etapas da manipulação da informação é necessária a presença do ser humano, e suas limitações na capacidade de aquisição de dados e processamento de grande volume de informações constituem o principal gargalo do processo (MANDEL, SIMON, & DELYRA, 1997). Inobstante a este excesso de dados, a quantidade de informações produzidas encontra-se, em sua maioria disposta em base de dados não estruturadas, ou seja, base de documentos textuais, cujo formato está adequado ao homem que, somente através da leitura, é capaz de decodificar a informação contida no texto e aprendê-la (SCHIESSL, 2007). Frente a este contexto de enormes mananciais de dados, a fim de prover uma fluidez e agilidade no manuseio da informação, existe uma necessidade premente de associar novas tecnologias ao contexto atual onde, dentro do nosso entendimento, as pesquisas atuais em comunicação já não conseguem resolver suas inquietações face a este grande volume de dados. Assim sendo, sugere-se que exista uma interdisciplinaridade maior com outras áreas, sobretudo as que advêm das ciências da computação. 4 2 REDES SOCIAIS E O EXCESSO DE DADOS A sociedade contemporânea está cada vez mais imersa em redes de conexões digitais, nas quais os fluxos de informações estão quase sempre associados a uma “inócua” conversa polissêmica nos mais variados canais. A conectividade dá lugar à construção de novos artefatos tecnológicos, mas pode-se perguntar se ela está, de fato, a serviço de uma necessidade básica da existência humana: a socialização. Mesmo antes do surgimento da internet essas interações sociais, via tecnologia, já eram percebidas. O processo se deu com o surgimento dos meios de transporte e de
  • 5. comunicação (MCLUHAN 1964). Com o uso e acesso a novos serviços e produtos tecnológicos, sobretudo os advindos da internet e, de uma forma mais fecunda as redes sociais, temos percebido a articulação de plataformas tecnológicas para formação de novas comunidades e criação de mecanismos cada vez mais interacionais, onde, possivelmente, se renovam de forma intensa e reforçam a construção de discursos polifônicos e dialógicos. Ainda dentro deste prisma, nota-se que a evolução tecnológica vem refletindo diretamente sobre as sociedades e principalmente sobre o comportamento humano. Percebemos que houve um crescimento exponencial de Tecnologias de Informação e Comunicação (TICs) nos últimos séculos. De modo geral, todas essas tecnologias impulsionaram uma nova lógica social e cultural que, dentro desta premissa, o homem passa a ser criador e usuário das ferramentas tecnológicas, apropriando-se das possibilidades técnicas e, simultaneamente, sendo afetado por elas em todos os aspectos de sua existência. (TEIXEIRA 2011) Em meio a todo esse crescimento tecnológico percebe-se que, desde os primórdios, o homem, por apresentar-se como um animal gregário, precisou estar em grupos para sobreviver e, assim, com o passar dos anos passou a utilizar cada vez mais ferramentas de tecnologias de informação e comunicação para potencializar e diversificar as diversas maneiras de se comunicar. Uma parcela considerável deste avanço pauta-se na melhoria incessante de processos que permeiam a atividade de comunicação. Hoje, a comunicação toma uma outra extensão, pautada pelo uso de microchips, redes de internet sem fios e pelo excesso de informação. Atualmente, adentramos em uma “era da conexão” (WEINBERGER, 2003), onde flagra-se de forma cada vez proeminente a necessidade de uma conexão ubíqua e uso cada vez mais frequente de gadgets que tem como objetivo tornar a pervasive computing 4 ainda mais mandatória. (LEMOS 2002). A partir da popularização do acesso a novas tecnologias percebe-se uma difusão e de certo modo uma “democratização” no acesso a internet. Em 5 4 disseminação dos computadores em todos os lugares.
  • 6. recente pesquisa elaborada pela Nielsen5, no Brasil, a classe C consome mais internet que a classe A e B, enquanto na classe A e B o consumo de médio por pessoa de páginas era no máximo 821, a classe C abriu, em média, 972 páginas no mês. Trata-se assim de transformações da práxis social e na forma de produzir e consumir informação. (LEMOS 2005). Para Lemos (2005), a era da conexão é a era da mobilidade, onde visualiza-se uma densidade mobile, maior inclusive que a quantidade de computadores. Dados da Anatel (Agência Nacional de Telecomunicações) revelam que o Brasil terminou o mês de março de 2014 com 273,6 milhões de celulares, o que representa uma teledensidade de 135,3 dispositivos móveis para cada 100 habitantes. Em linhas gerais, este comportamento é presente em todos as unidades da federação. Apenas o estado do Maranhão apresenta uma densidade de celular menor que 100 aparelhos para cada 100 habitantes, conforme demostra a figura I. 6 FIGURE 1 - Densidade do Celular Brasil (Fev/14) Dentro desta acepção, Lemos (2005) destaca que a popularização de celulares e das redes de acesso a internet vem proporcionado mudanças na produção e consumo de informação, uma vez que o acesso esta imbricado de uma forma cada vez mais 5 Empresa germânica americana especializado em prover pesquisas de mercado
  • 7. pervasiva, ou seja conectividade em todos os lugares. Cooper, Green, Murtagh e Harper (2002) partem do entendimento que a era da conexão é a era da mobilidade. Essa nova era, pressupõe a ideia que os dispositivos móveis irão se tornar a principal forma de conexão à rede mundial de computadores. Em linhas gerais, percebe-se que o acesso mobile, nos últimos anos, vem crescendo e ficando cada vez mais presente no cotidiano das pessoas que, de certo modo, geram mais dados, uma vez que o device esta sempre ao alcance da mão. De acordo com projeções da CISCO®, empresa estadunidense especializada em soluções em redes de comunicação e dados, o tráfego na internet via dispositivos móveis em 2017 será 13 vezes maior do que em 2012. Entretanto é oportuno salientar que boa parte deste acesso é destinado para interação nas redes sociais. A Nielsen publicou em 2012 um estudo intitulado State of the media6: the social media report onde flagrou um aumento considerável no tempo gasto nas redes sociais, via smartphone, em relação ao ano de 2011 e 2012 conforme tabela abaixo: 7 Social Networking YOY% Change Facebook 61,0% Twitter 48,0% foursquare 154,0% Pinterest 6,1% Table 1 - Total Minutes Spent Social Networking Adaptado pelo autor Dentro dessa premissa, estas redes dão lugar a um ambiente de enorme interação e geração de informação. Ao analisar, de forma pontual, o buzz gerado em torno da morte do CEO da Apple, Steve Jobs, a empresa australiana de monitoramento de mídia social, SR7, estima que foram gerados 10 mil twittes por segundo citando o ocorrido. O exemplo citado permite inferir que: Na sociedade mediatizada, as instituições, as práticas sociais e culturais articulam-se diretamente com os meios de comunicação, de tal maneira que a mídia se torna progressivamente o lugar por excelência da produção social do sentido, modificando a ontologia tradicional dos fatos sociais (SODRÉ, 1999, p. 27). 6 Disponível em http://www.nielsen.com/content/dam/corporate/us/en/reports-downloads/2012-Reports/The- Social-Media-Report-2012.pdf acesso em 14/05/14
  • 8. Esta modificação dar-se, sobretudo, na forma como as pessoas estão buscando e criando informação. Há algumas décadas, basicamente, só tínhamos a TV e o rádio como principais difusores de notícias. Hoje, as redes sociais funcionam também como agentes de comunicação de massa. Essas novas interações, por sua vez, geram cada vez mais enormes quantidades de dados. Em outro estudo realizado pela CISCO®, o tráfego na internet cresceu 45% em um ano (entre 2009 e 2010), chegando a 15 exabytes7 por mês, e as projeções são de que o fluxo de informação na internet em 2015 será quatro vezes maior, chegando a 767 exabytes no ano. Recentemente, o PennyStocks lab8 desenvolveu um infográfico interativo, onde mostra o que esta acontecendo na internet em tempo real. Dentre os inúmeros insights, a ferramenta mostra, por exemplo, que em um minuto, 27.780 posts são publicados no Tumblr, 204.166.680 e-mails são enviados, bem como 138.840 horas de conteúdo são assistidas no YouTube. Ao analisar os dados oriundos das redes sociais percebe-se que esse tráfego torna-se ainda mais expressivo, em apenas um minuto temos: 8 a) WhatsApp: 11.088 contas criadas, 2.08.251.929 mensagens são enviadas; b) Facebook: 3.549.328 likes, 60.088.768 posts e 6.612 Gb de dados são gerados; c) Twitter: 6.617.700 twittes são enviados e 12.771 novas contas. 7 Um exabyte corresponde a 1 bilhão de gigabytes. 8 Disponível em http://pennystocks.la/ acesso em 19/05/14
  • 9. 9 FIGURE 2 - Penny Stocks É perceptível que nas últimas décadas, a tecnologia, sobretudo as utilizadas na produção e difusão de conteúdo na área da comunicação, sofreu uma grande inovação. “Diversas plataformas digitais conectadas ficaram mais acessíveis do ponto de vista econômico e também foram reconfiguradas para serem acessadas de forma mais amigável por profissionais e amadores” (LIMA JUNIOR, 2012) Entretanto, é oportuno destacar que as pesquisas em comunicação outrora utilizadas já não conseguem mais resolver as inquietações trazidas por essas novas formas de “sociabilização digital”. Neste ímpeto, nasce a necessidade cada vez mais premente de buscar uma interdisciplinaridade com outras áreas do conhecimento, principalmente as de base tecnológica. Lima Junior (2012, p.4) parte do entendimento que A expansão tecnológica, além de ampliar e baratear os custos das possibilidades de produção e distribuição de conteúdos digitais, também abriu novas frentes na área da pesquisa acadêmica [...] Para acompanhar todo o processo de evolução tecnológica, é premente que os pesquisadores da área da comunicação social ampliem seus ferramentais metodológicos, adaptando-os aos instrumentos de verificação que são desenvolvidos em outras áreas do conhecimento. (LIMA JUNIOR 2012, p.4) Antes os estudos relacionadas ao comportamento humano citados nas pesquisas em comunicação eram alicerçados em metodologias behavioristas, agora tem-se a possibilidade de usar aparatos tecnológicos (LIMA JUNIOR, 2012). Dentro dessa conjectura, a ideia de
  • 10. utilizar tecnologia na construção de novas pesquisas em comunicação engloba uma importância capital no alcance dos objetos. Isto posto, tem-se percebido que a sociedade, de modo geral, tem visualizado um olhar diferente sobre temáticas tecnológicas que antes eram utilizadas por experts em computação (LIMA JUNIOR, 2012). O pesquisador canadense em filosofia da tecnologia da escola de comunicação Simon Fraser University, Andrew Feenberg pontua no seu estudo What Is Philosophy of Technology9? que olhar da sociedade esta cada vez imbricado em assuntos de cunho tecnológicos. Em resumo, The public sphere appears to be opening slowly to encompass technical issues that were formerly viewed as the exclusive preserve of experts. Can this trend continue to the point where citizenship will involve the exercise of human control over the technical framework of our lives? We must hope so for the alternative appears to be certain destruction. Of course the problems are not only technological. Democracy is in bad shape today on all fronts, but no one has come up with a better alternative. If people are able to conceive and pursue their intrinsic interest in peace and fulfillment through the political process, they will inevitably address the question of technology along with many other questions that hang in suspense today. We can only hope this will happen sooner rather than later10 Dessa forma, o pressuposto de um “pensamento computacional” defendido por Jeannete M. Wing pontua como temática principal a resolubilidade trazida pelos métodos computacionais referenda nosso entendimento acerca da utilização de tecnologia para resolver problemas de pesquisas em comunicação, já que esta “nova sociedade” caracteriza-se pela utilização e produção de grande volume de dados. Nesse contexto, sem algoritmos e métodos de pesquisa específicos para esse fim seria praticamente impossível resolve-los, a saber: Métodos e modelos computacionais nos encorajam a resolver problemas e desenhar sistemas que nenhum de nós seria capaz de desenvolver sozinho. O pensamento computacional envolve resolver problemas, desenhar sistemas e entender o comportamento humano, inspirados nos conceitos fundamentais das Ciências da Computação (Wing, 2006, p. 33). 9 Disponível em http://www.sfu.ca/~andrewf/komaba.htm acesso em 19/06/2014, 10 A esfera pública parece estar se abrindo lentamente para abranger assuntos técnicos que antes eram vistos como da esfera exclusiva dos especialistas. Pode esta tendência continuar a ponto de a cidadania envolver o exercício de controle humano sobre a estrutura técnica de nossas vidas? Esperemos que sim, pois a alternativa parece levar a certa destruição. Naturalmente os problemas não são apenas tecnológicos. A democracia está em má forma hoje em todas as frentes, mas ninguém propôs uma alternativa melhor. Se as pessoas puderem conceber e perseguir seus interesses intrínsecos em paz e plenitude por meio do processo politico, elas inevitavelmente abordarão a questão da tecnologia, juntamente com muitas outras questões que hoje estão em suspenso. Resta-nos apenas esperar que isso aconteça mais cedo que mais tarde. (FEENBERG, 2003; tradução nossa) 10
  • 11. 11 3 O USO DO DATA MINING NA DESCOBERTA DE “DADOS INVISÍVEIS” Estudos recentes comprovam que 85 % (oitenta e cinco por cento) de toda a informação do mundo está em formato textual (GDS PUBLISHING, 2008) (IBM, 2008). Entretanto, analisar base de dados não estruturadas como textos sempre representou um óbice, devido a grande dificuldade de sistematizar o significado do que está escrito. Signos gramaticais como acentos e abreviações promovem significados adversos e inserem uma contextualização diferente ao que foi dito. (PINHEIRO, 2009). Face a este enorme manancial de dados, faz-se necessário a utilização de mecanismos que visem descobrir padrões e informações até então desconhecidas. Neste ímpeto, o data mining apresentam-se como um agente capital na descoberta destes conhecimentos. Weiss (2007, p.87) define DM como sendo: Busca de informação valiosa em grandes volumes de dados. Data mining é o esforço desenvolvido por homens e máquinas. Os homens desenham os bancos de dados, descrevem os problemas e setam os objetivos. As máquinas mineram os dados, em busca de padrões que atendam a estes objetivos (tradução do autor). Weiss et al. (2007) corrobora com Wiess (2007) quando propõe que o data mining busca por regularidades, padrões ou tendências em textos de linguagem natural. Já Hearst (1999) traz uma definição mais holística ao pontuar DM como sendo um método de apoiar pesquisadores a derivar novas e relevantes informações de uma grande coleção de dados. Outra definição bastante utilizada sobre DM é a proposta trazida na obra From Data Mining to Knowledge Discovery, na qual o data mining funciona como: Extração de conhecimento de Base de Dados é o processo não-trivial de identificação de padrões válidos, novos, potencialmente úteis e compreensíveis embutidos nos dados (FAYYAD, PIATESKYSHAPIRO, SMYTH, 1996, p. 6). Mesmo não sendo uma técnica nascida no seio da comunicação, a sua utilização pode trazer grandes benefícios para o campo e de forma mais fecunda para o Jornalismo. Neste contexto, Fidalgo (2007, 161) três vantagens principais para a aplicabilidade de DM, sendo elas: A primeira é não exigir tanto tempo de trabalho de jornalistas como uma
  • 12. análise interativa (baseada em consultas individuais escolhidas caso a caso) de um grande volume de dados pode implicar. A segunda é um ganho de capacidade de extração de conhecimento, devido a ser possível testar um número muito mais vasto de hipotéticas relações interessantes ao nível dos dados do que seria possível se essas hipóteses tivessem de ser diretamente sugeridas ao sistema de pesquisa (e os seus resultados tivessem de ser diretamente avaliados) por especialistas humanos. A terceira vantagem, mais subtil, é que ao testarem automaticamente conjuntos exaustivos de possíveis padrões, os sistemas de KDD (knowledge-discovery in databases) tem mais probabilidades de testar e encontrar conhecimento inesperado (e inovador) do que se pode esperar de consultas interativas sugeridas com base no conhecimento sobre o domínio previamente existente. Ainda dentro desta perceptiva, Fidalgo (2007, 163) acredita que os jornalistas do futuro serão uma espécie de McGyver, homens ou mulheres de mil e um recursos, trabalhando sozinhos, equipados com uma câmara de vídeo digital, telefone satélite, portátil com software de edição vídeo e html, e ligação sem fios à Internet. O que a possibilidade e a exequibilidade da mineração de dados nos mostram é a necessidade de formar jornalistas que integrados em equipas multidisciplinares de informáticos, especialistas de estatística e de hermenêutica de dados, saibam detectar o valor noticioso das relações e dos padrões extraídos da massa imensa de dados, coligidos a acumulados a uma rapidez estonteante. Teremos, tal como já temos hoje, jornalistas de rua e jornalistas de secretária, sendo os primeiros de facto os tais backpack journalists e os segundos investigadores de factos complexos, descobrindo relações importantíssimas de um ponto de vista jornalístico entre ocorrências de uma absoluta trivialidade quanto encaradas isoladamente (Fidalgo 2007). Entretanto, para obtenção de êxito na utilização de técnicas de DM, é de suma importância mapear e desenvolver fluxos de trabalho que permitam uma maior assertividade no que diz respeito a sua utilização. Sendo assim, Aranha (2007) sugere o seguinte fluxo: 12
  • 13. 13 Figure 3: Fases Data mining - adaptado pelo autor A primeira fase é a coleta, onde tem-se o processo de formação de uma base dados, ferramenta essa indispensável para elaboração do processo de data mining. A próxima etapa é o pré-processamento, pois sistemas de data mining não submetem aos seus algoritmos de descoberta de conhecimento coleções de textos despreparadas (GOMES, 2008). Uma vez realizada a coleta de dados, o próximo passo é a preparação dos textos para que os mesmos possam ser manipulados pelos algoritmos de Mineração de Textos. Após o pre-processamento inicia-se a fase da indexação, que consiste no processo responsável pela criação de estruturas auxiliares denominadas índices e que garantem a rapidez e agilidade na recuperação dos dados. De acordo com Soares (2009 p. 99), Técnicas de indexação de documentos foram bastante difundidas pela demanda e crescimento da área de Recuperação de Informação desde a década de sessenta. Contudo, muitas pessoas acreditam que esta é uma área nova. Esta ideia talvez tenha surgido com a grande popularização das máquinas de buscas que tornaram possível a pesquisa do conteúdo de páginas web, ou seja, documentos textuais. Uma vez indexados, os dados serão submetidos a algoritmos de aprendizados de máquinas e estatística. Segundo Manovich, (2001, p. 197) algoritmo é um conjunto bem definido de instruções em pseudo linguagem computacional ou linguagem de descrição, que define as estruturas dos dados, com vistas a manipulá-los e a formatar os resultados. A quarta fase é a etapa de mineração que ocorre a busca efetiva por conhecimentos novos e úteis a partir dos dados. Compreende a aplicação de algoritmos de Aprendizado de Máquina sobre os dados de forma a abstrair o conhecimento implícito presente nestes.
  • 14. Finalizado o processo de data mining, temos a etapa de análise, onde será realizada avaliação de todo o conhecimento obtido pelo processo. Enquanto a etapa de análise, algumas vezes chamada de Pós-Processamento, abrange o tratamento do conhecimento obtido na etapa de Mineração, através da análise, visualização e interpretação deste. 14 4 CONSIDERAÇÕES FINAIS Em meio a este novo cenário, onde as pessoas passaram de meras telespectadoras e assumiram também a condição de produtores de informação, temos uma sociedade centrada na era do “big data”, onde a quantidade de bytes produzidos na web, e de maneira mais pontual nas redes sociais, necessitam de filtros cada vez mais dinâmicos para transformar este manancial de dados em informação útil e relevante. Diante desse contexto, o data mining apresenta-se como uma ferramenta que pode alicerçar estes filtros, uma vez que ele configura-se como um instrumento eficiente na busca de padrões de grandes volumes de dados até então desconhecidos. Isto posto, é necessário compreender também que, como boa parte destes dados estão dispostos de uma forma não estruturada, uma leitura a “olho nu” torna o processo de análise oneroso e muitas vezes inviável face a premência na analise destas informações. Ademais, em uma conjuntura onde a quantidade de dados passou a ser um óbice tanto para as organizações quanto para as empresas, o emprego de técnicas de mineração de dados passa a ser condição fulcral na busca de insights e na produção de conhecimento. 5 REFERENCIAS ARANHA, C., Freitas, M. C., Dias, M. C., e Passos, E. (2004). "Um modelo de desambigüização de palavras e contextos". TIL 2004: Workshop de Tecnologia da Informação e da Linguagem Humana Fayyad, U. M.; Piatesky-Shapiro, G.; Smyth, P. “From Data Mining to Knowledge Discovery: An Overview”. In: Advances in Knowledge Discovery and Data Mining, AAAI Press, 1996. FIDALGO, António. A resolução semântica no jornalismo online. In: BARBOSA, Suzana (Org.). Jornalismo digital de terceira geração. Coleção Estudos em Comunicação. Covilhã, PT: LabcomBooks, 2007b. p. 93-102.
  • 15. GABRIEL, Marta. Marketing de Otimização de Buscas na Web. São Paulo: Esfera, 2008. GDS PUBLISHING. (2008). Managing the Data Explosion. Business Management . LEMOS, André. Cibercultura e Mobilidade: a Era da Conexão.Razón Palabra, México,out.-nov.2004 LEMOS, André. Cibercultura, Tecnologia e Vida Social na Cultura. Contemporânea. Porto Alegre, Sulina. 2010 LIMA JR. Walter Teixeira. Jornalismo Inteligente na era do data mining. Publicado na Revista do Programa de Pós-graduação da Faculdade Cásper Líbero, ano IX – no.18, p. 121- 126, 2011. LIMA JUNIOR, W. T. . Big Data, Jornalismo Computacional e Data Journalism: estrutura, pensamento e prática profissional na Web de Dados. Estudos em Comunicacao, v. 12, p. 207-222, 2012 LIMA JUNIOR, W. T. . Intersecções possíveis: tecnologia, comunicação e ciência cognitiva. Comunicação & Sociedade, v. 34, p. 93-119, 2013. Homepage:http://https://www.metodista.br/revistas/revistas-ims/ 15 index.php/CSO/article/viewArticle/3310; Série: 2; ISSN/ISBN: 01012657. MACHADO, Elias. O ensino de jornalismo em tempos de ciberespaço. In MACHADO, Elias e PALACIOS, Marcos. O Ensino de Jornalismo em Redes de Alta Velocidade. Metodologias e Softwares. Salvador: EDUFBA: 2007. MANDEL, A., SIMON, I., & DELYRA, J. (1997). Informação: computação e comunicação. Revista da USP , 35, 11-45. SCHIESSSL, José Marcelo. Descoberta de conhecimento em texto aplicada a um sistema de atendimento ao consumidor. 2007 Dissertação (mestrado em Ciência da Inforamação) – Universidade de Brasília), Brasília, 2007. SCHIESSSL, José Marcelo. Descoberta de conhecimento em texto aplicada a um sistema de atendimento ao consumidor. 2007 Dissertação (mestrado em Ciência da Inforamação) – Universidade de Brasília), Brasília, 2007. SPINK, A., WOLFRAM, D., JANSEN, M. B., & SARACEVIC, T. (2001). Searching the web: the public and their queries. Journal of the American Society for Information Science and Technology , Vol. 52, 226–234. WEINBERGER, D., Why Open Spectrum Matters. The end of the broadcast nation., in http://www.evident.com , 2003. WEISS, S. M., Indurkhya, N., Zhang, T., e Damerau, F. (2005). Text Mining: Predictive Methods for Analyzing Unstructured Information. Springer Science+Business Media, Inc. WEISS. S.M . et al. TEXT MINING. Predictive Methods for Analyzing Unstructured Information. Springer, New York 2005
  • 16. WING, J. M. Computacional thinking. Communications of the ACM, v. 39, n. 3, 2006. Disponível em: http://www.cs.cmu. edu/afs/cs/usr/wing/www/publications/Wing06.pdf. Acesso em: 19/06/2014 ZIKOPOULOS, P; DE ROOS, D; PARASURAMAN, K; DEUTSCH, T; GILES, J; CORRIGAN, D. Harness the power of Big Data- The IBM Big Data Platform. Emeryville: McGraw-Hill Osborne Media, 2012 16