Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação digitais

1,215 views

Published on

Fontes de informação, tipos de dados e formas de obtenção da informação para realização de pesquisas digitais.

Published in: Science
  • Be the first to comment

Métodos Digitais para Análise de Dados - Aula 07 - Fontes de informação digitais

  1. 1. Métodos Digitais para Análise de Dados Prof. Dalton Mar6ns dmar6ns@gmail.com Faculdade de Informação e Comunicação Aula 07 – Fontes de informação digitais: 6pos de dados, formatos e suas caracterís6cas
  2. 2. Fontes de Informação l  Há diversos 6pos de fontes de informação que podem ser úteis para o Jornalismo de dados: -  Páginas web - webscrapping -  Qualquer site é uma fonte de informação em potencial para ser minerado -  Exemplos: Wikipedia, Mercado Livre, Google, TripAdvisor, Decolar, Booking, etc... -  Mecanismos de busca: l  Google, Yahoo, etc... -  Sites ins6tucionais: l  Portais de transparência, portais de dados abertos; -  Ins6tuições de pesquisa: l  IBGE, IPEA, IMB, etc... -  Mídias Sociais: l  Blogs, twi]er, facebook, etc... -  Bibliotecas Digitais: l  BDTDs, etc... -  Portais cien^ficos: l  Google Scholar, La]es, CNPq, CAPES, WebOfScience, Scielo, etc...
  3. 3. Páginas web •  Há muito conteúdo oriundo de páginas web que podemos ter o interesse de coletar e analisar: –  Automa6zar a coleta de grande quan6dade de informação – tornando pra6camente inviável coletar manualmente; –  Como os dados estão organizados; –  Encontrar tendências e padrões; –  Encontrar novidades; –  Aproveitar análises cole6vas para filtrar informação e qualificar resultados; –  Tomar decisões a par6r de flutuações dinâmicas nos padrões dos dados... •  Vejamos 3 exemplos de aplicações de coleta de dados de páginas web (essas pesquisas seriam pra6camente impossíveis de serem feitas manualmente): –  Coletar automa6camente preços de um produto para avaliar tendências de oscilação ao longo tempo e gerar séries históricas de comparação no Mercado Livre; –  Analisar o que internautas estão falando sobre um hotel, avaliando seus comentários e levando essa informação em consideração para ações de gestão usando dados do TripAdvisor; –  Pesquisar sobre como filmes brasileiros são definidos e descritos na Wikipedia.
  4. 4. Webscraping Coleta dados desestruturados ou semi-estruturados e envia para tecnologias de estruturação da informação, tais como planilhas, bancos de dados, documentos.
  5. 5. Mecanismos de busca São ferramentas de busca genéricas, identificando os sites mais relevantes para um tema de busca desejado. A relevância é construída com base na citação dos sites por outros sites, ou seja, quanto mais linkado um site for por outros mais próximo dos primeiros resultados de busca ele se torna → filtro de relevância social
  6. 6. Mecanismos de busca l  Pontos posi6vos dos mecanismos de busca: -  Potente filtro de relevância social; -  Permitem pesquisar em diferentes mídias, tais como imagens, vídeos, no^cias e blogs; -  Permitem rapidamente obter alguns resultados relevantes e resolver a maior parte das questões. l  Pontos nega6vos dos mecanismos de busca: -  Temos tempo e disposição de navegar pelas 2 ou 3 primeiras páginas no máximo; -  A informação retorna de maneira desestruturada: é dilcil coletar todos os sites e avaliar a massa de dados em conjunto.
  7. 7. Mecanismos de busca l  Existem algumas ferramentas que ajudam a ter um panorama geral do que tem sido pesquisado nesses mecanismos: -  Google Trends l  h]p://www.google.com/trends/?hl=pt-BR_ALL l  ferramenta do google que permite sabermos o que tem sido pesquisado no mundo; l  Permite também compararmos termos de busca para analisar a diferença de interesse neles por parte dos usuários do google. -  Google Alerta l  h]ps://www.google.com.br/alerts l  Permite você criar no6ficações para receber um link toda vez que sua expressão de interesse aparecer na web l  Google AdWords: l  h]ps://adwords.google.com/KeywordPlanner?hl=pt-br l  Permite comparar volumes de buscas por palavras-chave.
  8. 8. Mecanismos de busca Google Trends
  9. 9. Mecanismos de busca Google Trends
  10. 10. Mecanismos de busca Google Alerta A informação chega até você!
  11. 11. Sites ins6tucionais l  Devido a importantes movimentos sociais, há hoje no Brasil algumas ações fundamentais no sen6do de fornecerem dados de ações ins6tucionais: -  Lei de Acesso à informação – 18/11/2011 l  h]p://www.planalto.gov.br/ccivil_03/_ato2011-2014/2011/lei/l12527.htm -  Lei Complementar da Transparência – 27/05/2009 l  h]p://www.planalto.gov.br/ccivil_03/leis/lcp/lcp131.htm -  Por conta disso, os governos federal, estaduais e municipais passaram a desenvolver Portais de Transparência e disponibilizar dados da Gestão Pública para “fácil” acesso ao cidadão! → fontes fundamentais para Jornalismo de Dados.
  12. 12. Sites ins6tucionais l  Governo Federal: h]p://www.portaltransparencia.gov.br/
  13. 13. Sites ins6tucionais l  Governo Federal: h]p://www3.transparencia.gov.br/TransparenciaPublica/
  14. 14. Sites ins6tucionais l  Governos Estaduais l  Todos os governos possuem portais, em estágios diferentes de desenvolvimento; l  A tabela ao lado é criada pela inicia6va Índice de Transparência; l  Parceria entre OAB – Ordem dos Advogados do Brasil e Centro de Estudos de Opinião Pública (CESOP) da Unicamp
  15. 15. Sites ins6tucionais l  Governos Municipais l  A inicia6va também avalia várias cidades com mais de 200.000 habitantes; l  A tabela ao lado apresenta o estado das capitais brasileiras.
  16. 16. Sites ins6tucionais l  Esses sites fornecem informações variadas sobre: -  Gastos do governo; -  Formas de contratação; -  Áreas de inves6mento; -  Empresas contratadas; -  Descentralização de recursos; -  Salários de funcionários; l  Permitem amplas pesquisa e cruzamentos de dados.
  17. 17. Ins6tuições de pesquisa l  IBGE – Ins6tuto Brasileiro de Geografia e Esta^s6ca -  h]p://www.ibge.gov.br/home/ -  Uma das principais fontes de esta^s6cas brasileiras -  Diversos estudos especiais l  h]p://www.ibge.gov.br/home/esta6s6ca/pesquisas/estudos_especiais.php
  18. 18. Ins6tuições de pesquisa l  IPEA – Ins6tuto de Pesquisa Econômica Aplicada -  Fornece séries de dados macroeconômicos, regionais e sociais. -  h]p://www.ipeadata.gov.br/
  19. 19. Ins6tuições de pesquisa l  IPEA – Ins6tuto de Pesquisa Econômica Aplicada -  Dados macroeconômicos: l  Base de dados econômicos e financeiros man6da pelo Ipea incluindo séries esta^s6cas da economia brasileira e dos aspectos que lhe são mais per6nentes na economia internacional. Os dados são atualizados e documentados de forma sistemá6ca e apresentados na mesma unidade monetária. Recursos disponíveis permitem a manipulação matemá6ca e a extração dos resultados em planilhas ou gráficos. -  Dados regionais: l  Base de dados demográficos, econômicos e geográficos para as regiões, estados e municípios brasileiros que se iniciam no Censo Demográfico de 1872. A busca das séries esta^s6cas pode ser feita por "Palavras-chave" na sua descrição, "Temas" ou assuntos de interesse, "Fontes" de publicação ou pelo "Nível geográfico" para o qual é possível agregar os dados. -  Dados sociais: l  Base de dados e indicadores sociais abrangendo temas diversos, como nível de renda per capita, desigualdade na distribuição de renda dos indivíduos e domicílios, desempenho educacional, condições de saúde e habitação, inserção no mercado de trabalho, situação dos direitos humanos da população, entre outros.
  20. 20. Ins6tuições de pesquisa l  IPEA – Ins6tuto de Pesquisa Econômica Aplicada -  Possui interessante e rico material de publicações que se tornam fonte de consulta fundamentais l  h]p://www.ipea.gov.br/portal/index.php? op6on=com_alphacontent&view=alphacontent&Itemid=357
  21. 21. Ins6tuições de pesquisa l  INEP – Ins6tuto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira -  h]p://portal.inep.gov.br/ -  Possui rico acervo de dados sobre educação no Brasil: censo escolar da educação básica, educação superior, indicadores de desempenho (ideb, enade, saebe, enem, etc...) l  h]p://portal.inep.gov.br/ins6tucional-guia_sistemas
  22. 22. Ins6tuições de pesquisa l  DATASUS – empresa de processamento de dados do Ministério da Saúde; -  Possui um projeto chamado TABNET – Informações de Saúde l  h]p://www2.datasus.gov.br/DATASUS/index.php?area=02
  23. 23. Ins6tuições de pesquisa l  Ins6tuto Mauro Borges de Esta^s6cas e Estudos Sócio Econômicos – IMB -  Dados específicos do estado de Goiás -  h]p://www.imb.go.gov.br/
  24. 24. Ins6tuições de pesquisa l  Há várias outras ins6tuições de pesquisa de estados, municípios e mesmo privadas que podem ser interessante de se pesquisar sobre um determinado assunto; l  Vale sempre avaliar se existe alguém ou uma ins6tuição que já produz pesquisa e séries históricas de indicadores sobre um tema: -  Permite análises compara6vas e mesmo a crí6ca aos meios de construção desses indicadores.
  25. 25. Mídias Sociais l  Sistemas Web que servem como plataformas de mídias sociais são hoje uma fonte enorme de informação para produção de pesquisas; l  A maioria dessas plataformas possui uma interface para consultar seus dados e gerar análises; l  Há muitos so„wares interessantes que permitem consultar esses dados em tempo real e entender melhor o que seus usuários estão produzindo. l  Vejamos por plataforma!
  26. 26. APIs •  A forma mais correta de nos comunicarmos com uma mídia social é por meio de uma API (por meio de um programa de computador):
  27. 27. API Facebook h]ps://developers.facebook.com/docs/graph-api?locale=pt_BR
  28. 28. Webscraping de mídias sociais •  Uma outra forma de coletarmos dados de mídias sociais, mais fácil tecnicamente, é u6lizarmos ferramentas de webscraping em cima desses sites; •  Os dados podem sair menos precisos e mais desorganizados, mas em geral, essa técnica pode ser mais rápida e fácil para casos de pequeno a médio porte.
  29. 29. Bibliotecas Digitais l  São repositórios de conteúdos em geral u6lizadas por universidades para depósito de dissertações de mestrado e teses de doutorado, entre outros 6pos de monografias. l  Uma das mais importantes é a BDTD – Biblioteca Digital de Teses e Dissertações do IBICT – Ins6tuto Brasileiro de Informação Cien^fica e Tecnológica: -  h]p://bdtd.ibict.br/ -  Possui mais de 248.900 documentos digitalizados e mais de 90 universidades brasileiras integram o repositório.
  30. 30. Bibliotecas Digitais l  Muitas universidades possuem seus próprios repositórios e podem ser consultados para gerar pesquisas locais e mapas de conhecimento ins6tucionais: -  UFG - h]p://repositorio.bc.ufg.br/tede/ -  USP - h]p://www.teses.usp.br/ l  Fornecem estudos qualificados sobre temas de interesse além de facilitar encontrar pessoas e grupos de pesquisa que estão trabalhando com esses temas.
  31. 31. Portais Cien^ficos l  A produção cien^fica é uma das áreas mais avançadas em termos de documentação e registro digital de sua produção; l  Há várias ferramentas e tecnologias de apoio que ajudam a iden6ficar e mapear a produção de pesquisa no Brasil e no mundo; l  São fontes estratégicas para se conhecer novas tendências, novas pesquisas, áreas de inovação, temas emergentes e produzir uma visão geral sobre interesses de temas de pesquisa. -  Permitem cri6car e propor novas áreas, perceber onde há centros de excelência, a necessidade de inves6mentos, entre vários elementos interessantes.
  32. 32. Google Scholar l  h]p://scholar.google.com.br/ l  Permite pesquisa em ar6gos, livros e publicações acadêmicas.
  33. 33. Plataforma La]es l  Plataforma que cadastra todos os pesquisadores brasileiros em diversos níveis e áreas de conhecimento. l  Permite buscar pesquisadores por área de interesse e conhecer pessoas que são especializadas e produzem pesquisa nessas áreas. l  h]p://la]es.cnpq.br/
  34. 34. Diretório de Grupos de Pesquisa l  h]p://dgp.cnpq.br/dgp/faces/consulta/consulta_parametrizada.jsf l  Plataforma que dá acesso aos grupos de pesquisa existentes no país por temas, pessoas, ins6tuição e linhas de pesquisa.
  35. 35. Mapa de Inves6mentos do CNPq l  h]p://efomento.cnpq.br/efomento/distribuicaoGeografica/distribuicaoGeografica.do?metodo=apresentar l  Permite visualizar a distribuição de bolsas do CNPq pelo país, por categorias, ins6tuições, estados entre outros...
  36. 36. GeoCapes l  h]p://geocapes.capes.gov.br/geocapesds/# l  Distribuição de bolsas da CAPES pelo país
  37. 37. Plataforma Sucupira l  Plataforma que agrega toda a produção cien^fica dos programas de Mestrado e Doutorado do Brasil l  h]ps://sucupira.capes.gov.br/sucupira/
  38. 38. Scielo l  Principal portal de revistas cien^ficas do Brasil l  Agrega mais de 500.000 ar6gos de mais de 1100 periódicos; l  h]p://www.scielo.org/php/index.php
  39. 39. WebOfScience l  Um dos principais portais de revistas cien^ficas do mundo → permite ter uma noção do que as principais ins6tuições de pesquisa estão fazendo e descobrir onde temas de interesse estão sendo pesquisados; l  h]p://www.webo†nowledge.com/
  40. 40. Scopus l  É também um dos principais portais de revistas cien^ficas do mundo → permite ter uma noção do que as principais ins6tuições de pesquisa estão fazendo e descobrir onde temas de interesse estão sendo pesquisados; l  h]p://www.scopus.com/
  41. 41. Para a próxima aula •  Para facilitar iniciarmos o trabalho sobre o ar6go de avaliação da disciplina, considere as seguintes questões: –  Qual o problema de pesquisa você pretende trabalhar? –  Que 6po de pesquisa você pretende realizar? (olhe nas primeiras aulas da disciplina) –  Que 6po de informação você precisa coletar? –  Que período de tempo você precisa para sua análise? –  Que fonte de informação você planeja u6lizar?

×