Este documento fornece instruções sobre como coletar dados jornalísticos, incluindo buscar informações em ferramentas on-line, bases de dados públicas e entrevistar especialistas. Também discute como analisar e apresentar os dados de forma a extrair insights valiosos.
2. Como começar?
1) Pauta (ou ideia de pauta);
2) Busca, busca, busca, busca, busca em:
_ Google e outras ferramentas de busca (avançada) (http://www.
google.com.br/advanced_search, http://www.wolframalpha.com/)
_ Bases de dados públicas
_ Fóruns, lista de emails;
_ Pedido de acesso a informação (http://www.queremossaber.org.br/)
_ Perguntar a um especialista
3. Busca na rede
Todo documento encontrado na Web, seja qual for sua
natureza, deve atender a 4 princípios básicos:
1) Princípio verificativo ou comprobatório
2) Princípio explicativo (relacionado positiva ou negativamente
com a hipótese)
3) Princípio editorial ou de crédito
4) Princípio da permanência
4. Ferramentas de busca
Diretório: é um diretório que contém uma lista de websites classificada
por temas, tal qual um catálogo. http://www.dmoz.org/
Buscadores: Indexam (incorporam) em seu sistema as novas inclusões
das milhões de páginas que circulam pela Web. O resultado remete à
página exata, dentro do site, que contém os parâmetros solicitados na
janela de busca. http://www.cuil.pt/
Metabuscadores: são buscadores avançados, que permitem a
recuperação de sites a partir de buscas em paralelo, cruzando a
informação trazida por buscadores separados. http://www.metacrawler.
com
5. Buscas eficientes
_ Formatos: PDF não (mas se você quiser, "filetype:pdf")
É possível buscar, por exemplo, apenas planilhas (inserindo
"filetype:XLS ou filetype:CSV"), bancos de dados ("filetype:MDB,
filetype:SQL, filetype:DB"); planilhas pra download (inurl:
downloads filetype:xls)
_ Redes sociais: Hashtags ##### (agora também no Facebook)
_ Crowdsourcing: pergunte na rede o que você quer saber
http://ajudeumreporter.com.br/, https://twitter.com/ajudeumreporter
6. Documentos oficiais e base de dados
Sugestões:
_ Busque informações usando o mapa do site.
_ Use a pesquisa avançada do Google para vasculhar o site
internamente.
_ Guarde os documentos que pareçam importantes em pastas
temáticas.
_ Não confie nos links. Se a informação é importante, faça uma
captura de tela.
_ http://dados.gov.br/cartilha-publicacao-dados-abertos/
7. Armadilhas dos dados
_ PIB: é usado como o indicador número um porque os governos
precisam dele para supervisionar sua principal fonte de renda — os
impostos sobre o consumo. Quando um governo não é financiado por
essas taxas, ou quando seu orçamento não é público, não há razão
para coletar dados de PIB e pode se dar melhor perante aos eleitores
fabricando esses dados;
_ Criminalidade sempre está em ascensão;
Dados não costumam ser adulterados. Mas policiais respondem a
incentivos. Quando a performance está vinculada a uma métrica
baseada em crimes solucionados, os policiais são incentivados a
reportar ao máximo incidentes que não exigem investigação;
8. “Raspar” dados
"Extrair" informações (geralmente em grande quantidade) da
internet;
Scrappers são programas simples de lidar, o grande desafio e o
exercício constante é encontrar um padrão nos dados das
páginas web - algumas páginas são bem simples, outras
complexas.
https://scraperwiki.com
9. Outras ferramentas
_ Mozenda (http://www.mozenda.com/) um software de interface
simples que automatiza boa parte do trabalho
_ Screen Scraper (http://www.screen-scraper.com/), uma
ferramenta mais complexa, que trabalha com diversas
linguagens de programação para extrair dados da Web.
_ Google Refine (http://code.google.com/p/google-refine/) para
manipular dados confusos e transportá-los para formatos
maleáveis.
10. Fontes internacionais
_ Índice de portais: http://datacatalogs.org/, http://thedatahub.
org/
_ Dados “curados” sobre tudo: http://www.freebase.com/
_ Fórum de perguntas e respostas sobre diversos temas, como
consultar e obter uma fonte específica, que ferramentas de
visualização usar: http://getthedata.org/
_ ScraperWiki: https://scraperwiki.com/
_ Repositório da internet: Internet Archive: https://archive.org
11. Fontes de dados públicos Brasil
_ IBGE (http://www.ibge.gov.br/)
_ http://dados.gov.br/
_ Transparência Pública (http://www3.transparencia.gov.br/)
_ Transparência SC: http://sc.transparencia.gov.br/
_ Transparência no Legislativo: http://transparencia.alesc.sc.gov.
br/
12. Analisando exemplos (1)
Compromissos de Campanha prefeitura SP - 2012
http://folhaspdados.blogfolha.uol.com.br/2012/10/27/mapa-mostracompromissos-de-campanha-de-serra-e-haddad/
_ Quais dados/informações obtiveram?
_ Relacionaram com o quê?
_ De que forma apresentaram?
13. Respostas (1)
_ Como extraíram os dados?
Comunicados enviados à imprensa, 59 compromissos foram
registrados, sendo 35 realizados pelo candidato petista e 24 pelo
tucano;
_ Com o que foi cruzado?
Com as regiões onde os candidatos visitarem em SP e com os dois
turnos de eleição
_ Como apresentaram?
Mapa simples (Mapbox)
14. Analisando exemplos (2)
Os Caminhos da Corrupção
(http://www.apublica.org/2012/07/infografico-interativo-os-caminhos-dacorrupcao/)
_ Como extraíram os dados?
_ Com o que foi cruzado?
_ Como apresentaram?
15. Respostas (2)
_ Como extraíram os dados?
Relatórios CGU, em especial sobre Educação, na Amazônia
(disponíveis na rede)
_ Com o que foi cruzado?
Listas de: irregularidades, cidades, tipos de irregularidades,
programas de governo,
_ Como apresentaram?
Infográfico interativo
16. Analisando exemplos (3)
Trem do Samba - http://super.abril.com.br/multimidia/tremsamba-722528.shtml
_ Como extraíram os dados?
_ Com o que foi cruzado?
_ Como apresentaram?