O documento descreve as três etapas principais do jornalismo de dados: 1) Coleta de dados, 2) Filtragem e 3) Visualização. Ele também lista e descreve ferramentas gratuitas para cada etapa, incluindo Scraper, OutWit Hub, Scraperwiki para coleta; planilhas como Excel para filtragem; e Raw, Google Fusion Tables, Tableau Public, Many Eyes e Timemapper para visualização.
2. 1ª Etapa: Coleta de Dados
Nomes utilizados: Scrapping ou raspagem
No que consiste: “Capturar” os dados que você
deseja, ou seja, acessá-los em suas fontes
originais - sites, bases de dados, pdf’s,
documentos físicos, imagens, etc - e adaptá-
los para um formato que permita que eles
sejam utilizados da forma pretendida.
3. 2ª Etapa: Filtragem
Nomes utilizados: Filtragem (filtering), mas nessa
etapa também ocorre a correção de possíveis
falhas nos dados, sendo possível se referir a ela
também como complementação.
No que consiste: Corresponde à fase da edição
jornalística, onde são selecionadas, trabalhadas e
verificadas as informações que efetivamente farão
parte da reportagem final.
4. 3ª Etapa: Visualização
Nomes utilizados: Visualização (dataviz) ou narrativa (data-
driven story).
No que consiste: É o momento de elaboração do produto
final, quando pode ser necessário o auxílio de um
designer. Nessa fase é preciso se preocupar com o tipo de
produto a ser desenvolvido (infográfico, visualização
dinâmica, aplicativo, etc), usabilidade, acessibilidade,
interatividade, responsividade, entre outros aspectos
humanos e técnicos. Os dados precisam contar uma
história.
7. Ferramentas para filtragem
Grande parte das ferramentas da 1ª e da 3ª
etapas possuem recursos adicionais para
realização de filtragem e/ou edição. Mas
geralmente, após ter coletado os dados
necessários, é comum que eles sejam
explorados e testados em um editor de planilhas
tradicional (Excel, do pacote Microsoft Office,
Google Spreadsheets ou Calc, do Libre Office).
9. Scraper
O que é? Uma extensão do navegador Google Chrome.
O que faz? Extrai texto de websites baseando-se em similaridade.
Conhecimentos necessários? A princípio nenhum, mas entender HTML e
conhecer os seletores do jQuery aumentam as possibilidades de uso.
Cadê?
https://chrome.google.com/webstore/detail/scraper/mbigbapnjcgaffohmbk
dlecaccepngjd
Exercício (em inglês): http://schoolofdata.org/handbook/recipes/scraper-
extension-for-chrome/
10. OutWit Hub
O que é? Programa desktop com navegador (baseado em Firefox)
embutido.
O que faz? Extrai dados diversos de websites, incluindo imagens.
Também serve para fazer extrações automatizadas em conjuntos de
páginas.
Conhecimentos necessários? A princípio nenhum, mas entender HTML e
conhecer os seletores do jQuery aumentam as possibilidades de uso.
Cadê? http://www.outwit.com/products/hub/
Tutoriais (em inglês): http://www.outwit.com/support/help/tutorials/
11. Scraperwiki
O que é? Conjunto de aplicativos online.
O que faz? Extrai dados do Twitter, PDFs, XLSs e páginas. Também possui
interface para desenvolvimento de scripts.
Conhecimentos necessários? A parte de extração de dados é simples,
disponibilizando as informações em tabelas. Para desenvolver os scripts, é
necessário conhecimento em programação.
Cadê? https://scraperwiki.com/
Exercício (em inglês): http://datamineruk.wordpress.com/2011/07/21/getting-
to-grips-with-scraperwiki-for-those-who-dont-code/
12. Raw
O que é? Um aplicativo web.
O que faz? Cria diversos tipos de visualizações a partir de dados
fornecidos.
Conhecimentos necessários? Nenhum (saber os tipos de dados
que estão sendo inseridos pode ajudar mas não é
indispensável).
Cadê? http://raw.densitydesign.org/
Tutorial (inglês): https://vimeo.com/91605650
13. Google Fusion Tables
O que é? Um aplicativo online experimental.
O que faz? Gera visualizações dinâmicas a partir de diferentes fontes de
dados.
Conhecimentos necessários? Nenhum.
Cadê?
https://www.google.com/fusiontables/DataSource?dsrcid=implicit&redirec
tPath=data&usp=apps_start&hl=en&pli=1
Exercício (em inglês):
https://support.google.com/fusiontables/answer/184641
14. Tableau Public
O que é? Software desktop para windows.
O que faz? Gera visualizações dinâmicas a partir de
diferentes fontes de dados.
Conhecimentos necessários? Nenhum.
Cadê? http://www.tableausoftware.com/public/
Exercícios (em inglês):
http://www.tableausoftware.com/public/training
15. Many Eyes
O que é? Aplicativo online em Java.
O que faz? Gera visualizações dinâmicas a partir de diferentes
fontes de dados.
Conhecimentos necessários? Nenhum.
Cadê? http://www.manyeyes.com/software/analytics/manyeyes/
Exercícios: http://pt.slideshare.net/iGovExplica/tutorial-many-
eyes
16. TimeMapper
O que é? Aplicativo online.
O que faz? Gera mapas integrados com linhas do
tempo a partir de Google Spreadsheets.
Conhecimentos necessários? Nenhum.
Cadê? http://timemapper.okfnlabs.org/
Tutorial (inglês): http://youtu.be/lCpilatN9yE