Extraindo dados públicos       “na marra”        Pedro Valente         @pedrovalente
Por quê?É um dever do cidadão fiscalizar o poder
Por quê?  Tem um monte de picaretasse aproveitando do seu dinheiro
Por quê?São dados que por lei ou por bom senso       deveriam estar disponíveis
Por quê?Não adianta tentar esconder,    a gente dá um jeito
Dados públicos?
Dados do governo
Dados de interesse     público
Interesse público   Jornalismo
Jornalismo         +Desenvolvimento de     software
http://www.flickr.com/photos/tracy_collins/2237061185/   Transparência
Está na moda
Está na modae ganha Pulitzer
Está na modae ganha Pulitzer     http://politifact.org
Está na modae ganha Pulitzer     http://politifact.org
"Build something or STFU"       Matt Waite - Politifact
www.portaltransparencia.gov.br
Como transformar esse mundo de dados em   algo relevante?
http://projects.nytimes.com/crime/homicides/map?hp
Crie aplicaçõesinterativas em cima        deles
Aplicação  Crie aplicaçõesinterativas em cima        deles
Aplicação  Crie aplicaçõesinterativas em cima        deles         Dados
Processador   AplicaçãoFornecedor     Dados
Processador   Aplicação                          APIFornecedor     Dados
APIApplication Programming Interface
Cada fornecedorarmazena de um jeito  A API serve para padronizar a saída
API é o balcão da padaria         Você pede 300 gramas de mortadela e a atendente te entrega. Leva também 4 pãezinhos.    ...
Dois papéis
1. FornecedorDados brutosGrandes volumesExclusividade
http://www.flickr.com/photos/streetlife/2309136566/
CET-SPhttp://www.flickr.com/photos/streetlife/2309136566/
Dados da CETKm de congestionamentoPontos de alagamentoOcorrências de trânsitoEstrutura de monitoramento exclusivaAlém de m...
E aí investem em...
www.cetsp.com.br
Prioridade?
Pouca grana Pepinos gigantesPrecisa foco no que ninguém mais tem
2. ProcessadorRecombina, reordena, filtra e segmentaIdentifica padrões e revela tendênciasExpõe os resultados
EveryBlock.com
NYTimes  Text
NYTimes                                          Texthttp://prototype.nytimes.com/represent/
EveryBlock.comDados de fornecedores diversosMicro-relevânciaÉ jornalismo? É software? "Who cares?"
Batia de porta em porta implorando por XML
Fornecedor   Processador
Fornecedor   Processador                  Aplicação
Fornecedor   Processador                  AplicaçãoDados
Fornecedor    Processador                   AplicaçãoDados   API
Fornecedor                 Processador              Ei, 300 gramas de               mortadela, por                     fav...
Fornecedor                                 Processador                              Ei, 300 gramas de                     ...
Fornecedor   Processador
Fornecedor   ProcessadorAplicação
Fornecedor   ProcessadorAplicação          Aplicação
Fornecedor       ProcessadorAplicação   API        Aplicação
Fornecedor                    Processador                     Ei, um                  sanduíche de                  mortad...
Fornecedor                                    Processador                                     Ei, um                      ...
Maturidade institucionalwww.showusabetterway.co.uk
NYT APIs
Congressional Data                                     NYT APIsThe Congress API returns the following types of data: • Rol...
The Guardianwww.guardian.co.uk/open-platform/
The Guardianwww.guardian.co.uk/data-storewww.guardian.co.uk/data-store
The Guardianhttp://mps-expenses.guardian.co.uk/
Voltando ao Brasil...
Se o fornecedor nãocolabora, fazemos justiça com      as próprias mãos
Se o fornecedor nãocolabora, fazemos justiça com      as próprias mãos
Scraping = raspagemPegar na marra o que não é liberado por APIRobozinhos, crawlers e dumpsMudança de mentalidade
Uma ajudinha:YQL• Idioma comum para conversar com diversas  APIs ou fazer scraping• Aberto para qualquer um se tornar  for...
Uma ajudinha:YQLhttp://developer.yahoo.com/yql/console
2 desafios   Datasets       &Consultas online
Datasets
Massas de dadosguardadas em algum      banco
IBGE TSEAnatel
http://github.com/legisdados/legisdados
YQL + CSVYQL + XML
CSV to webservicehttp://isithackday.com/csv-to-webservice/
<?php  include(csvtoservice.php);  $content = csvtoservice(http://winterolympicsmedals.com/medals.csv);  if($content){    ...
Consultas online
Infraero
Infraero
Infraero
Infraero
Infraero
Infraeropoderia ser assim:
Infraero        poderia ser assim:www.infraero.gov.br/voos/status/03101
Infraero        poderia ser assim:www.infraero.gov.br/voos/status/03101<status>  confirmado</status>
Mas veja o que esses filhas da mãefazem pra nos impedir de usar os           dados deles
http://www.infraero.gov.br/voos/detalhe_voo.aspx?5/Xrn1SlFmeTrR/PL3/MpnK8sgrVY9Ms                          +9o4x3M9qjM7ysJ...
Empresa estatal. Serviço público.Dados de interesse público.Sem problemas de privacidade.HACKING LIBERADO!!!
http://anp.gov.br/preco
http://www.precodoscombustiveis.com.br/
YQL + HTML YQL Open Tableshttp://datatables.org
Referênciashttp://theinfo.org/Transparência HackDayhttp://groups.google.com/group/thackdayhttp://delicious.com/tag/scrapin...
Libertemos dados!!!
ObrigadoContato: @pedrovalente
Dados Publicos
Dados Publicos
Dados Publicos
Upcoming SlideShare
Loading in …5
×

Dados Publicos

325 views

Published on

0 Comments
0 Likes
Statistics
Notes
  • Be the first to comment

  • Be the first to like this

No Downloads
Views
Total views
325
On SlideShare
0
From Embeds
0
Number of Embeds
2
Actions
Shares
0
Downloads
5
Comments
0
Likes
0
Embeds 0
No embeds

No notes for slide

Dados Publicos

  1. 1. Extraindo dados públicos “na marra” Pedro Valente @pedrovalente
  2. 2. Por quê?É um dever do cidadão fiscalizar o poder
  3. 3. Por quê? Tem um monte de picaretasse aproveitando do seu dinheiro
  4. 4. Por quê?São dados que por lei ou por bom senso deveriam estar disponíveis
  5. 5. Por quê?Não adianta tentar esconder, a gente dá um jeito
  6. 6. Dados públicos?
  7. 7. Dados do governo
  8. 8. Dados de interesse público
  9. 9. Interesse público Jornalismo
  10. 10. Jornalismo +Desenvolvimento de software
  11. 11. http://www.flickr.com/photos/tracy_collins/2237061185/ Transparência
  12. 12. Está na moda
  13. 13. Está na modae ganha Pulitzer
  14. 14. Está na modae ganha Pulitzer http://politifact.org
  15. 15. Está na modae ganha Pulitzer http://politifact.org
  16. 16. "Build something or STFU" Matt Waite - Politifact
  17. 17. www.portaltransparencia.gov.br
  18. 18. Como transformar esse mundo de dados em algo relevante?
  19. 19. http://projects.nytimes.com/crime/homicides/map?hp
  20. 20. Crie aplicaçõesinterativas em cima deles
  21. 21. Aplicação Crie aplicaçõesinterativas em cima deles
  22. 22. Aplicação Crie aplicaçõesinterativas em cima deles Dados
  23. 23. Processador AplicaçãoFornecedor Dados
  24. 24. Processador Aplicação APIFornecedor Dados
  25. 25. APIApplication Programming Interface
  26. 26. Cada fornecedorarmazena de um jeito A API serve para padronizar a saída
  27. 27. API é o balcão da padaria Você pede 300 gramas de mortadela e a atendente te entrega. Leva também 4 pãezinhos. Te vira. Quem faz o sanduíche é você.
  28. 28. Dois papéis
  29. 29. 1. FornecedorDados brutosGrandes volumesExclusividade
  30. 30. http://www.flickr.com/photos/streetlife/2309136566/
  31. 31. CET-SPhttp://www.flickr.com/photos/streetlife/2309136566/
  32. 32. Dados da CETKm de congestionamentoPontos de alagamentoOcorrências de trânsitoEstrutura de monitoramento exclusivaAlém de monitorar, também precisaRESOLVER o trânsito!
  33. 33. E aí investem em...
  34. 34. www.cetsp.com.br
  35. 35. Prioridade?
  36. 36. Pouca grana Pepinos gigantesPrecisa foco no que ninguém mais tem
  37. 37. 2. ProcessadorRecombina, reordena, filtra e segmentaIdentifica padrões e revela tendênciasExpõe os resultados
  38. 38. EveryBlock.com
  39. 39. NYTimes Text
  40. 40. NYTimes Texthttp://prototype.nytimes.com/represent/
  41. 41. EveryBlock.comDados de fornecedores diversosMicro-relevânciaÉ jornalismo? É software? "Who cares?"
  42. 42. Batia de porta em porta implorando por XML
  43. 43. Fornecedor Processador
  44. 44. Fornecedor Processador Aplicação
  45. 45. Fornecedor Processador AplicaçãoDados
  46. 46. Fornecedor Processador AplicaçãoDados API
  47. 47. Fornecedor Processador Ei, 300 gramas de mortadela, por favor AplicaçãoDados API
  48. 48. Fornecedor Processador Ei, 300 gramas de mortadela, por favor AplicaçãoDados API Aqui está, senhor, tenha um bom dia
  49. 49. Fornecedor Processador
  50. 50. Fornecedor ProcessadorAplicação
  51. 51. Fornecedor ProcessadorAplicação Aplicação
  52. 52. Fornecedor ProcessadorAplicação API Aplicação
  53. 53. Fornecedor Processador Ei, um sanduíche de mortadela, porAplicação API favor Aplicação
  54. 54. Fornecedor Processador Ei, um sanduíche de mortadela, porAplicação API favor Aplicação Aqui está, senhor, tenha um bom dia
  55. 55. Maturidade institucionalwww.showusabetterway.co.uk
  56. 56. NYT APIs
  57. 57. Congressional Data NYT APIsThe Congress API returns the following types of data: • Roll-call vote data: Only roll-call votes (not voice votes or division votes) are tracked by official Congressional data sources. Along with basic vote data, the Times API returns additional information that is less readily available, such as party totals. For details, see Responses. For general information about roll-call votes, see the THOMAS site. • Member data: Along with general biographical information for current and past members of Congress, the API returns data about members Congressional roles. Role data includes the Congress number and chamber, as well as the members title, state and party. A single member may have more than one role in a particular Congress (for example, the member may switch parties or move from the House to the Senate). For details, see Responses.Data SourcesThe data returned by the Congress API is compiled from the following sources: • The official Web site of the Office of the Clerk of the U.S. House of Representatives, for vote data • The official Web site of the United States Senate, for vote data • The Biographical Directory of the United States Congress, for member biographical information • GovTrack.us, for member biographical information • MIT Professor Charles Stewarts collection of Congressional data, for role information • THOMAS (The Library of Congress), for bill data • The C-SPAN Congressional Chronicle, for floor appearancesCertain fields in the API responses (such as party totals) are calculated by The Times, based on these data sources.For details, see Responses. http://developer.nytimes.com/docs/congress_api
  58. 58. The Guardianwww.guardian.co.uk/open-platform/
  59. 59. The Guardianwww.guardian.co.uk/data-storewww.guardian.co.uk/data-store
  60. 60. The Guardianhttp://mps-expenses.guardian.co.uk/
  61. 61. Voltando ao Brasil...
  62. 62. Se o fornecedor nãocolabora, fazemos justiça com as próprias mãos
  63. 63. Se o fornecedor nãocolabora, fazemos justiça com as próprias mãos
  64. 64. Scraping = raspagemPegar na marra o que não é liberado por APIRobozinhos, crawlers e dumpsMudança de mentalidade
  65. 65. Uma ajudinha:YQL• Idioma comum para conversar com diversas APIs ou fazer scraping• Aberto para qualquer um se tornar fornecedor ou processador de dados• Tem um console muito divertido• http://developer.yahoo.com/yql/console
  66. 66. Uma ajudinha:YQLhttp://developer.yahoo.com/yql/console
  67. 67. 2 desafios Datasets &Consultas online
  68. 68. Datasets
  69. 69. Massas de dadosguardadas em algum banco
  70. 70. IBGE TSEAnatel
  71. 71. http://github.com/legisdados/legisdados
  72. 72. YQL + CSVYQL + XML
  73. 73. CSV to webservicehttp://isithackday.com/csv-to-webservice/
  74. 74. <?php include(csvtoservice.php); $content = csvtoservice(http://winterolympicsmedals.com/medals.csv); if($content){ if($content[form]){ echo <h4>Filters</h4>; echo $content[form]; } if($content[table]){ echo <h4>Results</h4>; echo $content[table]; } }?>
  75. 75. Consultas online
  76. 76. Infraero
  77. 77. Infraero
  78. 78. Infraero
  79. 79. Infraero
  80. 80. Infraero
  81. 81. Infraeropoderia ser assim:
  82. 82. Infraero poderia ser assim:www.infraero.gov.br/voos/status/03101
  83. 83. Infraero poderia ser assim:www.infraero.gov.br/voos/status/03101<status> confirmado</status>
  84. 84. Mas veja o que esses filhas da mãefazem pra nos impedir de usar os dados deles
  85. 85. http://www.infraero.gov.br/voos/detalhe_voo.aspx?5/Xrn1SlFmeTrR/PL3/MpnK8sgrVY9Ms +9o4x3M9qjM7ysJ8yazx5wXPsRzdou +5fzqPSZPiXOSpCOxycPzRH6PIN4I4buChasAEzkA4yV8kHAGUAnVR/KczuGvooOuczvdlALYzVh3lcyKh+M3QrsBJBmxehWlokYlZbByajEtfYOOFlC8vGsv0I9JVs +4MD3i1hIP1FXRc0+EyJhJBL2qiFEy6/fDinPR/mqw675W/cnhwPjcHtQEvr4NpsYdsP0f8JE0VbKeVci8KGgQ4TZJq1DE3SEjUk7lySiMtlWrZwj+pcazY +95lEvSJOwqXbb5FLXNbv0CnrSZ/9CxURzI84m3tI1929Te6IEuJPcE=
  86. 86. Empresa estatal. Serviço público.Dados de interesse público.Sem problemas de privacidade.HACKING LIBERADO!!!
  87. 87. http://anp.gov.br/preco
  88. 88. http://www.precodoscombustiveis.com.br/
  89. 89. YQL + HTML YQL Open Tableshttp://datatables.org
  90. 90. Referênciashttp://theinfo.org/Transparência HackDayhttp://groups.google.com/group/thackdayhttp://delicious.com/tag/scrapinghttp://delicious.com/tag/publicdatahttp://bit.ly/rwwopendata
  91. 91. Libertemos dados!!!
  92. 92. ObrigadoContato: @pedrovalente

×