Scrapingby examples       Alexandre Gomes
http://creativecommons.org/licenses/by-nc/3.0/br/
Primeiros resultados definitivos do Censo 2010:população do Brasil é de 190.755.799 pessoasO Brasil tem 190.755.799 habita...
Resumo do Censo 2010
Resumo do Censo 2010
Qual a relação entre os índices dealfabetização e a proporção feminina?
Exemplo   mulheres da região                  7.859.539                              =                                 = 0...
E nas demaisregiões?
Scraping by Examples
Nokogiri
#1 Acessar a página que    contém o dado       desejado
teste
testecodigo
$ rspec spec/ibge_censo2010_spec.rb:8Run filtered using {:line_number=>8}IBGECenso2010  should open page with "Razão de sex...
#2 Recuperar odado desejado
Antes, entenda aestrutura da página
<table> <thead>...</thead>  <tfoot>   <tr>    <td>...</td>    <td>...</td>    <td>...</td>    <td>...</td>    <td>...</td>...
Observe IDs eclasses CSS quepodem ser úteis.
class="td_numeros"
".td_numeros"[
".td_numeros"[   0    1          2     3    4          5     6    7          8     9   10         11    12   13         14...
1º dado de que            precisamos.         (numerador da fórmula)[   0           1                 2     3           4 ...
2º dado de que                  precisamos.                 (para o cálculo do              denominador da fórmula)[   0  ...
mulheres da região N                  dados[5]                               =total de pessoas da região N        dados[4]...
teste
code
$ rspec specIBGECenso2010  razao de sexo   should open page with "Razão de sexo,população de homens e mulheres"   should g...
teste
code
#3 Recuperar orestante de dados    desejados
...
#4 ApresentaçãoWeb do scrapping
application.rb(...)
application.rb(...)
index.erb(...)
http://datavisualization.ch/tools/13-javascript-libraries-for-visualizations
rme   dos    o cha         á na         ups  est   m ash         ção      visu aliza     diferenciada                     ...
#5 Visualização(ainda tosca) do    scrapping
#6 Visualizaçãodiferenciada da  informação
?
Agora, a  mesma   coisa,  apenas   comJavascript
#1 Acessar a página que    contém o dado       desejado
test
code
#2 Recuperar odado desejado
test
code
#3 Recuperar orestante de dados    desejados
...
#4 ApresentaçãoWeb do scrapping
index.html
index.html
index.html
index.html
index.html(...)
index.html(...)
index.html(...)
index.html(...)
http://chart.apis.google.com/chart?chxt=y&chbh=a&chs=500x300&cht=bvg&chco=A2C180,3D7930 &chd=t:49,51,51,50,50|89,82,94,95,...
código disponível em...
P&R
http://tinyurl.com/AvaliacaoSOO14
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Scraping by examples
Upcoming SlideShare
Loading in …5
×

Scraping by examples

948
-1

Published on

Learn how to scrap web pages in Ruby, Javascript (and more, soon).

Published in: Technology
0 Comments
4 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
948
On Slideshare
0
From Embeds
0
Number of Embeds
0
Actions
Shares
0
Downloads
15
Comments
0
Likes
4
Embeds 0
No embeds

No notes for slide
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • \n
  • Scraping by examples

    1. 1. Scrapingby examples Alexandre Gomes
    2. 2. http://creativecommons.org/licenses/by-nc/3.0/br/
    3. 3. Primeiros resultados definitivos do Censo 2010:população do Brasil é de 190.755.799 pessoasO Brasil tem 190.755.799 habitantes. É o queconstata a Sinopse do Censo Demográfico 2010, quecontém os primeiros resultados definitivos do XIIRecenseamento Geral do Brasil... 29/04/2011 http://www.ibge.gov.br
    4. 4. Resumo do Censo 2010
    5. 5. Resumo do Censo 2010
    6. 6. Qual a relação entre os índices dealfabetização e a proporção feminina?
    7. 7. Exemplo mulheres da região 7.859.539 = = 0.49total de pessoas da região 7.859.539 + 8.004.915 alfabetizados* da região 11.326.492 = = 0.89total de pessoas* da região 12.670.041 * acima de 10 anos de idade
    8. 8. E nas demaisregiões?
    9. 9. Scraping by Examples
    10. 10. Nokogiri
    11. 11. #1 Acessar a página que contém o dado desejado
    12. 12. teste
    13. 13. testecodigo
    14. 14. $ rspec spec/ibge_censo2010_spec.rb:8Run filtered using {:line_number=>8}IBGECenso2010 should open page with "Razão de sexo, populaçãode homens e mulheres"Finished in 44.4 seconds1 example, 0 failures$
    15. 15. #2 Recuperar odado desejado
    16. 16. Antes, entenda aestrutura da página
    17. 17. <table> <thead>...</thead> <tfoot> <tr> <td>...</td> <td>...</td> <td>...</td> <td>...</td> <td>...</td> </tr> </tfoot> <tbody>...</tbody> Estude o caminho do dado na árvore</table> DOM
    18. 18. Observe IDs eclasses CSS quepodem ser úteis.
    19. 19. class="td_numeros"
    20. 20. ".td_numeros"[
    21. 21. ".td_numeros"[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
    22. 22. 1º dado de que precisamos. (numerador da fórmula)[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
    23. 23. 2º dado de que precisamos. (para o cálculo do denominador da fórmula)[ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
    24. 24. mulheres da região N dados[5] =total de pessoas da região N dados[4] + dados[5] [ 0 1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17
    25. 25. teste
    26. 26. code
    27. 27. $ rspec specIBGECenso2010 razao de sexo should open page with "Razão de sexo,população de homens e mulheres" should get number of womenFinished in 1.78 seconds2 examples, 0 failures
    28. 28. teste
    29. 29. code
    30. 30. #3 Recuperar orestante de dados desejados
    31. 31. ...
    32. 32. #4 ApresentaçãoWeb do scrapping
    33. 33. application.rb(...)
    34. 34. application.rb(...)
    35. 35. index.erb(...)
    36. 36. http://datavisualization.ch/tools/13-javascript-libraries-for-visualizations
    37. 37. rme dos o cha á na ups est m ash ção visu aliza diferenciada de dadoshttp://datavisualization.ch/tools/13-javascript-libraries-for-visualizations
    38. 38. #5 Visualização(ainda tosca) do scrapping
    39. 39. #6 Visualizaçãodiferenciada da informação
    40. 40. ?
    41. 41. Agora, a mesma coisa, apenas comJavascript
    42. 42. #1 Acessar a página que contém o dado desejado
    43. 43. test
    44. 44. code
    45. 45. #2 Recuperar odado desejado
    46. 46. test
    47. 47. code
    48. 48. #3 Recuperar orestante de dados desejados
    49. 49. ...
    50. 50. #4 ApresentaçãoWeb do scrapping
    51. 51. index.html
    52. 52. index.html
    53. 53. index.html
    54. 54. index.html
    55. 55. index.html(...)
    56. 56. index.html(...)
    57. 57. index.html(...)
    58. 58. index.html(...)
    59. 59. http://chart.apis.google.com/chart?chxt=y&chbh=a&chs=500x300&cht=bvg&chco=A2C180,3D7930 &chd=t:49,51,51,50,50|89,82,94,95,93 &chdl=Women|Literates&chp=0.033
    60. 60. código disponível em...
    61. 61. P&R
    62. 62. http://tinyurl.com/AvaliacaoSOO14
    1. Gostou de algum slide específico?

      Recortar slides é uma maneira fácil de colecionar informações para acessar mais tarde.

    ×