Successfully reported this slideshow.
We use your LinkedIn profile and activity data to personalize ads and to show you more relevant ads. You can change your ad preferences anytime.

Webスクレイピングの基礎知識 #東京スクラッパー

15,112 views

Published on

第1回Webスクレイピング勉強会@東京資料。http://tokyoscrapper.connpass.com/event/6809/

Published in: Data & Analytics
  • Be the first to comment

Webスクレイピングの基礎知識 #東京スクラッパー

  1. 1. 第1回 Webスクレイピング勉強会@東京 (#東京スクラッパー) Webスクレイピングの基礎知識 @nezuq http://pixabay.com/ja/%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E7%AA%81%E3%81%8F- %E8%B5%A4-%E5%AD%90%E4%BE%9B-%E3%82%B2%E3%83%BC%E3%83%A0-%E6%B5%B7- %E5%96%9C%E3%81%B3-%E5%BB%BA%E8%A8%AD-%E6%9D%90%E6%96%99-%E7%A0%82-164266/
  2. 2. http://pixabay.com/ja/%E7%94%B7-%E4%BD%9C%E6%A5%AD- %E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E5%BB%BA%E7%89%A9-%E5%BB%BA%E8%A8%AD- %E3%83%80%E3%82%B9%E3%83%88-%E3%83%98%E3%82%A4%E3%82%BA-%E8%8A%B8%E8%A1%93- %E7%94%B7%E6%80%A7-80101/ 【定義】 「そもそも、Webスクレイピングとは?」 ウェブスクレイピング(Web scraping)とは、 ウェブサイトから情報を抽出するコンピュータソフトウェア技術のこと。 ウェブ・クローラー(Web crawler) あるいはウェブ・スパイダー(Web spider)とも呼ばれる。 ウェブスクレイピング - Wikipedia より
  3. 3. 【目的】 「Webスクレイピングに立ちはだかる3つの壁を突破する」 倫理 技術 事例 http://pixabay.com/ja/%E5%AD%90-%E5%A5%B3%E3%81%AE%E5%AD%90-%E7%94%B7-%E4%BA%BA- %E7%88%B6%E3%81%A8%E5%A8%98-%E7%88%B6-%E6%B5%B7-%E3%83%93%E3%83%BC%E3%83%81- %E6%B3%A2-%E7%A0%82%E6%B5%9C-355176/
  4. 4. http://pixabay.com/ja/%E5%8B%95%E7%89%A9-%E3%83%9A%E3%83%83%E3%83%88-%E9%B3%A5- %E3%81%8B%E3%82%82%E3%82%81-%E3%82%AB%E3%83%A2%E3%83%A1-%E7%A8%AE- %E8%87%AA%E7%84%B6-%E7%BE%BD-%E8%82%96%E5%83%8F%E7%94%BB-%E9%A0%AD-254848/ 【第一の壁】 倫理 技術 事例 ※本資料の法解釈は、あくまでも私の意見です。正しい解釈は専門家へお願いします。
  5. 5. http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E3%83%93%E3%83%BC%E3%83%81- %E6%B0%B4-%E6%B5%B7-%E5%A4%AA%E5%B9%B3%E6%B4%8B-%E7%A0%82-%E8%87%AA%E7%84%B6- %E6%B5%B7%E5%B2%B8%E7%B7%9A-51019/ 【第一の壁】 「そもそも、Webスクレイピングは合法なの?」 「情報解析目的なら合法と解釈できます」 (情報解析のための複製等) 第47条の7 著作物は、電子計算機による情報解析(多数の著作物その他 の大量の情報から、当該情報を構成する言語、音、影像その他の要素に係 る情報を抽出し、比較、分類その他の統計的な解析を行うことをいう。以下 この条において同じ。)を行うことを目的とする場合には、必要と認められる 限度において、記録媒体への記録又は翻案(これにより創作した二次的著 作物の記録を含む。)を行うことができる。ただし、情報解析を行う者の用に 供するために作成されたデータベースの著作物については、この限りでない。 [著作権法] 法庫 より
  6. 6. http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E9%B3%A5-%E5%8B%95%E7%89%A9- %E3%82%B3%E3%83%B3%E3%82%B9%E3%82%BF%E3%83%B3%E3%82%B9%E6%B9%96-%E6%B0%B4- %E3%82%92%E5%8F%82%E7%85%A7%E3%81%97%E3%81%A6%E3%81%8F%E3%81%A0%E3%81%95%E3%81% 84-%E6%8A%95%E8%B3%87%E5%AE%B6-300078/ 【第一の壁】 文化庁HPのQAでも、肯定的な記述があります 文化庁 | 著作権 | 著作権制度に関する情報 | 著作権制度の解説資料 | 最近の法改正について | 平成21年通常国会 著作権法改正等について より 問5 情報解析研究のための複製等について, 無許諾で行えることとする趣旨及び内容について教えてください。 (法第47条の7) 著作物は,大量の情報から,それを構成する言語,音,影像等の要素を抽出し, 比較分類その他の統計的な解析を行うことを目的とする場合には, 必要と認められる限度において,記録媒体に記録することができることとしています。
  7. 7. http://pixabay.com/ja/%E3%82%AC%E3%83%AB%E3%83%80-%E3%82%AB%E3%83%A2%E3%83%A1- %E9%B3%A5-%E6%B0%B4%E9%B3%A5-%E5%8B%95%E7%89%A9%E3%81%AE%E4%B8%96%E7%95%8C- %E5%BA%A7%E3%81%A3%E3%81%A6-321316/ 【第一の壁】 「でも、図書館サイトで行って逮捕された人いたよ?」 「不起訴です。又、サイト制作会社が謝罪しました。 加えて、 罪状は業務妨害罪です。 著作権の点では全くのお咎めなしです。 そして、業務妨害罪は過失では成り立ちません」 岡崎市立中央図書館事件 岡崎市立中央図書館事件(おかざきしりつちゅうおうとしょかんじけん)は、 2010年3月頃に岡崎市立中央図書館の蔵書検索システムにアクセス障害が発生し、 利用者の一人が逮捕された事件である。 岡崎市立中央図書館事件 - Wikipedia より
  8. 8. 【第一の壁】 「どこまでが過失と言えるの?」 「常識的な範囲でのサーバアクセスによる障害なら、 過失と言えると思います」 http://pixabay.com/ja/%E3%82%AB%E3%83%A2%E3%83%A1-%E9%B4%8E-%E7%BF%BC-%E7%BE%BD- %E7%A9%BA-%E3%83%95%E3%83%A9%E3%82%A4%E3%83%88-343223/ 収集対象機関ウェブサーバの負荷軽減のため、ダウンロードの間隔を1秒以上あけます。 国立国会図書館法によるインターネット資料の収集について(by 国立国会図書館) より
  9. 9. http://pixabay.com/ja/%E7%8A%AC-%E5%8B%95%E7%89%A9-%E5%AD%90%E7%8A%AC- %E3%82%B7%E3%83%99%E3%83%AA%E3%82%A2%E3%83%B3- %E3%83%8F%E3%82%B9%E3%82%AD%E3%83%BC-%E3%83%8F%E3%82%B9%E3%82%AD%E3%83%BC- %E3%83%97%E3%83%BC%E3%83%AB-%E6%B3%B3%E3%81%90-168815/ 【第二の壁】 倫理 技術 事例
  10. 10. http://pixabay.com/ja/%E5%A4%8F-%E5%A4%AA%E9%99%BD-%E7%A0%82-%E6%B5%B7-%E7%8A%AC- %E5%86%8D%E7%94%9F-%E3%82%B5%E3%83%B3%E3%82%BB%E3%83%83%E3%83%88- %E3%83%93%E3%83%BC%E3%83%81-%E3%82%AA%E3%83%BC%E3%82%B7%E3%83%A3%E3%83%B3-181906/ 【第二の壁】 「Webスクレイピングにプログラミングは必要?」 「実は不要。Webサービスを使えばいい」 (ex. kimono, ScraperWiki, Yahoo! Pipes ……) 「しかし、応用的な事をしたい場合は必要」
  11. 11. http://pixabay.com/ja/%E5%A5%B3%E3%81%AE%E5%AD%90-%E7%8A%AC-%E6%B5%B7- %E3%83%93%E3%83%BC%E3%83%81-%E3%82%B6%E3%83%B3%E3%83%88- %E3%83%95%E3%82%A9%E3%83%BC%E3%83%AB%E3%83%88-%E3%83%AC%E3%83%BC%E3%82%B9- %E5%86%8D%E7%94%9F-244926/ 【第二の壁】 「最低限、何の知識があればいい?」 「HTML(HyperText Markup Language)」 「HTMLとは?」 「ブラウザ向け文書(Webページ)を書く為のルール」
  12. 12. Google より
  13. 13. Google より
  14. 14. http://pixabay.com/ja/%E6%B5%B7-%E7%8A%AC-%E3%83%93%E3%83%BC%E3%83%81-176028/ 【第二の壁】 「結局はどういう構造なの?」 「<メタ情報>文章</メタ情報>」
  15. 15. http://pixabay.com/ja/%E5%A5%B3%E3%81%AE%E5%AD%90-%E3%82%A4%E3%83%AB%E3%82%AB- %E3%83%A4%E3%83%B3%E3%82%B0-%E3%83%A9%E3%82%B9%E3%83%99%E3%82%AC%E3%82%B9- %E3%83%9F%E3%83%A9%E3%83%BC%E3%82%B8%E3%83%A5%E3%81%AE%E3%82%AB%E3%82%B8%E3%83% 8E-68819/ 【第三の壁】 倫理 技術 事例
  16. 16. http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB-%E3%83%91%E3%83%A9%E3%82%AA- %E3%82%A4%E3%83%AB%E3%82%AB%E3%81%AE%E3%82%B8%E3%83%A3%E3%83%B3%E3%83%97- %E3%82%A4%E3%83%AB%E3%82%AB%E3%81%AE%E3%82%B7%E3%83%A7%E3%83%BC-173338/ 【第三の壁】 「どういう所で活用すればいいの?」 「最近の流行りは、データジャーナリズム」
  17. 17. http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB- %E6%B5%B7%E6%B4%8B%E7%A7%91%E5%AD%A6%E8%80%85- %E5%AE%87%E5%AE%99%E3%81%AE%E6%B5%B7-%E3%83%A1%E3%83%87%E3%82%A3%E3%82%A2- delphinidae-67527/ 【第三の壁】 「データジャーナリズムとは?」 「データからストーリーを見つけ、 デジタル技術で表現する手法」
  18. 18. DATAFILE.JPN|NHK NEWS WEB より
  19. 19. Getting Data from the Web - The Data Journalism Handbook より
  20. 20. http://pixabay.com/ja/%E3%82%A4%E3%83%AB%E3%82%AB- %E3%82%B8%E3%83%A3%E3%83%B3%E3%83%97-%E8%A1%A8%E7%A4%BA-%E3%83%87%E3%83%A2- %E5%8B%95%E7%89%A9%E5%9C%92-%E5%93%BA%E4%B9%B3%E9%A1%9E-235972/ 【第三の壁】 「他の活用方法と比べて何が良いの?」 「ジャーナリズムの大義によるリスクの低下」
  21. 21. http://pixabay.com/ja/%E3%82%B7%E3%83%A3%E3%83%99%E3%83%AB-%E7%AA%81%E3%81%8F- %E8%B5%A4-%E5%AD%90%E4%BE%9B-%E3%82%B2%E3%83%BC%E3%83%A0-%E6%B5%B7- %E5%96%9C%E3%81%B3-%E5%BB%BA%E8%A8%AD-%E6%9D%90%E6%96%99-%E7%A0%82-164266/ 【まとめ】 倫理 技術 事例 情報解析なら OKだけど 1秒待とう とりあえず HTML 読めるように データ ジャーナリズム で大義確保
  22. 22. Enjoy!

×