Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
Takuro Sasaki
34,782 views
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング 第1回Webスクレイピング勉強会@東京 発表資料
Technology
◦
Read more
101
Save
Share
Embed
Embed presentation
Download
Downloaded 148 times
1
/ 24
2
/ 24
3
/ 24
4
/ 24
5
/ 24
6
/ 24
7
/ 24
8
/ 24
9
/ 24
10
/ 24
11
/ 24
12
/ 24
13
/ 24
14
/ 24
15
/ 24
16
/ 24
17
/ 24
18
/ 24
19
/ 24
20
/ 24
21
/ 24
22
/ 24
23
/ 24
24
/ 24
More Related Content
PDF
JAWSUG architecture-crowler
by
Takuro Sasaki
PDF
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
PDF
Capybaraで雑にWebスクレイピング
by
Koji Nakamura
PPTX
Rubyによるクローラー開発
by
しくみ製作所
PDF
Anemoneによるクローラー入門
by
Tasuku Nakano
PDF
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
PDF
Innovation eggcloudnative
by
Takuro Sasaki
PDF
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
JAWSUG architecture-crowler
by
Takuro Sasaki
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
Capybaraで雑にWebスクレイピング
by
Koji Nakamura
Rubyによるクローラー開発
by
しくみ製作所
Anemoneによるクローラー入門
by
Tasuku Nakano
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
Innovation eggcloudnative
by
Takuro Sasaki
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
What's hot
PPTX
Reactjs
by
しくみ製作所
PDF
JAWS-UG初心者支部 AWS書籍活用術
by
Takuro Sasaki
PDF
Crawler Commons
by
chibochibo
PDF
JAWSUG Osaka S3 CloudSearch
by
Takuro Sasaki
PDF
「新しい」を生み出すためのWebアプリ開発とその周辺
by
Yusuke Wada
PDF
20150207 elastic loadbalancer
by
Daiki Mori
PDF
Node.jsとAWS入門(Elastic Beanstalk & AWS SDK for Node.js)
by
崇之 清水
PDF
jQueryを中心としたJavaScript
by
hideaki honda
PDF
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
by
Koichiro Nishijima
PPTX
Node.jsに縁のない職場でnode.jsを使い始める戦術
by
Isamu Suzuki
PDF
DevLove Kansai AWS
by
Takuro Sasaki
PDF
Node.jsで始める Modern JavaScript Framework
by
kamiyam .
PPTX
Node.jsではじめるサーバ構築
by
AimingStudy
PDF
JAWSUG初心者支部 AWSの勉強の仕方
by
Takuro Sasaki
PDF
Jawsug osaka10 service®ions
by
Takuro Sasaki
PDF
Node js 入門
by
Satoshi Takami
PDF
Jaws ug shimane-1
by
Mutsumi IWAISHI
PPT
Node.js で Web アプリ開発
by
Tatsumi Naganuma
PDF
Hello, Node.js
by
Shin Sekaryo
PDF
MySQL Fabricつらい
by
yoku0825
Reactjs
by
しくみ製作所
JAWS-UG初心者支部 AWS書籍活用術
by
Takuro Sasaki
Crawler Commons
by
chibochibo
JAWSUG Osaka S3 CloudSearch
by
Takuro Sasaki
「新しい」を生み出すためのWebアプリ開発とその周辺
by
Yusuke Wada
20150207 elastic loadbalancer
by
Daiki Mori
Node.jsとAWS入門(Elastic Beanstalk & AWS SDK for Node.js)
by
崇之 清水
jQueryを中心としたJavaScript
by
hideaki honda
20150207 サービス紹介編 Amazon Simple Queue Service (SQS)
by
Koichiro Nishijima
Node.jsに縁のない職場でnode.jsを使い始める戦術
by
Isamu Suzuki
DevLove Kansai AWS
by
Takuro Sasaki
Node.jsで始める Modern JavaScript Framework
by
kamiyam .
Node.jsではじめるサーバ構築
by
AimingStudy
JAWSUG初心者支部 AWSの勉強の仕方
by
Takuro Sasaki
Jawsug osaka10 service®ions
by
Takuro Sasaki
Node js 入門
by
Satoshi Takami
Jaws ug shimane-1
by
Mutsumi IWAISHI
Node.js で Web アプリ開発
by
Tatsumi Naganuma
Hello, Node.js
by
Shin Sekaryo
MySQL Fabricつらい
by
yoku0825
Viewers also liked
PDF
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PPTX
CasperJSを使って任意のWebサイトを電子書籍化する方法
by
Masayuki Isobe
PDF
オープンデータのためのスクレイピング
by
直之 伊藤
PDF
Crawler for Non engineer
by
Takuro Sasaki
PDF
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
by
Hirosuke Asano
PPTX
クローリングしにくいものに挑戦 公開用
by
Lumin Hacker
PDF
続Pythonによるwebスクレイピング入門
by
Hironori Sekine
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
CasperJSを使って任意のWebサイトを電子書籍化する方法
by
Masayuki Isobe
オープンデータのためのスクレイピング
by
直之 伊藤
Crawler for Non engineer
by
Takuro Sasaki
20141022 リサーチ向け・ブラウザだけでスクレイピング(浅野)
by
Hirosuke Asano
クローリングしにくいものに挑戦 公開用
by
Lumin Hacker
続Pythonによるwebスクレイピング入門
by
Hironori Sekine
Similar to Rubyで始めるWebスクレイピング
PDF
Nokogiri on Rails
by
Takuya Mukohira
PDF
PythonによるWebスクレイピング入門
by
Hironori Sekine
PDF
HTTPと Webクローリングについて
by
Tomoya Kawanishi
PDF
実践スクレイピング
by
だいすけ ふるかわ
PDF
エコなWebサーバー
by
emasaka
PDF
Ruby on JavaScript
by
Masaya Kogawa
PDF
Web技術勉強会23回目
by
龍一 田中
PPTX
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
PDF
AWS Lambdaで作るクローラー/スクレイピング
by
Takuro Sasaki
PPTX
Rawlerフレームワーク(全体)
by
Takaichi Ito
PDF
Sinatraでwebアプリケーション開発を学ぶ
by
Hiroshi Oyamada
ODP
kpfx07 LT ruby-processingでイケメンになりたい
by
koki_h
PDF
Rails vim easy
by
Naoki Takaesu
ODP
20090704rubyist九州
by
koki_h
PDF
Ruby本から読み解くRuby考古学 - Ruby Archaeology from the Ruby Book
by
Tadashi Saito
KEY
おしべめしべ
by
puriketu99 --
PDF
長いの
by
emasaka
PDF
地域Ruby会議に参加してきた話とか
by
Ken Muryoi
PPTX
Ruby – The Scripting Language
by
Akio Tajima
PDF
Restful Web Service Ch2
by
kunit
Nokogiri on Rails
by
Takuya Mukohira
PythonによるWebスクレイピング入門
by
Hironori Sekine
HTTPと Webクローリングについて
by
Tomoya Kawanishi
実践スクレイピング
by
だいすけ ふるかわ
エコなWebサーバー
by
emasaka
Ruby on JavaScript
by
Masaya Kogawa
Web技術勉強会23回目
by
龍一 田中
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
AWS Lambdaで作るクローラー/スクレイピング
by
Takuro Sasaki
Rawlerフレームワーク(全体)
by
Takaichi Ito
Sinatraでwebアプリケーション開発を学ぶ
by
Hiroshi Oyamada
kpfx07 LT ruby-processingでイケメンになりたい
by
koki_h
Rails vim easy
by
Naoki Takaesu
20090704rubyist九州
by
koki_h
Ruby本から読み解くRuby考古学 - Ruby Archaeology from the Ruby Book
by
Tadashi Saito
おしべめしべ
by
puriketu99 --
長いの
by
emasaka
地域Ruby会議に参加してきた話とか
by
Ken Muryoi
Ruby – The Scripting Language
by
Akio Tajima
Restful Web Service Ch2
by
kunit
More from Takuro Sasaki
PDF
Lambda認証認可パターン
by
Takuro Sasaki
PDF
Swaggerで始めるモデルファーストなAPI開発
by
Takuro Sasaki
PDF
Jawsug chiba API Gateway
by
Takuro Sasaki
PDF
JAWSUG Kansai Simple Workflow Service (SWF)
by
Takuro Sasaki
PDF
サイト/ブログから本文抽出する方法
by
Takuro Sasaki
PDF
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
by
Takuro Sasaki
PDF
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
by
Takuro Sasaki
PDF
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
by
Takuro Sasaki
PDF
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
by
Takuro Sasaki
PDF
第8回JAWSUG大阪 AWSの事例/課金について
by
Takuro Sasaki
PDF
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
by
Takuro Sasaki
Lambda認証認可パターン
by
Takuro Sasaki
Swaggerで始めるモデルファーストなAPI開発
by
Takuro Sasaki
Jawsug chiba API Gateway
by
Takuro Sasaki
JAWSUG Kansai Simple Workflow Service (SWF)
by
Takuro Sasaki
サイト/ブログから本文抽出する方法
by
Takuro Sasaki
JAWS-UG三都物語2014 初心者向け Elasticity ELB/AutoScaling/EIP
by
Takuro Sasaki
第9回Jawsug大阪 ServiceProviders 現場で使えるAWS付随サービス!!
by
Takuro Sasaki
第2回 JAWS−UG 神戸 開発運用の現場でのChef活用
by
Takuro Sasaki
第8回JAWSUG大阪 JAWSUG大阪 連携サービス(SNS,SQS,SES)
by
Takuro Sasaki
第8回JAWSUG大阪 AWSの事例/課金について
by
Takuro Sasaki
開発環境としてのAwsを真面目に考える jawsug2013三都物語公開用
by
Takuro Sasaki
Rubyで始めるWebスクレイピング
1.
第1回Webスクレイピング勉強会@東京 ! Rubyで始める
Webスクレイピング 2014年6月22日 @dkfj 佐々木拓郎
2.
今日は大阪から来ました
3.
今日は大阪から来ました
4.
✦ プロフィール ‣
Webシステムを得意とするSIerで勤務 ‣ 最近の仕事はAWS事業の推進・インフラチームのマネジメント ‣ Webスクレイピングして、データマイニングするのが趣味 ★ ソーシャル・ネットワーク ‣ blog: http://blog.takuros.net/ ‣ twitter: @dkfj ‣ Facebook: takuro.sasaki ‣ SlideShare: http://www.slideshare.net/takurosasaki/ @dkfj 自己紹介: 佐々木拓郎
5.
宣伝!! Rubyのクローラー本を書いています。 8月頃に発売予定です。しました。
Rubyによるクローラー開発技法 巡回・解析機能の実装と21の運用例 http://amzn.to/1lsJ5id
6.
Rubyで Webスクレイピングするには?
7.
RubyでWebスクレイピング • Open-URI
• Nokogiri • Anemone • Capybara+Selenium • cosmiccrawler • CocProxy
8.
RubyでWebスクレイピング • Open-URI
• Nokogiri • Anemone • Capybara+Selenium • cosmiccrawler • CocProxy 基本的なライブラリ クローラー フレームワーク 補助的なライブラリ
9.
Open-URI • http/ftpに簡単にアクセスするためのライブラリ
• Kernel#openを再定義 • ファイルのopenと同様に、URLを扱える require 'open-uri' open("http://www.ruby-lang.org/") {|f| f.each_line {|line| p line} }
10.
• HTML/XMLの構文解析器(パーサー) •
ほぼデファクトスタンダード • XPath or CSSセレクタで、HTML中の要素を選択 • UTF-8以外の文字コードを扱う場合は注意 require 'nokogiri' require 'open-uri' ! doc = Nokogiri.HTML(open("http://nokogiri.org/")) doc.css('a').each do |element| puts element[:href] end 参照:Ruby製の構文解析ツール、Nokogiriの使い方 with Xpath http://blog.takuros.net/entry/2014/04/15/070434
11.
• Ruby製のクローラーフレームワーク •
データ収集/解析/保存の全ての機能がある • 2年ほどメンテナンスされていない • ScrapyのあるPythonがうらやましい今日この頃 require 'anemone' ! Anemone.crawl("http://www.hatena.ne.jp/") do |anemone| anemone.on_every_page do |page| puts page.url puts page.doc.xpath("//head/title/text()").first.to_s if page.doc end end Anemone 参照:オープンソースのRubyのWebクローラー"Anemone"を使ってみる http://blog.takuros.net/entry/20110204/1296781291
12.
Capybara+Selenium • 基本的には、UIテストツール
• ブラウザを使うので、JavaScriptにも対応可能 • スクレイピング部分は、Nokogiriを利用 • CapybaraをラッパーしたMasqueというクローラー • ブラウザ代わりに、PhantomJSを使うのもあり 参照:JavaScriptにも対応出来るruby製のクローラー、Masqueを試してみる http://blog.takuros.net/entry/20131223/1387814711 参照:Capybara-DSLのはなし http://blog.takuros.net/entry/20140322/1395464375
13.
cosmicrawler • 並列処理を得意とするクローラー
• 並列処理の実装は、EventMachine • EventMachineの面倒くさい処理を隠蔽してくれる require 'cosmicrawler' ! Cosmicrawler.http_crawl(%w(http://b.hatena.ne.jp/hotentry/it http:// b.hatena.ne.jp/hotentry/life)) {|request| get = request.get puts get.response if get.response_header.status == 200 } 参照:複数並行可能なRubyのクローラー、「cosmicrawler」を試してみた http://blog.takuros.net/entry/20140103/1388701372
14.
CocProxy • ほぼピュアRubyで実装されたプロキシサーバ
• 開発用途で、クローラー作成時に便利 • 訪問済みのサイトをキャッシュしてくれる • 訪問先サイトに無駄に負荷を掛けずに試行錯誤できる 参照:開発用プロキシ、「CocProxy」が便利 http://blog.takuros.net/entry/2014/05/05/120747
15.
スクレイピングの例
16.
iTunesStoreのランキング • iTunesStoreのランキングの実体はHTML+JSON
• UserAgentを”iTunes”にすればスクレイピング可能 • 国ごとのコードをX-Apple-Store-Frontで指定 • カテゴリIDとランキング種別は、引数で指定 参照:iTunesのランキングを毎日自動で取得する その1 http://blog.takuros.net/entry/20120521/1337549653
17.
APIの活用 • Webスクレイピングの目的は、データの収集
• APIが提供されているのであれば、そちらが効率的 • ただし、APIは制約が多い !
18.
Google Maps APIの活用
• 1IP辺り1日2,500回のリクエスト制限 • 郵便番号(12万件)を、経度緯度に変換したい • 120,000件/2,500回 ⇒ 48日 • AWSを利用して50台のサーバを使い1時間で完了 ! AWSでスポットインスタンスの活用 $0.0031×50台≒約16円
20.
Twitter Streaming API
• 全Tweetのうち、数%だけに絞って提供されている • それでも1日100万件近い分量 • 日本語のみ取り出すことも可能 ! 参照:Rubyのtwitterライブラリで、Twitter Streaming APIが扱えるようになっていた http://blog.takuros.net/entry/2014/05/19/002326
23.
引越にも • 参加表明後に、突然の異動の辞令
• 7月から東京勤務 • 相場観がないので、賃貸サイトをスクレイピング • 数十万件のデータから、駅ごとの㎡辺り単価の算出 ! GeoFUSEで視覚化しようとしたが 時間がなくて断念
24.
ご清聴ありがとうございました 後日の質問は、@dkfjまで
Download