Submit Search
Upload
Rubyによるクローラー開発
•
Download as PPTX, PDF
•
0 likes
•
2,301 views
しくみ製作所
Follow
Rubyを使ってクローラー開発する方法を紹介していきます。
Read less
Read more
Technology
Report
Share
Report
Share
1 of 11
Download now
Recommended
Reactjs
Reactjs
しくみ製作所
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Capybaraで雑にWebスクレイピング
Capybaraで雑にWebスクレイピング
Koji Nakamura
Anemoneによるクローラー入門
Anemoneによるクローラー入門
Tasuku Nakano
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
JAWSUG architecture-crowler
JAWSUG architecture-crowler
Takuro Sasaki
Learning jQuery
Learning jQuery
taiju higashi
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
Recommended
Reactjs
Reactjs
しくみ製作所
Rubyで始めるWebスクレイピング
Rubyで始めるWebスクレイピング
Takuro Sasaki
Capybaraで雑にWebスクレイピング
Capybaraで雑にWebスクレイピング
Koji Nakamura
Anemoneによるクローラー入門
Anemoneによるクローラー入門
Tasuku Nakano
Rubyで作るクローラー Ruby crawler
Rubyで作るクローラー Ruby crawler
Takuro Sasaki
JAWSUG architecture-crowler
JAWSUG architecture-crowler
Takuro Sasaki
Learning jQuery
Learning jQuery
taiju higashi
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
Takuro Sasaki
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Crawler Commons
Crawler Commons
chibochibo
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
hideaki honda
20150523
20150523
Toshihiro Suzuki
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
kamiyam .
Sails.jsのメリット・デメリット
Sails.jsのメリット・デメリット
Ito Kohta
JekyllとBootstrapを使って静的なブログを作ってみたよ
JekyllとBootstrapを使って静的なブログを作ってみたよ
Matsuo Obu
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
Node.js で Web アプリ開発
Node.js で Web アプリ開発
Tatsumi Naganuma
Node js 入門
Node js 入門
Satoshi Takami
MVCフレームワーク Sails.jsについて機能紹介
MVCフレームワーク Sails.jsについて機能紹介
kamiyam .
Getting start with knockout.js
Getting start with knockout.js
Akio Ishida
Hello, Node.js
Hello, Node.js
Shin Sekaryo
TypeScriptへの入口
TypeScriptへの入口
Sunao Tomita
小規模案件で作られた秘伝のタレ
小規模案件で作られた秘伝のタレ
Muyuu Fujita
「新しい」を生み出すためのWebアプリ開発とその周辺
「新しい」を生み出すためのWebアプリ開発とその周辺
Yusuke Wada
[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている
Akihiro Kuwano
Node.js を選ぶとき 選ばないとき
Node.js を選ぶとき 選ばないとき
Ryunosuke SATO
About SnapKit - Open source lab -
About SnapKit - Open source lab -
Daisuke Yamashita
Node.jsではじめるサーバ構築
Node.jsではじめるサーバ構築
AimingStudy
eBay Partner Network & Optimizely: Optimization Best Practices
eBay Partner Network & Optimizely: Optimization Best Practices
eBayPartnerNetwork
スマホ対応
スマホ対応
しくみ製作所
More Related Content
What's hot
Innovation eggcloudnative
Innovation eggcloudnative
Takuro Sasaki
Crawler Commons
Crawler Commons
chibochibo
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
hideaki honda
20150523
20150523
Toshihiro Suzuki
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
kamiyam .
Sails.jsのメリット・デメリット
Sails.jsのメリット・デメリット
Ito Kohta
JekyllとBootstrapを使って静的なブログを作ってみたよ
JekyllとBootstrapを使って静的なブログを作ってみたよ
Matsuo Obu
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Takuro Sasaki
Node.js で Web アプリ開発
Node.js で Web アプリ開発
Tatsumi Naganuma
Node js 入門
Node js 入門
Satoshi Takami
MVCフレームワーク Sails.jsについて機能紹介
MVCフレームワーク Sails.jsについて機能紹介
kamiyam .
Getting start with knockout.js
Getting start with knockout.js
Akio Ishida
Hello, Node.js
Hello, Node.js
Shin Sekaryo
TypeScriptへの入口
TypeScriptへの入口
Sunao Tomita
小規模案件で作られた秘伝のタレ
小規模案件で作られた秘伝のタレ
Muyuu Fujita
「新しい」を生み出すためのWebアプリ開発とその周辺
「新しい」を生み出すためのWebアプリ開発とその周辺
Yusuke Wada
[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている
Akihiro Kuwano
Node.js を選ぶとき 選ばないとき
Node.js を選ぶとき 選ばないとき
Ryunosuke SATO
About SnapKit - Open source lab -
About SnapKit - Open source lab -
Daisuke Yamashita
Node.jsではじめるサーバ構築
Node.jsではじめるサーバ構築
AimingStudy
What's hot
(20)
Innovation eggcloudnative
Innovation eggcloudnative
Crawler Commons
Crawler Commons
jQueryを中心としたJavaScript
jQueryを中心としたJavaScript
20150523
20150523
Node.jsで始める Modern JavaScript Framework
Node.jsで始める Modern JavaScript Framework
Sails.jsのメリット・デメリット
Sails.jsのメリット・デメリット
JekyllとBootstrapを使って静的なブログを作ってみたよ
JekyllとBootstrapを使って静的なブログを作ってみたよ
Rubyで操るAWS 第67回Ruby関西 勉強会
Rubyで操るAWS 第67回Ruby関西 勉強会
Node.js で Web アプリ開発
Node.js で Web アプリ開発
Node js 入門
Node js 入門
MVCフレームワーク Sails.jsについて機能紹介
MVCフレームワーク Sails.jsについて機能紹介
Getting start with knockout.js
Getting start with knockout.js
Hello, Node.js
Hello, Node.js
TypeScriptへの入口
TypeScriptへの入口
小規模案件で作られた秘伝のタレ
小規模案件で作られた秘伝のタレ
「新しい」を生み出すためのWebアプリ開発とその周辺
「新しい」を生み出すためのWebアプリ開発とその周辺
[大図解]ピグライフはこう動いている
[大図解]ピグライフはこう動いている
Node.js を選ぶとき 選ばないとき
Node.js を選ぶとき 選ばないとき
About SnapKit - Open source lab -
About SnapKit - Open source lab -
Node.jsではじめるサーバ構築
Node.jsではじめるサーバ構築
Viewers also liked
eBay Partner Network & Optimizely: Optimization Best Practices
eBay Partner Network & Optimizely: Optimization Best Practices
eBayPartnerNetwork
スマホ対応
スマホ対応
しくみ製作所
冴えない動画の育てかた
冴えない動画の育てかた
しくみ製作所
Androidアプリ開発
Androidアプリ開発
しくみ製作所
レガシコード改善ガイド
レガシコード改善ガイド
しくみ製作所
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
ひとし あまの
45分で理解する webクローリング入門 斉藤之雄
45分で理解する webクローリング入門 斉藤之雄
Yukio Saito
リーン顧客開発
リーン顧客開発
しくみ製作所
Google cast開発入門
Google cast開発入門
しくみ製作所
Webサービスを分類してみた
Webサービスを分類してみた
しくみ製作所
コミュニティーマネージャー
コミュニティーマネージャー
しくみ製作所
クライアントサイドjavascript簡単紹介
クライアントサイドjavascript簡単紹介
しくみ製作所
マジシャン視点で考える心理術
マジシャン視点で考える心理術
しくみ製作所
Vim活用術 初級編
Vim活用術 初級編
しくみ製作所
グロースハックのマインドセット
グロースハックのマインドセット
しくみ製作所
Startup Science ⑤
Startup Science ⑤
Masa Tadokoro
Startup Science ④
Startup Science ④
Masa Tadokoro
解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICS
しくみ製作所
ウェブから情報をあつめる
ウェブから情報をあつめる
Shuhei Iitsuka
Viewers also liked
(19)
eBay Partner Network & Optimizely: Optimization Best Practices
eBay Partner Network & Optimizely: Optimization Best Practices
スマホ対応
スマホ対応
冴えない動画の育てかた
冴えない動画の育てかた
Androidアプリ開発
Androidアプリ開発
レガシコード改善ガイド
レガシコード改善ガイド
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
45分で理解する webクローリング入門 斉藤之雄
45分で理解する webクローリング入門 斉藤之雄
リーン顧客開発
リーン顧客開発
Google cast開発入門
Google cast開発入門
Webサービスを分類してみた
Webサービスを分類してみた
コミュニティーマネージャー
コミュニティーマネージャー
クライアントサイドjavascript簡単紹介
クライアントサイドjavascript簡単紹介
マジシャン視点で考える心理術
マジシャン視点で考える心理術
Vim活用術 初級編
Vim活用術 初級編
グロースハックのマインドセット
グロースハックのマインドセット
Startup Science ⑤
Startup Science ⑤
Startup Science ④
Startup Science ④
解説!30分で分かるLEAN ANALYTICS
解説!30分で分かるLEAN ANALYTICS
ウェブから情報をあつめる
ウェブから情報をあつめる
Similar to Rubyによるクローラー開発
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
Hironori Sekine
Jjug springセッション
Jjug springセッション
Yuichi Hasegawa
HerokuでRailsアプリ運用の パフォーマンス、SEO対策
HerokuでRailsアプリ運用の パフォーマンス、SEO対策
Salesforce Developers Japan
What makes pyramid unique
What makes pyramid unique
Atsushi Odagiri
Isomorphic web development with scala and scala.js
Isomorphic web development with scala and scala.js
TanUkkii
Om Next ~React.jsを超えて
Om Next ~React.jsを超えて
Kazuki Tsutsumi
Web制作勉強会 #2
Web制作勉強会 #2
Moto Yan
JavaScript And Keywords
JavaScript And Keywords
uupaa
Re-frame and A-Frame
Re-frame and A-Frame
Kazuhiro Hara
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
貴志 上坂
MediaRecorder と WebM で、オレオレ Live Streaming
MediaRecorder と WebM で、オレオレ Live Streaming
mganeko
わんくま同盟名古屋勉強会18回目 ASP.NET MVC3を利用したHTML5な画面開発~クラウドも有るよ!~
わんくま同盟名古屋勉強会18回目 ASP.NET MVC3を利用したHTML5な画面開発~クラウドも有るよ!~
normalian
Pythonで検索エンジン2
Pythonで検索エンジン2
Yasukazu Kawasaki
ログ管理のベストプラクティス
ログ管理のベストプラクティス
Akihiro Kuwano
The Essence of Using Ruby on Rails in Corporations
The Essence of Using Ruby on Rails in Corporations
Koichiro Ohba
Haikara
Haikara
jewel12
BestGems.org -RubyGemsランキングサイトのご紹介-
BestGems.org -RubyGemsランキングサイトのご紹介-
Misao X
SPA時代のOGPとの戦い方
SPA時代のOGPとの戦い方
Yoichi Toyota
Mvc conf session_5_isami
Mvc conf session_5_isami
Hiroshi Okunushi
サーバレス構成の運用・監視と自社製Data○ogもどきの話 公開用
サーバレス構成の運用・監視と自社製Data○ogもどきの話 公開用
Takashi Kozu
Similar to Rubyによるクローラー開発
(20)
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
Jjug springセッション
Jjug springセッション
HerokuでRailsアプリ運用の パフォーマンス、SEO対策
HerokuでRailsアプリ運用の パフォーマンス、SEO対策
What makes pyramid unique
What makes pyramid unique
Isomorphic web development with scala and scala.js
Isomorphic web development with scala and scala.js
Om Next ~React.jsを超えて
Om Next ~React.jsを超えて
Web制作勉強会 #2
Web制作勉強会 #2
JavaScript And Keywords
JavaScript And Keywords
Re-frame and A-Frame
Re-frame and A-Frame
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
クラウドデザインパターンから始めるクラウドの利点と弱点の理解~提案から設計・開発・保守に活かす!~
MediaRecorder と WebM で、オレオレ Live Streaming
MediaRecorder と WebM で、オレオレ Live Streaming
わんくま同盟名古屋勉強会18回目 ASP.NET MVC3を利用したHTML5な画面開発~クラウドも有るよ!~
わんくま同盟名古屋勉強会18回目 ASP.NET MVC3を利用したHTML5な画面開発~クラウドも有るよ!~
Pythonで検索エンジン2
Pythonで検索エンジン2
ログ管理のベストプラクティス
ログ管理のベストプラクティス
The Essence of Using Ruby on Rails in Corporations
The Essence of Using Ruby on Rails in Corporations
Haikara
Haikara
BestGems.org -RubyGemsランキングサイトのご紹介-
BestGems.org -RubyGemsランキングサイトのご紹介-
SPA時代のOGPとの戦い方
SPA時代のOGPとの戦い方
Mvc conf session_5_isami
Mvc conf session_5_isami
サーバレス構成の運用・監視と自社製Data○ogもどきの話 公開用
サーバレス構成の運用・監視と自社製Data○ogもどきの話 公開用
Recently uploaded
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
akihisamiyanaga1
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
FumieNakayama
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Yuma Ohgami
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
Yuki Kikuchi
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
博三 太田
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
Toru Tamaki
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
sugiuralab
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
UEHARA, Tetsutaro
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
Hiroki Ichikura
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
iPride Co., Ltd.
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
Toru Tamaki
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
Toru Tamaki
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
FumieNakayama
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
taisei2219
Recently uploaded
(14)
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
CTO, VPoE, テックリードなどリーダーポジションに登用したくなるのはどんな人材か?
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
AWS の OpenShift サービス (ROSA) を使った OpenShift Virtualizationの始め方.pdf
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
Open Source UN-Conference 2024 Kawagoe - 独自OS「DaisyOS GB」の紹介
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
自分史上一番早い2024振り返り〜コロナ後、仕事は通常ペースに戻ったか〜 by IoT fullstack engineer
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
モーダル間の変換後の一致性とジャンル表を用いた解釈可能性の考察 ~Text-to-MusicとText-To-ImageかつImage-to-Music...
論文紹介:Automated Classification of Model Errors on ImageNet
論文紹介:Automated Classification of Model Errors on ImageNet
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
TataPixel: 畳の異方性を利用した切り替え可能なディスプレイの提案
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
デジタル・フォレンジックの最新動向(2024年4月27日情洛会総会特別講演スライド)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
【早稲田AI研究会 講義資料】3DスキャンとTextTo3Dのツールを知ろう!(Vol.1)
SOPを理解する 2024/04/19 の勉強会で発表されたものです
SOPを理解する 2024/04/19 の勉強会で発表されたものです
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Semantic segmentation using Vision Transformers: A survey
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
論文紹介:Content-Aware Token Sharing for Efficient Semantic Segmentation With Vis...
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
クラウドネイティブなサーバー仮想化基盤 - OpenShift Virtualization.pdf
TSAL operation mechanism and circuit diagram.pdf
TSAL operation mechanism and circuit diagram.pdf
Rubyによるクローラー開発
1.
Rubyによるクローラー開発 2015/02/26(Thur) kada
2.
contents 1. クローラーの概要 2. webwebでの活用例 3.
実装で困ったこと 4. ブラウザタイプのクローラー
3.
1. クローラーの概要 クローラーとは? - システムがwebページを自動巡回して情報を収集す るプログラム ex.
googleの検索エンジン、マーケティング分析 関連ライブラリ - anemone, nokogiri, kconv, capybara, poltergeist, selenium-webdriver, etc...
4.
クローラーの構造 <anemoneのメイン処理> ①巡回サイトのURLを指定 ②除外対象ページのURLパターンを指定 ③巡回対象ページのURLを指定 ④取得したページに対して、正規表現で一致したペー ジのみ処理 ⑤取得したすべてに対しての処理 ⑥ストレージに対する処理
5.
example 今回は取得したいURLが http://media- radar.jp/detail****.html の形をしているので、該当部分 を正規表現で抜粋できる。 (ただし巡回の深さは depth_limit=>1としている) xpathやCSSセレクタで構文解 析しても良い。 ・・・ 取得したいURL =>
④にあたる ・・・ skipしたいURL
6.
2. webwebでの活用例 webページのmetaタグ解析 - description,
commentの取得 - 巡回しなくても取得できる場合はnokogiriが基本 コードリーディング!
7.
example 1. scrapeメソッド - 指定したURLのHTMLをパース -
xpathでmetaタグの構文解析 2. get_descriptionメソッド - meta name = “description”のcontent部分をゲッ ト!
8.
3. 実装で困ったこと - 文字化け(kconvでほぼ解決!) -
xpath指定 - リダイレクト(open_uri_redirectionsで解決!) - proxy設定(大学でできないorz)
9.
4. ブラウザタイプのクローラー - anemoneはフォーム入力による画面遷移・対話処理 やJavaScriptの実行はサポートされていない! -
テスト自動化の分野でのブラウザを操作するライブ ラリを活用 => Capybara, Selenium
10.
Capybara概念図 Capybara DSL Driver Cucumber MiniTest::Spec Test::Unit Rspec Poltergeist RackTest Webkit Selenium テストフレームワーク ブラウザシミュレータ
11.
参考図書 - 「Rubyによるクローラー開発技法」
Download now