Download free for 30 days
Sign in
Upload
Language (EN)
Support
Business
Mobile
Social Media
Marketing
Technology
Art & Photos
Career
Design
Education
Presentations & Public Speaking
Government & Nonprofit
Healthcare
Internet
Law
Leadership & Management
Automotive
Engineering
Software
Recruiting & HR
Retail
Sales
Services
Science
Small Business & Entrepreneurship
Food
Environment
Economy & Finance
Data & Analytics
Investor Relations
Sports
Spiritual
News & Politics
Travel
Self Improvement
Real Estate
Entertainment & Humor
Health & Medicine
Devices & Hardware
Lifestyle
Change Language
Language
English
Español
Português
Français
Deutsche
Cancel
Save
Submit search
EN
Uploaded by
しくみ製作所
PPTX, PDF
2,318 views
Rubyによるクローラー開発
Rubyを使ってクローラー開発する方法を紹介していきます。
Technology
◦
Read more
0
Save
Share
Embed
Embed presentation
Download
Download to read offline
1
/ 11
2
/ 11
3
/ 11
4
/ 11
5
/ 11
6
/ 11
7
/ 11
8
/ 11
9
/ 11
10
/ 11
11
/ 11
More Related Content
PPTX
Reactjs
by
しくみ製作所
PDF
Rubyで始めるWebスクレイピング
by
Takuro Sasaki
PDF
Capybaraで雑にWebスクレイピング
by
Koji Nakamura
PDF
Anemoneによるクローラー入門
by
Tasuku Nakano
PDF
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
PDF
JAWSUG architecture-crowler
by
Takuro Sasaki
PDF
Learning jQuery
by
taiju higashi
PDF
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
Reactjs
by
しくみ製作所
Rubyで始めるWebスクレイピング
by
Takuro Sasaki
Capybaraで雑にWebスクレイピング
by
Koji Nakamura
Anemoneによるクローラー入門
by
Tasuku Nakano
Rubyで作るクローラー Ruby crawler
by
Takuro Sasaki
JAWSUG architecture-crowler
by
Takuro Sasaki
Learning jQuery
by
taiju higashi
Scraping withawsAWSを利用してスクレイピングの悩みを解決するチップス
by
Takuro Sasaki
What's hot
PDF
Innovation eggcloudnative
by
Takuro Sasaki
PDF
Crawler Commons
by
chibochibo
PDF
jQueryを中心としたJavaScript
by
hideaki honda
PDF
20150523
by
Toshihiro Suzuki
PDF
Node.jsで始める Modern JavaScript Framework
by
kamiyam .
PPTX
Sails.jsのメリット・デメリット
by
Ito Kohta
PDF
JekyllとBootstrapを使って静的なブログを作ってみたよ
by
Matsuo Obu
PDF
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
PPT
Node.js で Web アプリ開発
by
Tatsumi Naganuma
PDF
Node js 入門
by
Satoshi Takami
PDF
MVCフレームワーク Sails.jsについて機能紹介
by
kamiyam .
PDF
Getting start with knockout.js
by
Akio Ishida
PDF
Hello, Node.js
by
Shin Sekaryo
PDF
TypeScriptへの入口
by
Sunao Tomita
PDF
小規模案件で作られた秘伝のタレ
by
Muyuu Fujita
PDF
「新しい」を生み出すためのWebアプリ開発とその周辺
by
Yusuke Wada
PPT
[大図解]ピグライフはこう動いている
by
Akihiro Kuwano
PDF
Node.js を選ぶとき 選ばないとき
by
Ryunosuke SATO
PDF
About SnapKit - Open source lab -
by
Daisuke Yamashita
PPTX
Node.jsではじめるサーバ構築
by
AimingStudy
Innovation eggcloudnative
by
Takuro Sasaki
Crawler Commons
by
chibochibo
jQueryを中心としたJavaScript
by
hideaki honda
20150523
by
Toshihiro Suzuki
Node.jsで始める Modern JavaScript Framework
by
kamiyam .
Sails.jsのメリット・デメリット
by
Ito Kohta
JekyllとBootstrapを使って静的なブログを作ってみたよ
by
Matsuo Obu
Rubyで操るAWS 第67回Ruby関西 勉強会
by
Takuro Sasaki
Node.js で Web アプリ開発
by
Tatsumi Naganuma
Node js 入門
by
Satoshi Takami
MVCフレームワーク Sails.jsについて機能紹介
by
kamiyam .
Getting start with knockout.js
by
Akio Ishida
Hello, Node.js
by
Shin Sekaryo
TypeScriptへの入口
by
Sunao Tomita
小規模案件で作られた秘伝のタレ
by
Muyuu Fujita
「新しい」を生み出すためのWebアプリ開発とその周辺
by
Yusuke Wada
[大図解]ピグライフはこう動いている
by
Akihiro Kuwano
Node.js を選ぶとき 選ばないとき
by
Ryunosuke SATO
About SnapKit - Open source lab -
by
Daisuke Yamashita
Node.jsではじめるサーバ構築
by
AimingStudy
Viewers also liked
PDF
eBay Partner Network & Optimizely: Optimization Best Practices
by
eBayPartnerNetwork
PDF
スマホ対応
by
しくみ製作所
PDF
冴えない動画の育てかた
by
しくみ製作所
PDF
Androidアプリ開発
by
しくみ製作所
PPTX
レガシコード改善ガイド
by
しくみ製作所
PPTX
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
by
ひとし あまの
PDF
45分で理解する webクローリング入門 斉藤之雄
by
Yukio Saito
PDF
リーン顧客開発
by
しくみ製作所
PDF
Google cast開発入門
by
しくみ製作所
PPTX
Webサービスを分類してみた
by
しくみ製作所
PPTX
コミュニティーマネージャー
by
しくみ製作所
PDF
クライアントサイドjavascript簡単紹介
by
しくみ製作所
PDF
マジシャン視点で考える心理術
by
しくみ製作所
PPTX
Vim活用術 初級編
by
しくみ製作所
PDF
グロースハックのマインドセット
by
しくみ製作所
PPTX
Startup Science ⑤
by
Masa Tadokoro
PPTX
Startup Science ④
by
Masa Tadokoro
PDF
解説!30分で分かるLEAN ANALYTICS
by
しくみ製作所
PPTX
ウェブから情報をあつめる
by
Shuhei Iitsuka
eBay Partner Network & Optimizely: Optimization Best Practices
by
eBayPartnerNetwork
スマホ対応
by
しくみ製作所
冴えない動画の育てかた
by
しくみ製作所
Androidアプリ開発
by
しくみ製作所
レガシコード改善ガイド
by
しくみ製作所
クローラを作る技術と設計 (毎週のハンズオン勉強会資料)
by
ひとし あまの
45分で理解する webクローリング入門 斉藤之雄
by
Yukio Saito
リーン顧客開発
by
しくみ製作所
Google cast開発入門
by
しくみ製作所
Webサービスを分類してみた
by
しくみ製作所
コミュニティーマネージャー
by
しくみ製作所
クライアントサイドjavascript簡単紹介
by
しくみ製作所
マジシャン視点で考える心理術
by
しくみ製作所
Vim活用術 初級編
by
しくみ製作所
グロースハックのマインドセット
by
しくみ製作所
Startup Science ⑤
by
Masa Tadokoro
Startup Science ④
by
Masa Tadokoro
解説!30分で分かるLEAN ANALYTICS
by
しくみ製作所
ウェブから情報をあつめる
by
Shuhei Iitsuka
Similar to Rubyによるクローラー開発
PDF
HTTPと Webクローリングについて
by
Tomoya Kawanishi
PDF
Ruby on JavaScript
by
Masaya Kogawa
PPTX
Keywlker crawler
by
Yoshishiro Yamamoto
PDF
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PDF
PythonによるWebスクレイピング入門
by
Hironori Sekine
PPTX
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
PDF
2016 02-25-crawler-study-01
by
Hiroshi Oyamada
HTTPと Webクローリングについて
by
Tomoya Kawanishi
Ruby on JavaScript
by
Masaya Kogawa
Keywlker crawler
by
Yoshishiro Yamamoto
ScrapyとPhantomJSを用いたスクレイピングDSL
by
Masayuki Isobe
PythonによるWebスクレイピング入門
by
Hironori Sekine
Webクローリング&スクレイピングの最前線 公開用
by
Lumin Hacker
2016 02-25-crawler-study-01
by
Hiroshi Oyamada
Rubyによるクローラー開発
1.
Rubyによるクローラー開発 2015/02/26(Thur) kada
2.
contents 1. クローラーの概要 2. webwebでの活用例 3.
実装で困ったこと 4. ブラウザタイプのクローラー
3.
1. クローラーの概要 クローラーとは? - システムがwebページを自動巡回して情報を収集す るプログラム ex.
googleの検索エンジン、マーケティング分析 関連ライブラリ - anemone, nokogiri, kconv, capybara, poltergeist, selenium-webdriver, etc...
4.
クローラーの構造 <anemoneのメイン処理> ①巡回サイトのURLを指定 ②除外対象ページのURLパターンを指定 ③巡回対象ページのURLを指定 ④取得したページに対して、正規表現で一致したペー ジのみ処理 ⑤取得したすべてに対しての処理 ⑥ストレージに対する処理
5.
example 今回は取得したいURLが http://media- radar.jp/detail****.html の形をしているので、該当部分 を正規表現で抜粋できる。 (ただし巡回の深さは depth_limit=>1としている) xpathやCSSセレクタで構文解 析しても良い。 ・・・ 取得したいURL =>
④にあたる ・・・ skipしたいURL
6.
2. webwebでの活用例 webページのmetaタグ解析 - description,
commentの取得 - 巡回しなくても取得できる場合はnokogiriが基本 コードリーディング!
7.
example 1. scrapeメソッド - 指定したURLのHTMLをパース -
xpathでmetaタグの構文解析 2. get_descriptionメソッド - meta name = “description”のcontent部分をゲッ ト!
8.
3. 実装で困ったこと - 文字化け(kconvでほぼ解決!) -
xpath指定 - リダイレクト(open_uri_redirectionsで解決!) - proxy設定(大学でできないorz)
9.
4. ブラウザタイプのクローラー - anemoneはフォーム入力による画面遷移・対話処理 やJavaScriptの実行はサポートされていない! -
テスト自動化の分野でのブラウザを操作するライブ ラリを活用 => Capybara, Selenium
10.
Capybara概念図 Capybara DSL Driver Cucumber MiniTest::Spec Test::Unit Rspec Poltergeist RackTest Webkit Selenium テストフレームワーク ブラウザシミュレータ
11.
参考図書 - 「Rubyによるクローラー開発技法」
Download