SlideShare a Scribd company logo
1 of 19
ウェブスクレイピング
やってみた
山本 憲
ウェブスクレイピングとは
ウェブサイトから情報を抽出
するコンピュータソフトウェ
ア技術のこと
※wikipediaより
なぜ、スクレイピングをやるのか
なぜ、スクレイピングをやるのか
授業もなく、バイトやらなんやらで
発表(アウトプット)を行っていないので、
いい機会なので、入学時に掲げていた目標をやってみます!
分析対象
調査ウェブサイト
「twitter」 ←個人的好み
調査キーワード
「ジーズアカデミー」
期間
「2015年4月〜昨日まで」
手法
大きく分けて3つあるみたい。。。
1.Twitter Api
→過去、一週間限定・・・
2.URLを叩いて、特定のキーワードを切り取る
3.AJAXのパラメータ(JSON)を取得し、分解
プログラミング言語はRubyを用いました!
実行
ツイッター取得数制限があるので、2時間分リクエスト+
スリープ3秒でURL取得し、スクレイピング。
全部終えるのに、だいたい、5時間位かかった。。
トレタ!
トレタ!!!!
トレタ!!!!!!!
ツイート数について
比較対象が無いので、ツイート数が多いかわからないので、
「同業他社」
で比較してみた。
比較会社
比較キーワードは
「TechAcademy」
にしました。期間は同じです!
テックアカデミーのツイート数
ツイート内容を解析してみる!
pythonを授業(by 宗貞先生)で習ったままだっので使ってみる。
今回は品詞分解をやってみました!
ライブラリはMecab(※)を用いました!
※rubyでも使える・・・
ツイート品詞分解 例
グラフにしてみる
どんな内容をツイートしているのか、把握するため、
「名詞-一般、名詞-固有名詞-組織」
に属する単語の出現回数をカウントし、20回以上
出現した単語をグラフ化!
グラフ(ジーズ)
グラフ(参考)
以上

More Related Content

Viewers also liked

python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
Hikaru Takemura
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
Atsushi Hayakawa
 

Viewers also liked (13)

python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集python-twitterを用いたTwitterデータ収集
python-twitterを用いたTwitterデータ収集
 
Python東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしようPython東海Vol.5 IPythonをマスターしよう
Python東海Vol.5 IPythonをマスターしよう
 
Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析Pythonで簡単ネットワーク分析
Pythonで簡単ネットワーク分析
 
Gensim
GensimGensim
Gensim
 
RとPythonによるデータ解析入門
RとPythonによるデータ解析入門RとPythonによるデータ解析入門
RとPythonによるデータ解析入門
 
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
PythonとRによるデータ分析環境の構築と機械学習によるデータ認識
 
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
野球Hack!~Pythonを用いたデータ分析と可視化 #pyconjp
 
「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python「Python言語」はじめの一歩 / First step of Python
「Python言語」はじめの一歩 / First step of Python
 
PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門PythonによるWebスクレイピング入門
PythonによるWebスクレイピング入門
 
scikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアルscikit-learnを用いた機械学習チュートリアル
scikit-learnを用いた機械学習チュートリアル
 
Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編Python 機械学習プログラミング データ分析ライブラリー解説編
Python 機械学習プログラミング データ分析ライブラリー解説編
 
10分でわかるPythonの開発環境
10分でわかるPythonの開発環境10分でわかるPythonの開発環境
10分でわかるPythonの開発環境
 
Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門Scikit learnで学ぶ機械学習入門
Scikit learnで学ぶ機械学習入門
 

Similar to スクレイピングをやってみた

リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップリンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
Sota Katakawa
 
Pythonで検索エンジン2
Pythonで検索エンジン2Pythonで検索エンジン2
Pythonで検索エンジン2
Yasukazu Kawasaki
 
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみたJavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
Satoshi Takami
 

Similar to スクレイピングをやってみた (20)

WordPressで行う継続的インテグレーション入門編
WordPressで行う継続的インテグレーション入門編WordPressで行う継続的インテグレーション入門編
WordPressで行う継続的インテグレーション入門編
 
SharePoint Online を JavaScript でイジる。
SharePoint Online を JavaScript でイジる。SharePoint Online を JavaScript でイジる。
SharePoint Online を JavaScript でイジる。
 
WordCampバンコクに行ってきた
WordCampバンコクに行ってきたWordCampバンコクに行ってきた
WordCampバンコクに行ってきた
 
リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップリンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
リンク購入に制裁を加え始めたGoogleとホワイトハットSEOの実践ワークショップ
 
Pythonで検索エンジン2
Pythonで検索エンジン2Pythonで検索エンジン2
Pythonで検索エンジン2
 
じっくりコトコト煮込んだJavaスープ
じっくりコトコト煮込んだJavaスープじっくりコトコト煮込んだJavaスープ
じっくりコトコト煮込んだJavaスープ
 
プログラミングのお勉強としてscratchをさわってみた
プログラミングのお勉強としてscratchをさわってみたプログラミングのお勉強としてscratchをさわってみた
プログラミングのお勉強としてscratchをさわってみた
 
How to collect frontend technology
How to collect frontend technologyHow to collect frontend technology
How to collect frontend technology
 
アクセス解析基礎
アクセス解析基礎アクセス解析基礎
アクセス解析基礎
 
Python と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめるPython と Xpath で ウェブからデータをあつめる
Python と Xpath で ウェブからデータをあつめる
 
人気の勉強会を逃さないシステム
人気の勉強会を逃さないシステム人気の勉強会を逃さないシステム
人気の勉強会を逃さないシステム
 
JavaScriptで出来る、あんなことこんなこと
JavaScriptで出来る、あんなことこんなことJavaScriptで出来る、あんなことこんなこと
JavaScriptで出来る、あんなことこんなこと
 
Application insights で行ってみよう
Application insights で行ってみようApplication insights で行ってみよう
Application insights で行ってみよう
 
言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ言語処理学会へ遊びに行ったよ
言語処理学会へ遊びに行ったよ
 
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみたJavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
JavaFXとRoboVMを使ってiOS上で動くアプリを試してみた
 
静的サイトで書誌1万件チャレンジ.pptx
静的サイトで書誌1万件チャレンジ.pptx静的サイトで書誌1万件チャレンジ.pptx
静的サイトで書誌1万件チャレンジ.pptx
 
エンジニアが Webを学ぶために やっててよかったこと
エンジニアが Webを学ぶために やっててよかったことエンジニアが Webを学ぶために やっててよかったこと
エンジニアが Webを学ぶために やっててよかったこと
 
Make TypingGame in JavaScript
Make TypingGame in JavaScriptMake TypingGame in JavaScript
Make TypingGame in JavaScript
 
Exbition slide
Exbition slideExbition slide
Exbition slide
 
JSつまみぐい
JSつまみぐいJSつまみぐい
JSつまみぐい
 

スクレイピングをやってみた