AWS Batchを用いたサーバレス
な競馬スクレイピング環境
SERVERLESS LT初心者向け LT大会 #30
1
議 題
•
•
•
•
•
•
•
SERVERLESS LT初心者向け LT大会 #30
2
SERVERLESS LT初心者向け LT大会 #30
目的
•
•
• JupyterNotebook
•
競馬スクレイピング環境
管理を楽にしたい
3
SERVERLESS LT初心者向け LT大会 #30
そうだ!サーバレス化しよう
4
SERVERLESS LT初心者向け LT大会 #30
AWS
構成
依頼内容を記載したjsonファイルを用意してジョブを実行するだけ
5
SERVERLESS LT初心者向け LT大会 #30
AWS Batch とは?
フルマネージドにバッチ処理を行うサービス。
Batch自体は無料。起動する Fargate or EC2の利用料がかかる。
IAM
6
SERVERLESS LT初心者向け LT大会 #30
120GB
AWS Lambda
との比較
7
詰まったところ
IAMロール(権限)が分かりづらい
SERVERLESS LT初心者向け LT大会 #30
名前がわかりづらいので注意 8
SERVERLESS LT初心者向け LT大会 #30
詰まったところ
• /
• CIDR
VPCの根本理解がおろそか
[1] 【AWS図解】インターネットGWとNAT GWの違い解説! https://ryonotes.com/difference-between-internet-gateway-and-nat-gateway/
VPCの基本[1]
パブリック
プライベート
1
2
IGW
NATGW
S3 Endpoint
(ただしアタッチはパブリック)
VPC ルート
テーブル 接続先
9
ご清聴ありがとうございました
SERVERLESS LT初心者向け LT大会 #30
スクレイピングは付録にて
10
Zennもやってます 笑
SERVERLESS LT初心者向け LT大会 #30
スクレイピング
PythonのSeleniumを使用
欲しい情報を「右クリ」「検証」
該当部分の属性情報をべた書き
Date = self.driver.find_elements(By.CLASS_NAME,'result_link')[0].text.split('の')[0]11
SERVERLESS LT初心者向け LT大会 #30
スクレイピング
サーバーに負担をかけないよう、
必ずインターバルを入れて、
WEBページにアクセスしよう
time.sleep(3)
12

Aws Batchを用いたサーバレスな競馬スクレイピング環境.pptx