Awskrug serverless slideshare

Python + AWS Lambda
로 구현하는 웹 크롤러
2019.02.14
김승호

김승호
•FA (서버리스모임 운영진)
•Software engineer
•AWS
•Serverless-holic
•Python Backend
•Node.js, ML beginner

원래 계획했던 주제
•Serverless Crawler 구현하면서 어려웠던 점
•Serverless 가 만능은 아니니 POC 를 충분히 해야함
•“다시 한다면 Serverless 만이 정답은 아닌것 같아요.”

오늘의 주제
•Python + AWS Lambda로 구현하는 웹 크롤러
•2019년, 지금 다시 개발한다면..

웹크롤러 개발
•인기있는 링크를 추출하는 크롤러 개발
•포털에서 인기있는 링크
•Youtube 에서 현재 가장 인기 있는 콘텐츠의 링크
•블로그에서 인기있는 콘텐츠 링크
•RSS 에서 새로 등록된 링크
•등등등 매우 유연한 링크 추출기
•추출한 링크를 봇 계정을 활용하여 서비스에 포스팅

크롤러가 필요한데…
•기존 DB 구조가 변경되어도 영향이 없으면 좋겠다
•기존 DB 성능에 영향이 없으면 좋겠다.
•기존 코드에 영향을 안주는 MSA 였으면 좋겠다.
•Deploy, test 가 너무 늦지 않게 바로 반영되면 좋겠다.
•밥먹을 돈도 빠듯한데 저렴하면 좋겠다.

당시 Architecture
•MSA 를 추구
•Rest API, Auth, Batch, Resource 등등
•Main DB는 RDB: Postgresql
•배포 및 관리는 Elastic Beanstalk
•Dev, Staging, Production 개발환경 완비!
•작은 스타트업이지만..

REST
Main DB
Batch
Module 1
Module 2

Main DB
Module Module Module Module Module Module Module

아 맞다!?
Dev 
Staging 
Production  
X 3

AWS Lambda
•Serverless Compute
•Event Driven
•API Gateway
•S3
•SNS
•Cron
•SQS -> OK
•자세한건 공식 doc
•Serverless 에 대한 POC(Proof of Concept) 필수

2017년 AWS Lambda 소개 페이지
영어로 되어있었습니다.

2019년 AWS Lambda 소개 페이지

•이미 crawler batch 서버를 거의다 개발한 상태
•개발한 코드를 그대로 쓸 수 있어야 했음
•Lambda가 Python3을 지원 안했다가 갑자기 함
•크롤링 은 상시 하는 것이 아니고 주기적으로 함
•Cron 처럼 event 발생 기능
•Crawling 실패시 이유와 적절한 alarm 기능
•block 당한건지, page가 깨진건지 원인을 알아야함
•비용을 줄이기 위해서 sleep 등 할 수 없음
•링크를 추출하는 목적만 추구하도록 유연한 개발

전적으로 믿으셔야합니다.
Lambda를..

다시 보는 요구사항…
•기존 DB 구조가 변경되어도 영향이 없으면 좋겠다
•기존 DB 성능에 영향이 없으면 좋겠다.
•기존 코드에 영향을 안주는 MSA 였으면 좋겠다.
•Deploy, test 가 너무 늦지 않게 바로 반영되면 좋겠다.
•밥먹을 돈도 빠듯한데 저렴하면 좋겠다.

DynamoDB 추가
•상수에 가까운 응답시간을 보장하여 Lambda와 궁합이 좋음
•기존 ORM 에 영향 받지 않고 동적인 schema
•기존 RDB 성능에 관여하지 않음
•프로비저닝된 처리량으로 과금하는 독특한 정책
•현재는 “온디맨드 용량 모드 요금” 추가
•약간의 비용이 추가되지만 사용하기에 따라 저렴함

Architecture 1
Target Site
Feeder
Crawled Link
Crawling 
& Posting 
Worker
SNS

DynamoDB 문제
•프로비저닝된 처리량으로 과금하는 독특한 정책
•Dynamodb Pricing
•Write 가 갑자기 급격히 많아져서 warning 발생
•그렇다고 Write Unit 을 올리기는 아까움
•그렇다고 매번 auto scaling 하는것은 매우 번거로움
•어떻게하면 delay 해서 write 할까?
•Sleep
•SQS Delay

Architecture 2
Target Site
Feeder
Crawled Link
Crawler
Posting Worker 
/ every 1min
SNS SQS

Lambda Deploy
•수많은 Serverless Framework가 있었음
•Python Framework(2017기준)
•Zappa ★5K
•Apex ★6K
•aws/chalice(찰리스) ★3K
•Serverless ★20K (Node.js를 몰라서..)
•각각 특징이 있기 때문에 상황에 따라 선택
•Zappa가 Django를 바로 붙일 수 있다고 해서 Zappa 선택

Zappa 장/단점
•장점
•편리함
•Python project라 그런지 뭔가 Pythonic함
•쉬운 Django/Flask 적용 (하지만 전 써본적 없습니다…)
•단점
•S3 bucket 생성등 권한을 많이 요구함 (커스터마이징 가능)
•Document 부실, 그래도 검색하면 나름 답은 나오는듯

왜 자꾸 크롤링이 잘 되는데!!?

새로운 요구사항
•URL은 다르지만(shorten, redirect 등) 내용이 같은 링크 제
외
•링크에서 적절한 키워드를 뽑아서 새로운 해시태그 생성
•Dynamic 하게 현재 핫한 키워드를 통한 링크를 추출
•등등

Lambda로 될것 같긴한데…

•Main DB 정보를 읽어와야해서 read time 이 늘어남
•ORM 때문에 Django를 올려야 하는 상황이 옴
•기존 로직이 복잡해지고 오래걸림
•향후 ML 까지 적용해야 할 수도 있다!?

Architecture 3
Target Site 
RDS
Crawled Link
Crawler
SQS
Batch

변경된 구조의 장점
•링크를 추출하는 crawling 로직만 집중 할 수 있어서 lambda
function이 간결해짐
•Architecture 2의 경우 SNS, SQS, Lambda 디버깅 하기 어
려웠지만, batch에서 관리하여 디버깅이 용이
•배치에서 sleep 등을 얼마든지 쓸 수 있어서 dynamodb cap.
맞추기 용이

비겁한 변명입니다.
어떻게 할지 몰랐어요…

배치서버를 늘리지 않기 위
해 
Lambda를 썼는데 
Lambda의 문제를 해결하기
위해 배치서버를 만듦
?????????

2019년 지금
개발한다면..

가심비(價⼼⽐)
가격 대비 ‘성능’을 비교했던 것에서 벗어나 
‘마음’의 만족도가 소비에 있어
중요한 선택 기준이 되는 것

DynamoDB의 새로운 요금
•온디맨드 용량 요금
•https://aws.amazon.com/ko/dynamodb/pricing/on-
demand/
•크롤링한 링크 콘텐츠 개수 자체가 많지 않으니 그냥 쓰고싶
은데로 고민 말고 써도 얼마 안함

MainDB의 부하를 줄여보자
•Aurora Serverless 사용하여 crawling 관련 데이터는
MainDB에서 분리

Seungho Kim
“다시 한다면 Serverless 만이 정답은 아닌것 같아요.”

정리
•개발했던 서비스의 구조는 MSA
•각각의 모듈을 EB를 통해 관리, 비효율적인 모듈 존재
•링크를 추출하는 크롤링 기능 구현 필요
•요금, DB영향도, decoupling 을 고려한 크롤러 구현
•요구사항이 복잡해짐에 따라 크롤링 하는 모든 부분을
serverless 구조로 할 수 없었음
•Serverless is fancy
•그러나 충분한 POC가 필요하고 Serverless 에 맞는 설계도 필
수
•기다리면 AWS에서 답을 주기도 함…

Awskrug serverless slideshare

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to Awskrug serverless slideshare

Similar to Awskrug serverless slideshare (20)

Awskrug serverless slideshare