포털 검색어 순위
수집 및 분석 후기
AWSKRUG
Serverless Group
변규현
목차
1. 발표자 소개
2. 주제 선정이유
3. 사용 서비스들 간략한 소개
a. AWS Lambda
b. Amazon S3
c. AWS Glue
d. Amazon Athena
e. Amazon QuickSight
4. 수집 과정
5. 분석 결과
6. References
● MOVILEST, CTO
● AWSKRUG Serverless Group
● Node.js, AWS Infrastructure... ETC
● Java, Javascript, French, SQL, Kotlin… ETC
● https://novemberde.github.io
● https://github.com/novemberde
BYUN Kyuhyun
주제 선정 이유
Serverless Hands on #1을 하고
검색어 수집 크롤러를 만들긴 했는데...
데이터를 모으면 쌓이는데
그럼 이걸 어디다가 쓰지?
그래서 시작했습니다!
QuickSight를 활용한 데이터 분석!
시작하기 전에
어떠한 서비스를 사용했는지 가볍게 알아볼게요!
사용 서비스 소개
사용 서비스들!
- AWS Lambda
- Amazon S3
- AWS Glue
- Amazon Athena
- Amazon QuickSight
잠깐! 여기서 꿀팁!
서비스에 Amazon 과 AWS 가 구분되어 붙는
이유는?
고객이 만드는 작품에서 재료(Primitives)와 도구
(Tools)라는 개념으로 접근하면 됩니다.
재료 = Amazon
도구 = AWS
Amazon API gateway와 AWS Lambda!
https://stackoverflow.com/questions/46069047/aws-products-and-services-naming-nomenc
lature-starting-with-amazon-vs-aws
AWS Lambda
- 커스텀 로직으로 다른 AWS 서비스 확장
- 커스텀 백엔드 서비스 구축
- 자체 코드 사용 가능
- 완전히 자동화된 관리
- 내결함성 기본 제공
- Automatic Scaling
- Amazon CloudFront 요청에 대한 응답으로 코드 실행
- 통합된 보안 모델 & 사용량에 따라 지불
https://aws.amazon.com/ko/lambda/features/
AWS Lambda - 15 minutes!!! (2018-10-11)
https://twitter.com/jeffbarr/status/1050164028188721153?s=21
Amazon S3
- 따라올 수 없는 내구성, 가용성 및 확장성. 99.999999999%
- 가장 포괄적인 보안 및 규정 준수 기능
- 현재 위치에서 쿼리
- 유연한 관리
- 가장 많은 파트너, 공급업체 및 AWS 서비스에서 지원
- 간편하고 유연한 데이터 전송
https://aws.amazon.com/ko/s3/features/
AWS Glue
- 완전관리형 ETL(추출, 변환 및 로드) 서비스
- 서버리스이므로 구매, 설정 또는 관리할 인프라가 없음
- 데이터 원본을 크롤링하고, 데이터 형식을 파악하고, 스키마와 변환을 제안
- Scala, Python 및 Apache Spark 지원
https://aws.amazon.com/ko/glue/features/
Amazon Athena
- ETL 불필요
- 서버리스이므로 구매, 설정 또는 관리할 인프라가 없음
- 쿼리당 비용 지불(스캔한 데이터 용량에 따른 비용만 지불)
- Presto 기반 표준 SQL 실행(CSV, JSON, ORC, Avro, Parquet 등 데이터 형식과 호환)
- 대용량 데이터세트에서도 대화식 성능 구현
https://aws.amazon.com/ko/athena/features/
Amazon QuickSight
- 조직 내 모든 구성원에게 세션당 요금제로 제공되는 첫 번째 BI 서비스
- 데이터 시각화 도구
- 사용한 만큼만 비용 지불
- 사용량과 활동에 따라 자동으로 규모가 확장
- 다양한 데이터 소스 사용 가능
https://aws.amazon.com/ko/quicksight/features/
수집 과정
Crawler Analysis
Serverless framework로 배포하기
https://github.com/novemberde/serverless-crawler-demo/blob/s3-data-analytics/serverless.yml
크롤링 된 형태
{
"rank0": "이다희 아나운서",
"rank1": "이선호",
"rank2": "최고의 이혼",
"rank3": "풍등",
"rank4": "한글날",
"rank5": "안녕하세요",
"rank6": "정원중",
"rank7": "홍삼",
"rank8": "조재현",
"rank9": "정애연",
"portal": "daum",
"createdAt": "2018-10-08T17:05:06.798Z"
}
S3 Partitioning
Glue Data catalog
Create View on Athena
Use the view on QuickSight
Results
References
- https://github.com/novemberde/serverless-crawler-demo
- https://aws.amazon.com/ko/lambda/features/
- https://aws.amazon.com/ko/athena/features/
- https://aws.amazon.com/ko/s3/features/
- https://aws.amazon.com/ko/quicksight/features/
- https://aws.amazon.com/ko/glue/features/
- https://www.joda.org/joda-time/apidocs/org/joda/time/format/DateTimeFormat.html
- https://docs.aws.amazon.com/ko_kr/quicksight/latest/user/data-source-limits.html#supp
orted-date-formats
- https://novemberde.github.io/aws/2017/09/14/public_data_athena.html
감사합니다!!

포털 검색어 순위 수집 및 분석 후기