[AWS Summit Seoul 2017] 현재 많은 기업들이 기업 내에서 보유한 많은 인프라를 아마존 기반의 클라우드 환경으로 이관하고, 데이터센터와 클라우드를 연결한 후 시스템을 이관하는 것으로 요구하고 있습니다. 이 때 기존 시스템을 분석, 데이터 이관, 애플리케이션 이관 등의 복잡한 절차를 통해 시스템을 전환하게 됩니다.
본 발표에서는 그러한 복잡한 형태의 클라우드 이관 시 이를 분석, 전환할 수 있는 방법과 그에 대한 도구(AWS ISV 파트너 도구 및 신규 U2C 솔루션)를 소개하고 최적의 전환 방법을 설명합니다. 또한 르노삼성자동차 등의 실제 전환 고객 사례를 통해 DB 마이그레이션, 서버 마이그레이션에 대한 노하우를 들으실 수 있습니다.
네이버클라우드플랫폼에서 제공하는 클라우드 데이터베이스 서비스를 소개하고, 네이버클라우드 플랫폼의 클라우드 데이터베이스 관리 노하우에 대해 소개합니다 | Introduce cloud database services provided by Naver Cloud Platform and know-how of managing cloud databases on Naver Cloud Platform
[AWS Summit Seoul 2017] 현재 많은 기업들이 기업 내에서 보유한 많은 인프라를 아마존 기반의 클라우드 환경으로 이관하고, 데이터센터와 클라우드를 연결한 후 시스템을 이관하는 것으로 요구하고 있습니다. 이 때 기존 시스템을 분석, 데이터 이관, 애플리케이션 이관 등의 복잡한 절차를 통해 시스템을 전환하게 됩니다.
본 발표에서는 그러한 복잡한 형태의 클라우드 이관 시 이를 분석, 전환할 수 있는 방법과 그에 대한 도구(AWS ISV 파트너 도구 및 신규 U2C 솔루션)를 소개하고 최적의 전환 방법을 설명합니다. 또한 르노삼성자동차 등의 실제 전환 고객 사례를 통해 DB 마이그레이션, 서버 마이그레이션에 대한 노하우를 들으실 수 있습니다.
네이버클라우드플랫폼에서 제공하는 클라우드 데이터베이스 서비스를 소개하고, 네이버클라우드 플랫폼의 클라우드 데이터베이스 관리 노하우에 대해 소개합니다 | Introduce cloud database services provided by Naver Cloud Platform and know-how of managing cloud databases on Naver Cloud Platform
Suggested platform provides a contactless microservices / cloud native application design learning and development using online tools including Cloud-ide and Event-storming tool, kafka, Spring-boot and kubernetes without any installation
Cloud DW technology trends and considerations for enterprises to apply snowflakeSANG WON PARK
올해 처음 오프라인으로 진행된 "한국 데이터 엔니지어 모임"에서 발표한 cloud dw와 snowflake라는 주제로 발표한 내용을 정리하여 공유함. (2022.07)
[ 발표 주제 ]
Cloud DW 기술 트렌드와 Snowflake 적용
- Modern Data Stack에서 Cloud DW의 역할
- 기존 Data Lake + DW와 무엇이 다른가?
- Data Engineer 관점에서 어떻게 사용하면 좋을까? (기능/성능/비용 측면의 장점/단점)
[ 주요 내용 ]
- 최근 많은 Data Engineer가 기존 기술 스택(Hadoop, Spark, DW 등)의 기술적/운영적 한계를 극복하기 위한 고민중.
- 특히 Cloud의 장점과 운영 및 성능을 고려한 Cloud DW(AWS Redshift, GCP BigQuery, DataBricks, Snowflake)를 고려
- 이 중 Snowflake를 실제 프로젝트에 적용한 경험과 기술적인 특징/장점/단점을 공유하고자 함.
작년부터 정부의 데이터 정책 변화와 Cloud 기반의 기술 변화 가속화로 기업의 데이터 환경에도 많은 변화가 발생하고 있고, 기업들은 이에 적응하기 위한 다양한 시도를 하고 있다.
그 중심에 cloud dw (또는 Lake house)가 위치하고 있으며, 이를 기반으로 통합 데이터 플랫폼으로의 아키텍처로 변화하고 있다. 하지만, 아직까지 기존 DW 제품과 주요 CSP(AWS, GCP, Azure)의 제품군을 다양하게 시도하고 있으나, 기대와 다르게 생각보나 낮은 성능 또는 비싼 사용료, 운영의 복잡성으로 인한 많은 시행착오를 거치고 있다.
이 상황에서 작년에 처음 검토한 snowflake의 다양한 기능들이 기업들의 고민과 문제를 상당부분 손쉽게 해결할 수 있다는 것을 확인할 수 있었고, 이를 이용하여 실제 많은 기업들에게 적용하기 위한 POC를 수행하거나, 실제 적용하는 프로젝트를 수행하게 되었다.
본 발표 내용은 이러한 경험을 기반으로 기업(그리고 실제 업무를 수행할 Data Engineer) 관점에서 snowflake가 어떻게 문제를 해결할 수 있는지 cloud dw를 도입/활용/확장 하는 단계별로 문제와 해결 방안을 중심으로 설명하였다.
https://blog.naver.com/freepsw?Redirect=Update&logNo=222815591918
누가 내 엔터프라이즈 고객을 클라우드로 옮겼을까?-양승호, Head of Cloud Modernization,AWS::AWS 마이그레이션 ...Amazon Web Services Korea
마이그레이션처럼 새로운 일을 시작하기에 앞서 갖는 두려움, 익숙한 환경으로부터 변화하는 것에 대한 거부감, 다가올 변화를 감지하고도 과거의 경험과 기억 속에 갇혀 앞을 볼 수 없었기에 놓쳐버린 것에 대한 후회… 하지만 변화를 긍정적으로 받아들여 새로움에 적응하고 도전을 즐길 수 있을 때 진정한 가치를 찾을 수 있다. 대규모 마이그레이션, 즉 엔터프라이즈 고객이 클라우드로 옮겨가기 위해 필요한 진단 및 처방, 구체적인 준비 및 계획, 마이그레이션 및 현대화, 그리고 비용 최적화를 포함하는 단계별 접근법을 안내하고, AWS 마이그레이션 가속화 프로그램 (MAP)에서 제공하는 패키지화된 오퍼링을 소개하며, 마이그레이션 여정의 각 단계별 이정표에 따라 클라우드로 이전하는 체계적인 방법론과 모범 사례를 안내합니다.
Suggested platform provides a contactless microservices / cloud native application design learning and development using online tools including Cloud-ide and Event-storming tool, kafka, Spring-boot and kubernetes without any installation
Cloud DW technology trends and considerations for enterprises to apply snowflakeSANG WON PARK
올해 처음 오프라인으로 진행된 "한국 데이터 엔니지어 모임"에서 발표한 cloud dw와 snowflake라는 주제로 발표한 내용을 정리하여 공유함. (2022.07)
[ 발표 주제 ]
Cloud DW 기술 트렌드와 Snowflake 적용
- Modern Data Stack에서 Cloud DW의 역할
- 기존 Data Lake + DW와 무엇이 다른가?
- Data Engineer 관점에서 어떻게 사용하면 좋을까? (기능/성능/비용 측면의 장점/단점)
[ 주요 내용 ]
- 최근 많은 Data Engineer가 기존 기술 스택(Hadoop, Spark, DW 등)의 기술적/운영적 한계를 극복하기 위한 고민중.
- 특히 Cloud의 장점과 운영 및 성능을 고려한 Cloud DW(AWS Redshift, GCP BigQuery, DataBricks, Snowflake)를 고려
- 이 중 Snowflake를 실제 프로젝트에 적용한 경험과 기술적인 특징/장점/단점을 공유하고자 함.
작년부터 정부의 데이터 정책 변화와 Cloud 기반의 기술 변화 가속화로 기업의 데이터 환경에도 많은 변화가 발생하고 있고, 기업들은 이에 적응하기 위한 다양한 시도를 하고 있다.
그 중심에 cloud dw (또는 Lake house)가 위치하고 있으며, 이를 기반으로 통합 데이터 플랫폼으로의 아키텍처로 변화하고 있다. 하지만, 아직까지 기존 DW 제품과 주요 CSP(AWS, GCP, Azure)의 제품군을 다양하게 시도하고 있으나, 기대와 다르게 생각보나 낮은 성능 또는 비싼 사용료, 운영의 복잡성으로 인한 많은 시행착오를 거치고 있다.
이 상황에서 작년에 처음 검토한 snowflake의 다양한 기능들이 기업들의 고민과 문제를 상당부분 손쉽게 해결할 수 있다는 것을 확인할 수 있었고, 이를 이용하여 실제 많은 기업들에게 적용하기 위한 POC를 수행하거나, 실제 적용하는 프로젝트를 수행하게 되었다.
본 발표 내용은 이러한 경험을 기반으로 기업(그리고 실제 업무를 수행할 Data Engineer) 관점에서 snowflake가 어떻게 문제를 해결할 수 있는지 cloud dw를 도입/활용/확장 하는 단계별로 문제와 해결 방안을 중심으로 설명하였다.
https://blog.naver.com/freepsw?Redirect=Update&logNo=222815591918
누가 내 엔터프라이즈 고객을 클라우드로 옮겼을까?-양승호, Head of Cloud Modernization,AWS::AWS 마이그레이션 ...Amazon Web Services Korea
마이그레이션처럼 새로운 일을 시작하기에 앞서 갖는 두려움, 익숙한 환경으로부터 변화하는 것에 대한 거부감, 다가올 변화를 감지하고도 과거의 경험과 기억 속에 갇혀 앞을 볼 수 없었기에 놓쳐버린 것에 대한 후회… 하지만 변화를 긍정적으로 받아들여 새로움에 적응하고 도전을 즐길 수 있을 때 진정한 가치를 찾을 수 있다. 대규모 마이그레이션, 즉 엔터프라이즈 고객이 클라우드로 옮겨가기 위해 필요한 진단 및 처방, 구체적인 준비 및 계획, 마이그레이션 및 현대화, 그리고 비용 최적화를 포함하는 단계별 접근법을 안내하고, AWS 마이그레이션 가속화 프로그램 (MAP)에서 제공하는 패키지화된 오퍼링을 소개하며, 마이그레이션 여정의 각 단계별 이정표에 따라 클라우드로 이전하는 체계적인 방법론과 모범 사례를 안내합니다.
9. Wikimedia dump service
• 한 달에 두 번, dump file을 제작, 배포
• Pages-meta-currnet.xml.bz2
• 모든 문서의 최신 버전
• 25.2GB
• Pages-articles.xml.bz2
• 일반 문서의 최신 버전
• 전체 편집 역사는 들어있지 않음
• 12.0GB
https://dumps.wikimedia.org/enwiki/
10. Using WikiExtractor
• Install WikiExtractor
Git clone https://github.com/attardi/wikiextractor.git
Cd wikiextractor/
sudo python setup.py install
• Using
WikiExtractor.py -o enwiki enwiki-latest-pages-articles.xml.bz2
13. 검증 (02.20 / 04.20 / 06.01)
• Keyword
• 1) Japan
• 2) Summer
• 3) Text
• 4) Data
14. Word2Vec 결과 분석
• 왜 이런 값이 나왔는지?
• Training Set 크기에 따른 결과 분석
• 날짜에 따른 결과 분석
15. Wiki dump
• Wiki에서 만든 덤프를 이용해 text corpus생성
• Stemming, stopword 처리 X
• 12GB
• 20억개의 단어, 380만개의 단어 종류
16. 구현 이슈
• 한 덤프당 12GB.
• 학습시간 1시간(cbow, hierarchical softmax 적용)
• 시간에 따른 특성이 명확하게 보이지 않음
17.
18.
19. • 최신 문서임에 따라 overwatch 게임이 연관성을 띌것으로 기대
• 위키문서의 특성상, 오래된 정보도 새로운 정보와 동일한 학습
을 거치게 된다.
• 새롭게 update된 정보만을 학습하는 기법이 필요할것이라 생각
됨
20. • 한 덤프당 12GB를 차지하다보니 동시에 여러 학습을 진행하기
힘들다.
• 여러 가상머신을 사용해서 학습만을 진행하는 머신과 서버 역
할을 하는 머신을 구분할 필요가 있다.
21. Word Cloud 구현 목표
• 1. Dynamic Word Cloud 구현
• 2. 시간의 변화량 표현
• 직관적인 시각적 효과 적용
22. 1. Dynamic Word Cloud - 요구사항
• 일반적인 Word Cloud는 ‘단어’와 ‘단어의 빈도’가 기준.
• 우리가 목표로 하는 Word Cloud는 ‘키워드’와 ‘유사어 및 유사
도’를 기준으로 사용한다.
• 벡터화된 단어를 이해하고, 시간의 변화량을 표현할 수 있는
Word Cloud 라이브러리를 사용 또는 제작해야 한다.
23. Frequency와 Vector의 차이
• 지난 시간 질문 중
“Word2Vec을 이용한 Word Cloud는 어떤 의미가 있는가?”
• 단어를 Vector로 표현하여 Semantic을 고려할 수 있다.
• Google Hot Topic를 기준으로 활용
24. 2. 시간의 변화량 표현 - 요구사항
• 일정한 간격으로 수집된 데이터의 변화량을 어떻게 표현할 것
인가?
• 단어의 크기, 위치, 색 등 정적인 요소를 동적으로 변화시켜 시
간의 흐름을 나타낼 수 있다.
25. 3. 직관적인 시각적 효과 - 요구사항
• Word Cloud를 볼 사람들이 한눈에 제작자가 어떤 내용을 전달
하려 하는지를 이해할 수 있어야 한다.
26. 구현 이슈
• 다양한 Word Cloud 라이브러리가 존재한다.
• JS : D3-Cloud, WordCloud2.js
• Python : pytagcloud, wordcloud
• C# : Sparc.TagCloud
• 기존 라이브러리 사용 vs 자체 라이브러리 제작
27. 구현 이슈
• 기존 Word Cloud 라이브러리들은 정적 이미지만 제작이 가능.
• 기술적 요구사항인 “시간의 변화량 표현”을 충족하지 못함.
• 이를 만족하기 위해선 Word Cloud를 직접 만들어야 한다.
30. 개선점 및 향후 방향
• 다양한 DataSet 및 확장
• 보고서 등 활용할 수 있도록 다양한 시나리오
• Word Cloud 출력 형태 개선
31. 친절한 설명
• 1) 창의성
• 기존 Frequency 기반 Word cloud의 개념을 전복
• 퀄리티
• 2) 기술적 완성도
• 구현 및 테스트
• Word Cloud 자체 구현
• 3) 기여도
• Word2Vec 구현 정도에 따른 성능 비교
• 개선점 제안
• Wiki dump를 사용하기 위한 튜토리얼 제시
디지털 시대의 학습자는 영상, 디지털 매체를 비롯해 SNS, 클라우드 서비스 등을 통한 무한정의 데이터에 노출되어 있으며 이와 같은 환경의 변화에 따라 데이터 표현과 수용방식의 변화가 요구되고 있다. 다시 말해 수많은 정보들을 시각적으로 묘사하고 필요한 정보를 효율적이고 명확하게 제공하는 데이터 시각화의 필요성이 증가하고 있다. [1] 최근 빅데이터 기술시장의 성장과 함께 시각화 기술도 중요한 기술요소로 자리잡고 있다. 또한 전통적인 시각화 기술은 주로 시스템 로그나 실험 분석 결과 등에 대한 통계정보를 그래프로 보여주는 방식인데 반해, 빅데이터의 시각화 측면에서는 모든 데이터를 살펴보는 것에 제약이 따르기 때문에 시각화의 기술적인 요소와 더불어 데이터를 요약하고, 한 눈에 살펴볼 수 있도록 돕는 시각화 방법론적 요소의 중요성이 커지고 있다. [2] 데이터 시각화에서는 미적 형태와 기능성 두 가지를 모두 가져가는 것으로 대개 데이터들의 연결과 그룹핑을 표현하는데 초점을 둔다.[3]
디지털 시대의 학습자는 영상, 디지털 매체를 비롯해 SNS, 클라우드 서비스 등을 통한 무한정의 데이터에 노출되어 있으며 이와 같은 환경의 변화에 따라 데이터 표현과 수용방식의 변화가 요구되고 있다. 다시 말해 수많은 정보들을 시각적으로 묘사하고 필요한 정보를 효율적이고 명확하게 제공하는 데이터 시각화의 필요성이 증가하고 있다. [1] 최근 빅데이터 기술시장의 성장과 함께 시각화 기술도 중요한 기술요소로 자리잡고 있다. 또한 전통적인 시각화 기술은 주로 시스템 로그나 실험 분석 결과 등에 대한 통계정보를 그래프로 보여주는 방식인데 반해, 빅데이터의 시각화 측면에서는 모든 데이터를 살펴보는 것에 제약이 따르기 때문에 시각화의 기술적인 요소와 더불어 데이터를 요약하고, 한 눈에 살펴볼 수 있도록 돕는 시각화 방법론적 요소의 중요성이 커지고 있다. [2] 데이터 시각화에서는 미적 형태와 기능성 두 가지를 모두 가져가는 것으로 대개 데이터들의 연결과 그룹핑을 표현하는데 초점을 둔다.[3]
디지털 시대의 학습자는 영상, 디지털 매체를 비롯해 SNS, 클라우드 서비스 등을 통한 무한정의 데이터에 노출되어 있으며 이와 같은 환경의 변화에 따라 데이터 표현과 수용방식의 변화가 요구되고 있다. 다시 말해 수많은 정보들을 시각적으로 묘사하고 필요한 정보를 효율적이고 명확하게 제공하는 데이터 시각화의 필요성이 증가하고 있다. [1] 최근 빅데이터 기술시장의 성장과 함께 시각화 기술도 중요한 기술요소로 자리잡고 있다. 또한 전통적인 시각화 기술은 주로 시스템 로그나 실험 분석 결과 등에 대한 통계정보를 그래프로 보여주는 방식인데 반해, 빅데이터의 시각화 측면에서는 모든 데이터를 살펴보는 것에 제약이 따르기 때문에 시각화의 기술적인 요소와 더불어 데이터를 요약하고, 한 눈에 살펴볼 수 있도록 돕는 시각화 방법론적 요소의 중요성이 커지고 있다. [2] 데이터 시각화에서는 미적 형태와 기능성 두 가지를 모두 가져가는 것으로 대개 데이터들의 연결과 그룹핑을 표현하는데 초점을 둔다.[3]
이 중 2번까지 완료된 상태.
왜 이러한 목표를 선정하였는가? -> 요구사항에서 설명
여기부턴 이 목표를 세우며 고민했던 점들
d3-cloud 등 기존 라이브러리 사용시, Word Cloud에 사용된 데이터가 수정되면 반드시 새로 그려야 함.
이 과정에서 위치, 색 등 유지되어야 할 값들이 파괴됨.
색, 모양 등의 커스터마이징이 가능해야 한다.
한눈에 보고 단어를 읽기 쉬워야 한다.
다양한 언어가 다양한 Word Cloud 라이브러리를 가지고 있습니다.
우리 조는 기존 라이브러리를 활용할지, 자체로 제작할지 중 하나를 골라야 하는 상황에 직면했습니다.
Lorem, ipsum 등 가장 많이 등장하는 단어의 위치가 바뀌는 문제가 있으며, 이러한 변화가 연속적이지 않다 (사진 2장이 전부)