Successfully reported this slideshow.

[244] 분산 환경에서 스트림과 배치 처리 통합 모델

43

Share

1 of 91
1 of 91

[244] 분산 환경에서 스트림과 배치 처리 통합 모델

43

Share

Download to read offline

Description

DEVIEW2015 DAY2. 분산 환경에서 스트림과 배치 처리 통합 모델

Transcript

  1. 1. 분산 환경에서 스트림과 배치 처리 통합 모델 정재부 이도경 네이버 검색정제개발랩
  2. 2. contents 1. 배치 처리 vs. 스트림 처리 2. Domaine Architecture 3. Domaine Development Kit Example 4. 초기 구축 배치 처리 방법 5. Stack Overview 6. 분산 환경 구성 7. 정리 8. QnA 2
  3. 3. 1. 배치 처리 vs. 스트림 처리 3
  4. 4. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 4
  5. 5. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 Hadoop Mapreduce, Spark… 5
  6. 6. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 6
  7. 7. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 Storm, Flink, Samza… 7
  8. 8. 배치 처리 vs. 스트림 처리 High Throughput vs. Low Latency 8
  9. 9. 배치 처리 vs. 스트림 처리 Throughput Latency 트레이드오프 9
  10. 10. 검색 문서 정제란? 정규화된 데이터를 검색에 적합한 형태로 가공하는 작업 질문 답변1 답변2 질문DB 답변DB 사용자DB 번호:233482408 카테고리:게임 질문자:a**** 질문자등급:평민 질문:목욕 여신 코니 쓸만한가요? 내용:라인레인저스 하고 있는데요... 답변자1:b**** 답변자1등급:영웅 답변1:신규 캐릭치곤 별로예요. 답변자2:c**** 답변자2등급:수호신 답변2:최곱니다. … Search Document 검색 문서 정제 10
  11. 11. 1. 많은 검색 대상 문서 처리가 가능해야함(High Throughput) 2. 최신 문서를 빠르게 검색에 노출(Low Latency) 3. 서비스별 비지니스 로직 적용 요구 사항 검색 문서 정제란? 11
  12. 12. Lambda Architecture 스트림과 배치 처리 통합 모델 사례 http://lambda-architecture.net/ 12
  13. 13. 예) Stage1은 1주일마다, Stage2는 1일마다, Stage3는 1시간마다, Stage4는 1분마다 Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely 13
  14. 14. Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely Stage3 Stage2 Stage1 14
  15. 15. 1. 배치 처리만으로 Low Latency 만족 가능 ➡Latency 요구 사항을 만족하지못하면 Stage를 추가하면 된다. 2. 정제 로직 변경이 단순 ➡모든 데이터는 결국 다시 처리 Timewise Staged 배치 시스템의 장점 15
  16. 16. 1. Stage간에 부정확성이 발생 ➡상위 Stage가 재수행되면 해결 2. 주기적인 전체 데이터 재처리 수행 변경되지 않은 99억999만건 변경되거나

Description

DEVIEW2015 DAY2. 분산 환경에서 스트림과 배치 처리 통합 모델

Transcript

  1. 1. 분산 환경에서 스트림과 배치 처리 통합 모델 정재부 이도경 네이버 검색정제개발랩
  2. 2. contents 1. 배치 처리 vs. 스트림 처리 2. Domaine Architecture 3. Domaine Development Kit Example 4. 초기 구축 배치 처리 방법 5. Stack Overview 6. 분산 환경 구성 7. 정리 8. QnA 2
  3. 3. 1. 배치 처리 vs. 스트림 처리 3
  4. 4. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 4
  5. 5. 배치 처리(Batch Processing) 배치 처리 vs. 스트림 처리 Hadoop Mapreduce, Spark… 5
  6. 6. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 6
  7. 7. 스트림 처리(Stream Processing) 배치 처리 vs. 스트림 처리 Storm, Flink, Samza… 7
  8. 8. 배치 처리 vs. 스트림 처리 High Throughput vs. Low Latency 8
  9. 9. 배치 처리 vs. 스트림 처리 Throughput Latency 트레이드오프 9
  10. 10. 검색 문서 정제란? 정규화된 데이터를 검색에 적합한 형태로 가공하는 작업 질문 답변1 답변2 질문DB 답변DB 사용자DB 번호:233482408 카테고리:게임 질문자:a**** 질문자등급:평민 질문:목욕 여신 코니 쓸만한가요? 내용:라인레인저스 하고 있는데요... 답변자1:b**** 답변자1등급:영웅 답변1:신규 캐릭치곤 별로예요. 답변자2:c**** 답변자2등급:수호신 답변2:최곱니다. … Search Document 검색 문서 정제 10
  11. 11. 1. 많은 검색 대상 문서 처리가 가능해야함(High Throughput) 2. 최신 문서를 빠르게 검색에 노출(Low Latency) 3. 서비스별 비지니스 로직 적용 요구 사항 검색 문서 정제란? 11
  12. 12. Lambda Architecture 스트림과 배치 처리 통합 모델 사례 http://lambda-architecture.net/ 12
  13. 13. 예) Stage1은 1주일마다, Stage2는 1일마다, Stage3는 1시간마다, Stage4는 1분마다 Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely 13
  14. 14. Timewise Staged 배치 시스템 기존 검색 문서 정제 방식 Stage1 Weekly Stage2 Daily Stage3 Hourly Stage4 Minutely Stage3 Stage2 Stage1 14
  15. 15. 1. 배치 처리만으로 Low Latency 만족 가능 ➡Latency 요구 사항을 만족하지못하면 Stage를 추가하면 된다. 2. 정제 로직 변경이 단순 ➡모든 데이터는 결국 다시 처리 Timewise Staged 배치 시스템의 장점 15
  16. 16. 1. Stage간에 부정확성이 발생 ➡상위 Stage가 재수행되면 해결 2. 주기적인 전체 데이터 재처리 수행 변경되지 않은 99억999만건 변경되거나

More Related Content

Slideshows for you

More from NAVER D2

Related Books

Free with a 30 day trial from Scribd

See all

×