Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)Channy Yun
LinkedData는 기존의 의료, 문헌 도메인을 벗어나 콘텐츠, 정부 데이터 등 그 폭이 커질 뿐만 아니라 데이터량도 폭발적으로 증가하고 있다. 일반적으로 특정 도메인의 시맨틱 웹 데이터 검색 서비스를 제공하기 위해 운영되는 RDF 데이터 처리 및 SPARQL 엔진 기반 포털 서비스는 대용량의 데이터를 다루기 어렵다. 본 발표에서는 기존 방식을 탈피하여 클라우드 컴퓨팅 환경에서 Hadoop 기반 MapReduce를 이용한 대용량 데이터 처리 방식을 이용하여 관계 기반 질의 확장을 통한 사용자 친화적인 Linked Data 검색 서비스 개발 사례를 소개한다. 현재 대용량 Linked Data를 처리하기 위한 Billion Triple Challenge의 아이디어와 현황을 살펴 보고 향후 방향을 전망해 본다.
Big Data Platform Field Case in MelOn (in Korean)
- Presented by Byeong-hwa Yoon, engineer manager at Loen Entertainment
- at Gruter TECHDAY 2014 Oct. 29 Seoul, Korea
Linked Data 기반 데이터 검색 서비스의 현황과 과제 (KSWC2010)Channy Yun
LinkedData는 기존의 의료, 문헌 도메인을 벗어나 콘텐츠, 정부 데이터 등 그 폭이 커질 뿐만 아니라 데이터량도 폭발적으로 증가하고 있다. 일반적으로 특정 도메인의 시맨틱 웹 데이터 검색 서비스를 제공하기 위해 운영되는 RDF 데이터 처리 및 SPARQL 엔진 기반 포털 서비스는 대용량의 데이터를 다루기 어렵다. 본 발표에서는 기존 방식을 탈피하여 클라우드 컴퓨팅 환경에서 Hadoop 기반 MapReduce를 이용한 대용량 데이터 처리 방식을 이용하여 관계 기반 질의 확장을 통한 사용자 친화적인 Linked Data 검색 서비스 개발 사례를 소개한다. 현재 대용량 Linked Data를 처리하기 위한 Billion Triple Challenge의 아이디어와 현황을 살펴 보고 향후 방향을 전망해 본다.
Big Data Platform Field Case in MelOn (in Korean)
- Presented by Byeong-hwa Yoon, engineer manager at Loen Entertainment
- at Gruter TECHDAY 2014 Oct. 29 Seoul, Korea
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
- 관련 기술 트렌드 소개
- Tajo의 아키텍쳐와 로드맵
Tajo는 Big Data 분석 처리 엔진 분야에서 핫이슈로 부상하고 있는 SQL-on-Hadoop의 차세대 핵심 기술로 Apache Incubation 프로젝트로 등록되어 있는 오픈소스이며, Gruter가 개발을 주도하고 있는 프로젝트입니다.
Cloud dw benchmark using tpd-ds( Snowflake vs Redshift vs EMR Hive )SANG WON PARK
몇년 전부터 Data Architecture의 변화가 빠르게 진행되고 있고,
그 중 Cloud DW는 기존 Data Lake(Hadoop 기반)의 한계(성능, 비용, 운영 등)에 대한 대안으로 주목받으며,
많은 기업들이 이미 도입했거나, 도입을 검토하고 있다.
본 자료는 이러한 Cloud DW에 대해서 개념적으로 이해하고,
시장에 존재하는 다양한 Cloud DW 중에서 기업의 환경에 맞는 제품이 어떤 것인지 성능/비용 관점으로 비교했다.
- 왜기업들은 CloudDW에주목하는가?
- 시장에는어떤 제품들이 있는가?
- 우리Biz환경에서는 어떤 제품을 도입해야 하는가?
- CloudDW솔루션의 성능은?
- 기존DataLake(EMR)대비 성능은?
- 유사CloudDW(snowflake vs redshift) 대비성능은?
앞으로도 Data를 둘러싼 시장은 Cloud DW를 기반으로 ELT, Mata Mesh, Reverse ETL등 새로운 생테계가 급속하게 발전할 것이고,
이를 위한 데이터 엔지니어/데이터 아키텍트 관점의 기술적 검토와 고민이 필요할 것 같다.
https://blog.naver.com/freepsw/222654809552
GRUTER가 들려주는 Big Data Platform 구축 전략과 적용 사례: Tajo와 SQL-on-HadoopGruter
- 관련 기술 트렌드 소개
- Tajo의 아키텍쳐와 로드맵
Tajo는 Big Data 분석 처리 엔진 분야에서 핫이슈로 부상하고 있는 SQL-on-Hadoop의 차세대 핵심 기술로 Apache Incubation 프로젝트로 등록되어 있는 오픈소스이며, Gruter가 개발을 주도하고 있는 프로젝트입니다.
1일 수천대의 서버에서 발생하는 30~50억건의 Log와 Metric을 처리하는 Planet Mon 을 지탱하는 기술인 Collection(Collectd, NXlog), Transport(Kakfa, Logstash), Log Stream Analytics, Storage(Elasticsearch), Visualization을 구성하는 Architecture에 대해 설명드리고 제가 개발한 Log Stream Analytics 서버들의 구현 기술에 대해 좀더 상세히 설명합니다.
인프라 모니터링을 위한 시스템을 구축하고 운영하는 데 있어, 다이내믹한 인프라 변화는 어려움으로 다가오고 있습니다.
본 세션에서는 인프라를 운영하는 팀 혹은 운영자 관점에서 바라본 미래 지향적 인프라 모니터링 시스템의 방향성과 이를 구현하기 위해 필요한 구성들을 공유하고자 합니다.
목차
1. NHN 모니터링의 현재
2. 모니터링의 변화
3. 모니터링 방법론
4. 모니터링 절차
5. NHN 모니터링의 미래
대상
- 인프라를 운영하는 시스템 엔지니어
- 인프라 모니터링 시스템에 관심이 있는 분
데이터 분석가를 위한 신규 분석 서비스 - 김기영, AWS 분석 솔루션즈 아키텍트 / 변규현, 당근마켓 소프트웨어 엔지니어 :: AWS r...Amazon Web Services Korea
AWS re:Invent에서는 다양한 고객들의 요구에 맞추어 새로운 분석 및 서버리스 서비스가 대거 출시되었습니다. 본 강연에서는 새롭게 출시된 핵심 분석 기능들과 함께, 누구나 손쉽게 사용할 수 있는 AWS의 분석 서버리스와 On-demand 기능들에 대한 심층적인 정보를 확인하실 수 있습니다.
AWS Glue는 고객이 분석을 위해 손쉽게 데이터를 준비하고 로드할 수 있게 지원하는 완전관리형 ETL(추출, 변환 및 로드) 서비스입니다. AWS 관리 콘솔에서 클릭 몇 번으로 ETL 작업을 생성하고 실행할 수 있습니다. 빅데이터 분석 시 다양한 데이터 소스에 대한 전처리 작업을 할 때, 별도의 데이터 처리용 서버나 인프라를 관리할 필요가 없습니다. 본 세션에서는 지난 5월 서울 리전에 출시한 Glue 서비스에 대한 자세한 소개와 함께 다양한 활용 팁을 데모와 함께 소개해 드립니다.
AWS Summit Seoul 2023 | 실시간 CDC 데이터 처리! Modern Transactional Data Lake 구축하기Amazon Web Services Korea
CDC 기반 upserting 기능을 제공하는 Transactional Data Lake를 Apache Iceberg와 AWS Glue를 이용해서 구축하는 방법을 소개합니다. MySQL과 같은 RDS에서 발생하는 CDC 데이터를 Amazon Kinesis 또는 MSK를 통해서 실시간으로 S3에 Apache Iceberg 포맷으로 저장하는 Transactional Data Lake 아키텍처를 소개합니다.
기업들은 데이터로부터 insight를 얻기 위해서 부단한 노력을 하고 있습니다. 이를 위해 조직의 데이터를 한 곳에 모아서 보관하는 Data Lake의 구축은 데이터 분석을 위한 중심으로 자리잡고 있습니다. 본 세션에서는 AWS에서 S3를 활용하여 민첩하고 비용효율적인 Data Lake를 구축하는 방법을 소개합니다. 또한 이를 기반으로 AWS의 다양한 데이터 분석 서비스와 연동하는 법을 살펴봅니다.
대상 :
빅 데이터 및 데이터 분석 담당자, AWS 기반 데이터 분석에 관심 있는 모든 분
발표자 :
문종민 솔루션즈 아키텍트, AWS
효과적인 NoSQL (Elasticahe / DynamoDB) 디자인 및 활용 방안 (최유정 & 최홍식, AWS 솔루션즈 아키텍트) :: ...Amazon Web Services Korea
대량의 트랜잭션을 빠르고 유연하게 처리하기 위해서는, 데이터 처리 및 저장 방식에 대한 변화를 고려해야 합니다. 본 세션에서는 어플리케이션이 요구하는 다양한 사용 패턴 및 성능 요구사항을 살펴보고, NoSQL(Elasticache Redis, DynamoDB)을 기반으로 이를 효율적으로 처리하기 위한 디자인 및 쿼리 패턴을 포함한 기술적 고려사항을 알아봅니다.
4. 검색 회사(검색 서비스)가 하는 일 …
Serving
Real-time
Analyzing
Batch
Crawler
Parsing Crawling
Analyzing
storage
출처: http://www.ibm.com/developerworks/web/library/wa-lucene2/
5. Crawl
문서를 크롤하면 (> 10억건)
메타데이터 저장 Structured Data
HTML 저장 Semi-structured Data
제목, 본문 추출 Unstructured Data
이미지 추출
썸네일 생성 Multimedia Data
원본 이미지 저장
Crawler 시스템은 분산 처리를 하기 위해서 MapReduce + Downloader 등으로 구현
6. Analyzer
- 분석 데이터의 종류와 범위에 따라서 다양한 주기로 설정된 스케줄로 프로세스들이 실행
- 프로세스의 우선 순위에 따라 Pig & MR Job에 우선순위와 리소스를 상이하게 할당
} 중복 문서 제거 (Pig + UDF ) + Python + Shell
} 스팸 문서
} 성인 필터링
} 검색 랭킹 계산
} 문서 클러스터링
} 수십여가지 분석프로세 Java Map-Reduce program
스
Hadoop & Hbase 는 Legacy System !
7. Service
} Daily 수천만 PV 이상을 처리하기 위해서 …
LVS
Web & Application & DB Clustering 필수
Tomcat
각 Layer 별로 Caching System 적용
Squid
Memcached
인덱싱 & 검색 처리
수십/수백대로 구성된 서버팜
시스템 장애 감지와 통합 모니터링 시스템 역시 필수
100% Linux Server
오픈 소스 및 자체 개발 시스템을 통합해서 활용
장애 대응을 위한 HA 구성
8. 그 밖에 오픈소스들
서비스와 데이터 요구사항에 맞게 코어가 되는
검색엔진, 미디어 서버, KeyValue 시스템등을 자체 개발
9. ZUM Data Platform
} 로그 수집 체계
} 로그 포맷 표준화
} 중앙 데이터 저장소 구축
} 로그 데이터 수집 프레임워크 개발 (Flume-ng, Fluentd)
} Access log
} ZUM service log
} Application log
} 분석시스템 개발
} Hive 가 메인 도구
} Pig 는 Hive Table 을 생성하는 전처리(ETL) 용 스크립트
} Job Scheduler
10. Log Analysis
} 각종 Service Log JSON
Pig
} Server Access Log Apache
Log Format
} Application Log Log4J
개발자들이 Apache Pig Script 로 분석
기획자들이 직접 데이터 통계나 분석을 할려면?
11. Log Data Flow Diagram
estat 인기검색어,Suggest, …
Relay DB
zum log zum log
zum log Term weight, URLs for crawler, …
Stats(2대) ---- 서비스분석
웹브라우저 es-admin ES-LOG Krystal
(ATS) 클러스터
SAMBA
zum log FTP 통계
검색로그 서버 Admin
NAS
zum log
Log4j log MIDAS CTR피드백
서비스 로그
시스템
altoolba log(1/10 분량만)
altoolba log
altoolba log
노출/클릭 통계용
ES-LOG
클러스터
광고플랫폼 로그수집
광고플랫폼
서버
Get/Redirect
쇼핑
개발
em-admin ES-LOG
클러스터
뉴스
로그수
------- 수집 FTP
툴바 안티피싱 URL 집 DAUM용
안티피싱 클러스터 서버
안티피싱 서버 수집서버 admin 클러스터
서버
Other IDC
??? 미정
http DFSClinet API unknown/undetermined
access log
ftp samba 미개발 Hadoop
ALL Servers 미정
rsync/scp DB I/F
12. 통계 지표 관리
} 고정 지표
} 상시 분석해서 결과를 파악해야 하는 지표
} 공통 지표 정의
} 서비스별 지표 정의 자동화의 대상
} 배치성 지표
} 실시간성 지표
} 유동 지표
} 서비스별로 필요한 경우에 따라서 파악할 지표 Ad-hoc 업무
} 중요도에 따라 고정지표로 전환
데이터 분석 업무가 기존 개발자에서
기획자, 데이터 분석가의 손에서 다루어질 수 있도록
13. ZUM Data Platform
Log
Service 1
Agent
시스템엔지니어는 로그용량을 고려하여 설정이 된 에이전트 설치
Avro
…… Log adapter Real-time Analyzer
Flume-NG
Agent (ESPER)
개발자는 Pig등을 이용해서
Raw Data를 Hive Data 등으로 변환
Service N Log
Agent Web Browser R
Excel
Hive Job Data Text File
Console Scheduler Viewer
Data Repository (HDFS) Reporting Server Service 1
Service N+1 Log
Agent
WebHDFS
변환 분석 Service 2
Hive Historical
Raw data 결과DB
Table DB
……
… Log
Agent
fuse fuse
Service Service
Server … Server Hive 는 Metadata 을 담고 있음
SQL 은 개발자가 아닌 기획자들도 간편히 로직 구현 가능
14. 분석 프로세스 개선
데이터 추출 요청 URL 추출 조건 확인 후 추출 요청
Before
데이터분석담당 개발자
기획자 데이터 추출 결과 확인
데이터 전달 1) 추출된 데이터 확인
2) 추출 조건 수정하여 재 추출
After
데이터 추출 요청
데이터분석담당
기획자
데이터 전달
15. 마지막으로 요즘 드는 생각 …
Apaceh Hadoop / HBase 가 이미 Legacy System 되어가고 있고
결국 점점 복잡해지고, 무거워지고, 이해하기 힘들어지고 …
다른 이가 만든 기술에 대한 의존은 여전하고
때론 한계에 부딛히기도 하다
Don’t reinvent the wheel? Core 에 대한 깊은 이해 없이
대충 이해하고 응용 어플리케이션 / 서비스 만
들기도 바쁘다
그래서?
직접 만들어 볼 필요도 있다!!!