향후 빅데이터의 주된 소스는 머신데이터가 될 것이다. 머신데이터의 속성은 스트리밍, 실시간이라는 특징을 가진다. 향후 머신데이터는 실시간 빅데이터 솔루션을 통해 우리의 생활로 서서히 스며들 것이다. IoT와 같은 새로운 트렌드에 빅데이터가 어우러지기 위해서도 머신데이터 기반의 실시간 빅데이터 솔루션이 필요하며 이러한 연유로 더욱 각광을 받게 될 것이다.
상용 실시간 빅데이터 솔루션 중 최고의 성능을 자랑하는 로그프레소는 향후 실시간 빅데이터와 머신 데이터에 가장 적합한 솔루션이다.
이 슬라이드는 머신데이터와 로그프레소의 기술을 설명하고 있다.
Column-oriented databases store data by column rather than by row. This allows fast retrieval of entire columns of data with one read operation. Column-oriented databases are well-suited for analytical queries that retrieve many rows but only a few columns, as only the needed columns are read from disk. Row-oriented databases are better for transactional queries that retrieve or update individual rows. The type of data storage - row-oriented or column-oriented - depends on the types of queries that will be run against the data.
Splunk를 적용하기 위해서 살펴본 결과를 공유 합니다.
본 내용은 제가 하루 정도 Splunk를 써본 결과이며 매우 얕게 살펴보았기 때문에 아무런 수치적 Background를 가지지 못합니다.
하지만 저는 BigData에 Splunk를 쓰는 것은 하지 않으려 합니다.
자세히 알고 계신분들의 코멘트는 언제나 감사하게 듣고 있습니다.
빅데이터를 데이터 그 자체로 인식하는 오해가 존재한다. 그 이유는 아마도 빅데이터를 설명할 때 데이터의 속성을 가지고 설명하기 때문이라 생각한다.
하지만 빅데이터로 분류할 수 있는 데이터는 사실상 존재하지 않는다. 크다는 것, 비정형이라는 것 모두 상대적인 개념이기 때문이다.
빅데이터는 데이터 그 자체가 아니라 데이터를 가지고 무엇을 할 수 있는가에 초점이 맞추어져야 한다. 데이터를 기반하여 앎의 기초를 다지고 데이터로 자신의 생각을 증명하며 데이터에서 못 보던 무언가를 보는 것 이러한 것들이 빅데이터라 생각한다.
빅데이터 Myth 첫 번째로 이러한 오해를 깨고자 한다.
2014년 5월 28일 일본에서 진행된 AWS 기술 웨비나의 발표 자료를 한국의 정윤진 솔루션스 아키텍트가 한글로 번역한 자료입니다. 웨비나 당시와 현재의 내용이 상이한 부분이 있을 수 있으니 자료 열람에 이 점 참고하시기 바라며, 혹 내용에 대한 문의사항이 있으신 경우 info-kr@amazon.com으로 연락 부탁드리겠습니다.
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
향후 빅데이터의 주된 소스는 머신데이터가 될 것이다. 머신데이터의 속성은 스트리밍, 실시간이라는 특징을 가진다. 향후 머신데이터는 실시간 빅데이터 솔루션을 통해 우리의 생활로 서서히 스며들 것이다. IoT와 같은 새로운 트렌드에 빅데이터가 어우러지기 위해서도 머신데이터 기반의 실시간 빅데이터 솔루션이 필요하며 이러한 연유로 더욱 각광을 받게 될 것이다.
상용 실시간 빅데이터 솔루션 중 최고의 성능을 자랑하는 로그프레소는 향후 실시간 빅데이터와 머신 데이터에 가장 적합한 솔루션이다.
이 슬라이드는 머신데이터와 로그프레소의 기술을 설명하고 있다.
Column-oriented databases store data by column rather than by row. This allows fast retrieval of entire columns of data with one read operation. Column-oriented databases are well-suited for analytical queries that retrieve many rows but only a few columns, as only the needed columns are read from disk. Row-oriented databases are better for transactional queries that retrieve or update individual rows. The type of data storage - row-oriented or column-oriented - depends on the types of queries that will be run against the data.
Splunk를 적용하기 위해서 살펴본 결과를 공유 합니다.
본 내용은 제가 하루 정도 Splunk를 써본 결과이며 매우 얕게 살펴보았기 때문에 아무런 수치적 Background를 가지지 못합니다.
하지만 저는 BigData에 Splunk를 쓰는 것은 하지 않으려 합니다.
자세히 알고 계신분들의 코멘트는 언제나 감사하게 듣고 있습니다.
빅데이터를 데이터 그 자체로 인식하는 오해가 존재한다. 그 이유는 아마도 빅데이터를 설명할 때 데이터의 속성을 가지고 설명하기 때문이라 생각한다.
하지만 빅데이터로 분류할 수 있는 데이터는 사실상 존재하지 않는다. 크다는 것, 비정형이라는 것 모두 상대적인 개념이기 때문이다.
빅데이터는 데이터 그 자체가 아니라 데이터를 가지고 무엇을 할 수 있는가에 초점이 맞추어져야 한다. 데이터를 기반하여 앎의 기초를 다지고 데이터로 자신의 생각을 증명하며 데이터에서 못 보던 무언가를 보는 것 이러한 것들이 빅데이터라 생각한다.
빅데이터 Myth 첫 번째로 이러한 오해를 깨고자 한다.
2014년 5월 28일 일본에서 진행된 AWS 기술 웨비나의 발표 자료를 한국의 정윤진 솔루션스 아키텍트가 한글로 번역한 자료입니다. 웨비나 당시와 현재의 내용이 상이한 부분이 있을 수 있으니 자료 열람에 이 점 참고하시기 바라며, 혹 내용에 대한 문의사항이 있으신 경우 info-kr@amazon.com으로 연락 부탁드리겠습니다.
– Elastic stack과 Data pipeline의 개념
– 데이터의 종류와 형태 / Document 데이터 모델링 (mapping, data type)
– 분산 데이터 저장소 관점에서의 Elasticsearch (index, shard & replica, segment)
https://learningspoons.com/course/detail/elastic-stack/
Vectorized Processing in a Nutshell. (in Korean)
Presented by Hyoungjun Kim, Gruter CTO and Apache Tajo committer, at DeView 2014, Sep. 30 Seoul Korea.
[ http://infiniflux.com/download ]
The world's fastest time series DBMS.
What is InfiniFlux?
1) InfiniFlux is a time-series database which performs real-time data processing, i.e., data are inserted at high speed, retrieved and analyzed without elapsed time.
2) InfiniFlux also compresses and stores data in real-time. Its query language and syntax complies with the SQL standard. The extended SQL syntax provides additional features such as the text search tool.
1일 수천대의 서버에서 발생하는 30~50억건의 Log와 Metric을 처리하는 Planet Mon 을 지탱하는 기술인 Collection(Collectd, NXlog), Transport(Kakfa, Logstash), Log Stream Analytics, Storage(Elasticsearch), Visualization을 구성하는 Architecture에 대해 설명드리고 제가 개발한 Log Stream Analytics 서버들의 구현 기술에 대해 좀더 상세히 설명합니다.
2. •IT를 구성하는 서버, 네트워크장치, 어플리케이션 등이
자신들의 상황(변화)을 실시간으로 끊임없이 방출하는
데이터로서 빅데이터를 구성하는 대부분의 데이터 형태
(http://en.wikipedia.org/wiki/Machine-generated_data)
데이터 특징
•초당 수 십만건 이상 로그 데이터 생성 (완전한 빅데이터)
• 시계열 특성 (시간순 데이터 중요도 차이 큼)
• Append-Only 저장소 특징
• 위험 예측 및 방지를 위한
실시간 데이터 분석 및 통계 요구
3. In-Memory
DBMS
Disk Based
DBMS
Columnar
DBMS
Search Engine Time-Series
Columnar
DBMS
대표 솔루션 알티베이스 오라클 Sybase IQ splunk iFluxTM
실시간 인덱스 ☆
(고성능)
X
(느림)
X
(매우 느림)
△ ☆
(고성능)
저장 공간 X
(메모리 제약)
△
(압축없음)
☆
(고압축)
O
(저압축)
☆
(고압축)
실시간 검색 X X X ☆
(패턴 검색)
☆
(패턴 검색)
통계 분석 성능 ☆ △ ☆
(탁월한 분석)
X
(SQL 없음)
☆
(탁월한 분석)
Machine Data 환경
• Sensor Device 개수 매년 30% 증가 (2020년 약 500억개, IBM)
• Mobile Traffic 증가량 매년 평균 78% (매킨지)
Challenges
• 실시간 저장-인덱싱 : 초당 50만건 이상 트래픽
• 저장 공간 : 무한히 증가하는 데이터, 저장공간 효율화
• 실시간 검색 : 데이터 패턴에 실시간 대한 조건 검색 엔진
• 통계 처리 : 수시간 ~ 수개월의 데이터 분석 처리
5. 실시간 저장 및 인덱싱 이슈
◦ 초당 50만건 이상 트래픽 지원
◦ How?
시계열 특성을 이용한 Data-Append
Time-based partition 기법 이용 (부분 인덱싱)
Data Mover 개념
고효율/저비용 비트맵 인덱스 구조
저장 공간 이슈 (수십 ~ 수백배 실시간 압축)
◦ 인덱스 압축 – Bitmap index 내부의 다양한 비트 압축 알고리즘 사용
◦ 데이터 압축 – Columnar DBMS에서의 다양한 Dictionary 기반 압축 알고리즘
실시간 검색 이슈
◦ Keyword bitmap index (일종의 inverted-index)를 실시간 구성 및 검색 (POC
완료)
◦ 시간 역순으로 Memory Window 구성 (최근 데이터를 가장 빠르게 검색)
대규모 통계 질의
◦ TPC-H 레벨의 SQL 지원
◦ Columnar 구조의 통계 질의 성능 극대화
Cardinality 특성 및 압축 기반 I/O 비용 최소화, 검색 효율 최대
7. 1주일간 상위 트래픽 사용자의 이름과 트래픽 정보 구하기
SPL
table duration=1w ssl-flow | stats sum(eval(tx_bytes+rx_bytes)) as
total, sum(tx_bytes) as tx, sum(rx_bytes) as rx by login | lookup sslplus login as
login_name output name | replace login is null "알 수 없음" | sort limit=30 -total |
fields name, login, tx, rx, total
SQL
SELECT sslplus.name, nvl(ssl-flow.login, "알 수 없음"), sum(tx_bytes) as tx,
sum(rx_bytex) as rx, sum(tx_bytes + rx_bytes) as total
FROM ssl-flow, RIGHT OUTER JOIN sslplus ON ssl-flow.login = sslplus.login
WHERE _time > sysdate - 7
GROUP BY ssl-flow.login
ORDER BY total DESC
LIMIT 30;
어떤 것이 더 개발하고, 알아보기 쉬울까요?