대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
* 행사 정보 :2016년 10월 14일 MARU180 에서 진행된 '데이터야 놀자' 1day 컨퍼런스 발표 자료
* 발표자 : Dylan Ko (고영혁) Data Scientist / Data Architect at Treasure Data
* 발표 내용
- 데이터사이언티스트 고영혁 소개
- Treasure Data (트레저데이터) 소개
- 데이터로 돈 버는 글로벌 사례 #1
>> MUJI : 전통적 리테일에서 데이터 기반 O2O
- 데이터로 돈 버는 글로벌 사례 #2
>> WISH : 개인화&자동화를 통한 쇼핑 최적화
- 데이터로 돈 버는 글로벌 사례 #3
>> Oisix : 머신러닝으로 이탈고객 예측&방지
- 데이터로 돈 버는 글로벌 사례 #4
>> 워너브로스 : 프로세스 자동화로 시간과 돈 절약
- 데이터로 돈 버는 글로벌 사례 #5
>> Dentsu 등의 애드테크(Adtech) 회사들
- 데이터로 돈을 벌고자 할 때 반드시 체크해야 하는 것
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
* 행사 정보 :2016년 10월 14일 MARU180 에서 진행된 '데이터야 놀자' 1day 컨퍼런스 발표 자료
* 발표자 : Dylan Ko (고영혁) Data Scientist / Data Architect at Treasure Data
* 발표 내용
- 데이터사이언티스트 고영혁 소개
- Treasure Data (트레저데이터) 소개
- 데이터로 돈 버는 글로벌 사례 #1
>> MUJI : 전통적 리테일에서 데이터 기반 O2O
- 데이터로 돈 버는 글로벌 사례 #2
>> WISH : 개인화&자동화를 통한 쇼핑 최적화
- 데이터로 돈 버는 글로벌 사례 #3
>> Oisix : 머신러닝으로 이탈고객 예측&방지
- 데이터로 돈 버는 글로벌 사례 #4
>> 워너브로스 : 프로세스 자동화로 시간과 돈 절약
- 데이터로 돈 버는 글로벌 사례 #5
>> Dentsu 등의 애드테크(Adtech) 회사들
- 데이터로 돈을 벌고자 할 때 반드시 체크해야 하는 것
본 강연에서는 AWS 파트너인 Treasure data의 솔루션을 이용하여 클라우드 환경에서 손쉽게 빅데이터 분석 및 적용하는 법에 대하여 살펴봅니다. 모범 사례에 따른 사용법을 소개하고 JP Morgan 등 해외 선도 고객 사례를 공유합니다.
연사: 고영혁 대표, Treasure Data
[Bespin Global 파트너 세션] 분산 데이터 통합 (Data Lake) 기반의 데이터 분석 환경 구축 사례 - 베스핀 글로벌 장익...Amazon Web Services Korea
기업 환경에 따라 차이는 있겠지만, 최근 대부분의 기업은 데이터 분석 환경이 구축되어 있고, 이를 기반으로 데이터를 분석하고 있습니다. 그럼에도 불구하고 현업에서는 분석하고자 하는 데이터가 없거나 변화하는 비즈니스 요건을 반영하지 못한다는 불만을 제기하고, 분석 환경을 제공하는 IT운영팀은 변화하는 비즈니스 요건에 따라 분석 환경을 적시에 제공하기 쉽지 않다는 어려움을 토로하고 있습니다. 이 해결책으로 운영시스템에 데이터베이스 형태로 존재하고 있거나, 현업의 PC에서 수작업으로 작성한 정형, 비정형 파일을 통합 관리할 수 있고, 또한 인프라 환경의 확장 및 변경을 보다 유연하게 할 수 있는 AWS Cloud 기반의 분석 환경 구축 사례를 소개하고자 합니다.
다시보기 링크: https://youtu.be/YvYfNZHMJkI
제1회 DataGeeks(디긱스) 오픈세미나 발표자료
주제 : 데이터 분석과 활용
Google Analytics (이태영) - 모바일과 웹 비즈니스 분석을 위한 Google Analytics 활용
일시 : 12월 13일(토) 오후 13:30 ~ 17:30
장소 : 신논현역(9호선) 1번출구 2분 이내 데브기어 강의장
SiSense는 전통 BI 솔루션의 견고함과 성능, Data discovery tool의 민첩성을 모두 갖춘 차세대 비즈니스 인텔리전스 툴로서 실무자, 일반 사용자들이 IT 부서의 도움 없이 다양한 소스로부터 데이터를 가져와 결합, 분석, 그리고 시각화할 수 있는 셀프서비스 BI Solution 입니다.
BI의 필요성은 느끼고 있지만 도입 비용 때문에, 프로젝트 부담 때문에, 혹은 도입하고도 활용되지 않을까 걱정되십니까? 이런 걱정들을 한번에 해결해드리기 위해 퀵스타트 프로그램이 있습니다. 부담없이 작은 비용으로 도입하셔서 일년간 써보신 다음 결정하세요.
>> 최소 금액인 2천만원의 비용으로 BI구축 (H/W별도 혹은 리스가능)
>> 1년 간 데이터 범위, 사용량 제약 없이 사용 (1억건 이하, 10명 이하)
>> 라이선스 구매 등 초기투자비용없이 사용량과 기간에 따른 비용 지출
>> 1년간 실제 사용 후 계속 사용 여부 결정 가능
>> 최소의 비용으로 최신 BI 플랫폼 구축, 합리적인 TCO 운영 및 검증
제품 소개 - http://www.sisense.co.kr/
구축사 소개 - http://www.sisense.co.kr/planit-partners.jsp
퀵스타트 신청 - http://www.sisense.co.kr/pages_quick_start.jsp
Data Engineers Lab's (DLAB) company and service information including Varies Big Data Case Studies in both vertical and horizontal business perspectives.
데이터엔지니어스랩 (디랩)의 회사 및 서비스 소개서입니다. 각 산업별 및 업무 분야별 빅데이터 사례와 활용도에 대한 커멘트를 수록한 최신 버전입니다.
[2016 데이터 그랜드 컨퍼런스] 2 2(빅데이터). skt beyond big dataK data
미래의 ICT생태계는 데이터를 중심으로 형성될 것입니다. 디지털라이제이션(digitalization)의 가속화로 우리의 일상은 빠르게 데이터 기반으로 급변하고 있습니다. 빅데이터라는 용어가 라디오 프로그램의 선곡기준으로도 등장하는 현 시점에서 다양한 관점의 빅데이터를 살펴봄으로써 실제 산업 생태계에 가져올 기술, 사회, 제도적 혁신의 조짐을 살펴보고자 합니다.
먼저 오픈소스가 가져오는 IT 생태계의 변화와 공유경제라는 키워드를 통해 함께함으로써 커지는 데이터의 가치, 그리고 그 가치를 더욱 크게 할 메타데이터의 중요성을 이야기하겠습니다. 또한 데이터 생태계의 활성화를 위한 거래 플랫폼이 가진 멀티 사이드 플랫폼의 가치와 이러한 플랫폼 활성화를 위한 공공 정책의 데이터 기반 변화 트렌드와 개인 프라이버시 보호 트렌드 및 기술을 살펴보고자합니다.
2017 한국정보관리학회 하계학술대회 튜토리얼 발표자료 part04 입니다. 데이터 관리 계획서(Data Management Plan)에 대해 전반적인 이야기를 합니다. DMP 특징과 여러가지 DMP 템플릿을 비교한 결과가 담겨있습니다. NSF에서 요구하는 DMP의 요건에 대해 살펴봅니다.
국토지리정보원의 요청으로 수행했던 '공간정보 대량맞춤화 정보지원체계 연구' 소개 자료입니다. 연구의 배경, 공간정보 대량맞춤화의 개념, 향후 업무 체계 변화 방향, 법제도 개선 방향 등 연구 전반에 대한 개략적인 소개를 담고 있습니다. 결론적으로, 현재의 공급자, 제품 위주의 공간정보 생산/관리/제공 체계를 수요자, 서비스 위주로 개선할 때 필요한 사항들을 지적하고 있습니다.
1. ⓒ 2013 KT Hitel Corporation
빅데이터 솔루션(Daisy) 소개서
2013/05
노 동 학(rhodonghag@gmail.com)
2. 2ⓒ 2013 KT Hitel Corporation
Context
1. 빅데이터 정의
2. 솔루션 기능 요건
3. 솔루션 주요 기능
4. 솔루션 적용 사례
5. 솔루션 분석 사례
별첨. 기술 구조도
3. 3ⓒ 2013 KT Hitel Corporation
1. 빅데이터 정의 (1/2)
빅데이터는 단지 데이터의 규모만을 이야기하는 것이 아니라 데이터의 다양성과 데이터 처리를 위한 속도까지도 고려하는 것으로 최근에는
복잡성과 가치까지도 함께 포함하는 개념으로 확대됨.
Volume
Terabytes
Records
Transactions
Tables, Files
Velocity
Batch
Near Time
Real Time
Streams
Variety
Structured
UnStructured
Semi-Structured
All the above
3 Vs
of Big
Data
기존 DBMS로
처리불가한 대용량
데이터 증가
데이터 처리 및
분석속도 중요성 증가
기술 발전에 따른
데이터의 다양화
+
Complexity
=
Big
Data
분석
데이터의 다양화에
따른 복잡성 증가
데이터의 크기, 다양성 및 속도에 복잡성이 더해지면서 Big Data에 대한 개념도 변화하고 있음
Value
수집/분석되는
데이터의 가치 고려
OLAP
Report
Visualization
Monitoring
다양한
분석 정보 제공
4. 4ⓒ 2013 KT Hitel Corporation
1. 빅데이터 정의 (2/2)
비지니스인텔리전스(BI)나 데이터웨어하우스(DW) 같은 전통적인 방식의 데이터 환경에서 처리하기 힘들었던 대용량 데이터를 Cloud Computing,
Hadoop, Distributed Computing과 같은 기술을 이용하여 저렴한 비용으로 가치를 추출하고 데이터를 수집, 발굴, 분석하는 모든 과정을 의미.
90%
전 세계 Data 90%
최근 2년 안에 생성
92%
VS
34%
모바일 트래픽 증가 92%
인터넷 트래픽 증가 34%
2011~15 연평균, 예상
2.5
quintillion
In 2012 2.5 quintillion
byte of every day
1.8ZB =1.8조 GB
2억/
1억
하루 평균 2억 개 트윗
트위터 이용 1억 명
SNS 11억 인구
Social 시대로 접어들면서 디지털 데이터 폭증 -> 효율적 데이터 수집/분석/관리의 필요성 증가
5. 5ⓒ 2013 KT Hitel Corporation
Reporting
2. 솔루션 기능 요건
Big Data Solution은 방대하고 복잡한 정형/비정형 데이터의 수집과 저장 및 분석 그리고 다양한 뷰를 통한 정보 제공의 4가지 핵심 기능을
기본으로 각 기능을 담당할 인력(Data Scientist) 및 관리 시스템을 필요로 함.
Collecting Store Analysis Visualization
Collecting Store Analysis Reporting
OpenAPI Crawling
Data Collector
Web, Social Network
System log, RDBMS 등
수집 데이터
저장
NoSQL
DBMS
DBMS
Hadoop 등을 이용한
대용량 데이터 저장
Data Query
Data Clustering
Classification
Recommendation
Hive, mahout, R 등을 통한
분산/병렬 데이터 실시간 분석
Chart/Grid
Data Export/API
Monitoring
Chart, API 등을 통한
다양한 View 생성 및 제공
Data Scientist
Management System
Big Data Solution 의 기능 및 처리 흐름과 관리 구조
Managing
Function of Big Data Solution
6. 6ⓒ 2013 KT Hitel Corporation
Data Input
3. 솔루션 주요 기능 - Hadoop
Hadoop은 대용량 데이터 처리를 위해 컴퓨터 클러스터에서 동작하는 분산 응용 프로그램을 지원하는 오픈 소스 프레임워크로 구글 파일 시스템을
벤치마킹 하여 Hadoop 분산 파일 시스템과 Map Reduce 를 구현한 데이터 분산, 저장 및 병렬 처리 기술
Web Data
Social
Network
Log Files
Legacy Data
Map
생성
Reduce
추출, 조립
Result
Data
Output
데이터
분산
데이터
분류
결과
데이터
<Distribute Map & Data Reduce Processing (Hadoop)>
Hadoop의 장점
- 대용량 파일을 저장할 수 있는 분산 파일 시스템을 제공
- 클러스터 구성을 통해 멀티 노드로 부하를 분산시켜 처리
- 장비를 증가시킬수록 성능이 Linear에 가깝게 향상
- 오픈소스, Intel Core 머신과 리눅스와 같은 저렴한 장비의 사용이 가능
Hadoop의 단점
- Map/Reduce 방식의 사고의 전환 필요
- Open Source 로써 아직은 개발이 진행중인 상태
- 버전 호환성이 낮으며 구현되지 않은 부분이 많음
- 메모리 및 네트워크 관련 시행착오의 가능성이 높아 장애에 대한 대비가 필요
7. 7ⓒ 2013 KT Hitel Corporation
3. 솔루션 주요 기능 - NoSQL
기존의 RDBMS가 가지는 클라우드 컴퓨팅 환경에서의 빅 데이터의 효과적인 저장, 관리상의 한계점을 보완하기 위해 새로운 저장 기술의 필요성이
대두되고 있는 상황에서 나온 새로운 개념의 DBMS 시스템
Node3
Node1 Node2
Client 1 Client 2
Node3
Node1 Node2
Client 1 Client 2
<RDBMS> <NoSQL>
Sql 작업 수행 시점에
Replication, locking
및 Consistency 에 대
한 check 필요
데이터 처리 느림
병렬 데이터 처리로
노드간 커뮤니케이션에
의한 sql 작업의 중단이
발생하지 않음
고속 데이터 처리 가능
NoSQL의 장점
- 빠르고 유연한 데이터 저장 및 조회 능력
- 데이터 증가 시 노드 확장만으로 처리 가능 (확장성 및 가용성 뛰어남)
- Key-Value 형식의 저장 구조로 유연한 데이터 구조를 가짐
- 데이터 인덱싱을 통한 빠른 응답성 (저비용으로 데이터 분석 가능)
NoSQL의 단점
- 분석 방식의 변화 및 내재화 비용 발생
- 트랜잭션과 같은 복잡한 처리에 적합하지 않으며 장애 발생 시 복구 비용 발생
- Schemaless 구조로 Join 과 같은 복잡한 query 사용이 어려움
- Schema 설계, 서버 네트워크 구성, 메모리/IO 등에 대한 시행착오 대비 필요
Read Entity 1 Write 20 Entities Read Entity 1
Write 20 Entities
<NoSQL과 RDBMS 비교>
8. 8ⓒ 2013 KT Hitel Corporation
3. 솔루션 주요 기능 - CEP
데이터를 Event의 관점에서 바라보고 지속적으로 발생하는 데이터를 실시간(Real-Time)으로 분석하고 의미있는 패턴을 인지하여 즉시 반응하는
시스템. In-Memory기반으로 다양한 고속의 Event Stream을 실시간으로 처리가 가능
CEP의 장점
- 선분석처리, 후저장 방식
- In-Memory 기반의 고성능 분석 가능 -> 실시간(Real-Time) 분석 가능
- Event-Driven Architecture
- 데이터 용량에 상관없이 Low-Latency 확보 가능
- 다양한 형태의 Input/Output Adapter 수용 가능
- EPL을 통한 실시간 이벤트 처리 및 외부 데이터 Join 연산 가능한 구조
Data
Input Adapter
Socket Input
Adapter
HTTP Input
Adapter
CSV Input
Adapter
Output Adapter
Socket Output
Adapter
HTTP Output
Adapter
CSV Output
Adapter
CEP Engine
EPL
Statements RDBMS
Open
API
Live Charts
JVM
RDBMSNoSQL
Log
Data
<CEP Real-Time Architecture>
9. 9ⓒ 2013 KT Hitel Corporation
Lucene
3. 솔루션 주요 기능 - Lucene
자바로 만들어진 확장 가능한 고성능 정보 검색(IR – Information Retrieval) 라이브러리. Lucene을 이용하여 각종 프로그램에 텍스트 색인 및
검색 기능의 추가가 가능함
Lucene의 장점
- Full Text 검색에 효율적 -> 다양한 언어의 Full Text 분석기 지원
- Full Text(Contents) 와 text를 단어로 쪼개는 방법(Analyzer)를 제시하면 알아서 Index를 구성해주며 Index된 데이터를 통해 빠른 검색 결과 도출이 가능
- E-mail, Web page, Document 검색에 유리
- 서로 다른 언어간에도 색인(Index) 데이터를 100% 호환해서 사용이 가능
File System
DB
Web
Etc…
Crawler
Parser
Search
Index
User
Request
Search
Result
Indexer
Analysis
Index
DB
<Lucene Architecture>
형태소
분석기
중의어
처리기
10. 10ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 – 자사 서비스
Big Data 플랫폼을 기반으로 자사 서비스에 서비스 로그 수집 및 데이터 분석을 통한 최종 추천 정보 제시 시스템 구현
User Service DAISY UserService
아임IN
Database
사용자
행동 패턴
HDFS
Data
collector
Data Analysis / Mining
By Hive / Mahout
* 분석 모델 적용
* 추천 키워드 추출
* Hive/Mahout 활용
Daisy를 통해
사용자 프로파일링 후
사용자 별 최적의 친구 추천
데이터를 제공합니다.
사용자 데이터
- 친구 맺기
- 조회 아이템
- 활동 아이템
- 발도장 남기기
맞춤형 친구/장소 추천
맞춤형
친구 추천
아임IN
푸딩.투
• 친구 추천
• 친구 맺기 경로
• Follow//following 수
• 추천 대비 결과
• 선호 사진 or POI
• Action 년/월/일/요일/시간
아임IN
로그 파일
푸딩.투
Database
푸딩.투
로그 파일
친구 추천 결과
친구 맺기 패턴
사용자 행동 패턴
최적의 친구 추천
Log
Agent
서비스별 챠트 및 통계
11. 11ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 - KT VOC 모니터링 시스템
무선VOC Data를 기반으로 분석했던 기존 시스템에서 유무선 통합 VOC Data 분석으로 변경하고, 유무선 통합으로 인해
증가 된 VoC 데이터 분석을 위하여 기존의 검색엔진 기반의 아키텍처를 실시간 대용량 분석 솔루션인 DAISY로 변경, 유무선 통합으로 인한
데이터 처리 인프라 구축과 검색 및 리포트 성능 향상 시스템을 개발
<KT VITAL System 개선>
VOC 수집
검색 시스템
실시간 주제별 분석
통계현황/리포팅
• Genesis 연동
• IDMS 연동
• 키워드 연관 분석 검색
• 유무선 검색 조건 추가
• 총 VOC 분석
• 실시간 VOC 분석 외 2종
• 통계 현황 Chart 구성
• 검색 결과 리포팅 구현
<KT VOC Monitoring 시스템>
12. 12ⓒ 2013 KT Hitel Corporation
4. 솔루션 적용 사례 - 기상청(공공)
Big Data 관점에서 기상정보 처리 및 분석을 위한 Big Data 처리 플랫폼 구축
기상정보 성격에 적합한 클라우드 기반의 Big Data 분석 툴 및 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
기상정보 활용 Big Data 개발
• 클라우드 기반 Big Data 분석툴 개발
• 최적화된 OpenAPI 형태의 기상정보 제공 시스템 개발
• 방대한 데이터의 실시간 분석을 고려한 Big Data 플랫폼
• Weather API store를 통해 내/외부에 기상 mash-up API 제공
Weather Daisy를 통해 실시간 Big Data 처리 기능을 제공
<다양한 기상정보 제공 시스템 개발>
13. 13ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
114전국전화 사용자 데이터 분석을 통한 마케팅 활용 사례 (치킨 & 올림픽 영향도 분석)
- 114전국전화 사용자 클릭 기반 로그
- 축구, 올림픽 경기 일정 조사
- 열대야 날씨 데이터
- 2012.05~08.05 로그 데이터
- 검색 키워드 및 콜 추출
- 월별, 요일, 시간 기준 데이터 비교 분석
■ 분석조건
- 올림픽 이슈와 114전국전화 상관관계 추출
- 실질적인 사용자 분석을 통해 얻게 된 결과를
마케팅에 활용한 내부 첫 사례
■ 분석결과 및 시사점
뉴스 활용(2012.8.8) 주요매체 배포 114전국전화 사용자 데이터 기반 영향도 분석 그래프
런던올림픽 축구경기 있는 날, 야식 주문 가장 많았다.(MNB)
스마트 모바일 컴퍼니 KTH(대표 서정수)는 자사가 운영하는 전화번호 검색
애플리케이션 ‘114전국전화’의 데이터를 분석한 결과, 올림픽 시즌에
야식 주문량이 급증한 것으로 나타났다. 지난 7월 1일부터 8월 8일까지
런던올림픽 개막 전후로 야간시간(21시~03시)에 114전국전화를 이용한
야식 검색 및 주문 수가 큰 편차를 보인 것으로 나타났다….
■ 분석결과
7월 한달 동안 Daily 검색어 빈도/
콜 클릭 빈도수 비교(오후 9시 부
터 ~새벽 3시까지)결과 114전국
전화 서비스 요일별 추이와 비슷한
패턴의 그래프 유형을 보이고 있습
니다. 결과적으로 7월 21일 부터
31일까지 열대야 기간 동안 큰 변
화는 없었습니다. 7월 26일 목요
일 축구경기때 치킨 검색어가 약
25% 상승했습니다. 여기서도 대한
민국 대표팀 축구에 대해 반응합니
다. 평일 국내 축구 경기에는 반응
하지 않습니다.
(치킨 검색어 평균 약 8% 상승)
14. 14ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
114전국전화 맞춤 메뉴 제공 (서비스로그데이터 분석을 통한 사용자 라이프타임 분석)
- 114전국전화 서비스 로그 전체
- 사용자 검색어 로그 전체
- 2011.08~2012.07.22 로그 데이터(전수)
- 요일, 시간, 시즌, 키워드 추출 통계 분석
- 패턴 파악 후 키워드 재 추출
■ 분석조건
- 114전국전화 메인 메뉴가 통계기반 구조로 변경
- 사용자 상황에 맞춰 메뉴를 추천해 준 결과
메뉴 선택과 UV, PV 증가한 긍정적 효과 입증
■ 분석결과 및 시사점
114전국전화 사용자데이터 기반으로 맞춤메뉴 구성 맞춤메뉴 개선 결과 측정 분석
■ 분석결과
1,2위 부동이었던 중국집, 치킨을
시간대로 상세하게 분류하면, 아래
그림처럼 평일 07~11시간대에는
병원이 1위에 오르기도 합니다.
2위에 순위가 오른 키워드는 점
심뭐먹지, 저녁뭐먹지 입니다. 사
용자 시간에 맞춰 메뉴명을 다르게
한 결과 사용자가 선택한 검색량이
증가 하였습니다.
12월 맞춤메뉴 적용 후 11월에 조
금 저조했던 콜 클릭 수가 증가하
였습니다. 12월 평균 및 Daily 수치
가 년 평균을 상회하고 있습니다.
12월에 송년회 등 사용자들의 활
발 한 시기 외에도 이벤트 등 다양
한 영향이 있겠지만, 맞춤메뉴 적
용 후 평균이상으로 증가 하고 있
으며 사용자에게 긍정적 영향을 미
치고 있습니다.
수집된 서비스 로그데이터 기반 사용자의 APP 행동패턴 분석
사용자 행동패턴 분석을 통해 요일, 시간, 시즌 별 검색키워드를 통해
통계기반으로 메인 메뉴를 다양한 조건에 따라 재배치 한다.
분석된 패턴을 기준으로 요일 분류체계, 시간 그룹, 시즌 그룹을 코드화
하고 이를 기반으로 메인 메뉴를 재 구성 하였다.
15. 15ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
글로벌 서비스 푸딩.투 인기사진을 위한 Time zone 분석 (글로벌 사용자 배려를 위한 데이터 분석)
- 푸딩.투 사진 업로드 정보 DB
- 푸딩.투 사용자 정보 DB
- ~2012.05까지 전체 데이터 기준
- 글로벌 사용자 상위 타임존 라이프패턴 분석
- 패턴을 기준으로 인기사진 선정 룰 적용
■ 분석조건
- Data-Driven을 통한 인기사진 선정
- 지속적인 개선과 측정을 반복하며 서비스개선에
사용자 긍정적 반응 도출
■ 분석결과 및 시사점
글로벌 사용자를 고려한 데이터기반 인기사진 선정 인기사진 룰 변경 효과 측정
■ 분석결과
푸딩.투의 인기사진선정은 데이터
분석을 통해 사용자들의 다양한 사
용패턴을 통해 1차, 2차 룰을 비교
해가며 A|B Test를 진행하였다.
Data –Driven 을 통해 푸딩.투 활
성화를 위한 인기사진 선정 룰 변
경과 그 결과를 측정하는 방법으로
Data –Driven으로 적용, 측정을 반
복하며, 지속적으로 개선 모델을
만들었다.
그 결과 PV, UV 증가, 푸딩.투 사용
자 증가, 인기사진 선정 Pool 확대
등 긍정적인 결과를 얻었다.
인기사진에 선정되면 푸딩.투 사용자들의 인기도
함께 할 수 있다.
푸딩.투 서비스는 사진 기반의 글로벌 SNS서비스이다. 인
기사진을 통해 많은 인기와 Follower를 늘릴 수 있다. 하
지만 인기사진 선정시간(UTC)과 각 나라별 시간차가 존재
하므로 각 나라별로 다양하게 인기사진이 선정될 수 있는
다양한 데이터 분석을 통해 선정 룰을 변경하였다.
16. 16ⓒ 2013 KT Hitel Corporation
5. 솔루션 분석 사례(자사)
■ 분석대상
T-커머스 매출데이터 분석 (기초고객분석부터 주문과 매출에 대한 구매패턴 분석)
- T-커머스 매출 기준 DB
- T-커머스 주문 기준 DB
- 2012.08~2013.01 전체 매출, 주문 기준
- 주문고객,매출고객 고객기초통계
- 구매패턴 추출, 관련 아이템 도출
■ 분석조건
- 고객 구매패턴을 통한 시간 별 맞춤 상품 구성 가능
- 매출,주문 고객비교를 통한 매출로 전환되지 않는
주문 고객패턴을 추출하고 문제점 도출
■ 분석결과 및 시사점
T-커머스 구매 패턴 분석 매출, 주문 고객 분석
■ 분석결과
T-커머스의 구매지불수단은 카드
와 무통장으로 구분된다. 지불수단
중 약 33%에 해당하는 무통장 입
금은 실 구매단계로 전환하는 비율
이 62%였으며, 주문취소단계로
38%였다. 무통장의 특성 상 7일
이내 입금확인이 되지 않으면, 자
동으로 취소가 되는데, 고객주문이
실제 매출로 이어지기 위한 개선진
단을 도출하였다.
구매패턴 분석을 통한 사용자에게 맞춤 상품 제공
하는 기초분석
T-커머스에서 판매된 상품을 기준으로 월별현황, 요일별
현황, 최다판매상품리스트, 최다,최대 구매고객, 채널별 구
매 패턴 시간 등 다양한 구매패턴 분석을 통해 시간별 상
품 배열, 검색 우선 리스트, 상품 추천에 기반데이터로 활
용한다.
17. 17ⓒ 2013 KT Hitel Corporation
별첨. 기술구조도
Collection
Agent
Mobile Browser (http, udp, tcp) Kafka/Flume Agent (unstructured data)
Collection
Data Store (Hadoop Cluster)
Management
Administration
Monitoring
(Ganglia/
Grapite/Nagios)
Configuration
Management
(Puppet/chef)
Batch Control
Monitoring
Dash Board
System
Log-searcher
HBASENameNode DataNode DataNode DataNode DataNode
Speed Processing Layer
Storm Real-time Topology
Biz Logic(추천,랭킹 etc)
Workflow Mgmt
Rule Engine Scheduler
History DB
Biz Logic
Visualization Layer
Chart
User
Dashboard
R Studio
Web
Templet
Mobile Web
Templet
Collection Biz RuleStorm Collection Topology
Kafka/Flume Cluster
Interface Layer
REST SOAP SSL TCP UDP
Serving Layer
OrientDB
(Graph DB)
Elephant
DB
(Key-Value)
LuceneOLAP
LegacyDBLegacySystems(로그기반데이터)
Sqoop
Coordinator Cluster Handler Cluster
Batch Processing Layer
Pig R Hive
Data Analysis Logic
Mahout OpenPDC