대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
크게 이슈가 되고 있는 모바일 검색 시장에 대한 리포트입니다.
스마트폰 사용자가 증가함에 따라 모바일 트래픽 역시 예전에 비해 엄청난 속도로 증가하고 있습니다. 그중 특히 많은 부분을 차지하고 있는 것이 바로 모바일을 이용한 검색입니다.
이에 따라 앞으로 비약적인 성장을 할 것으로 보이는 모바일 검색 시장의 현황에 대해 자세히 살펴보았습니다.
[IT OnAir] 데브멘토 동영상, 박정아 다음 개발팀장_제12회 오픈업 검색의 미래(Beyond the Search)
지난
12월
3일 벤처스퀘어
주최로
열린
12회 오픈업
검색의
미래 세미나
발표 영상<?xml:namespace prefix = o ns = "urn:schemas-microsoft-com:office:office" />
환경,
생활의
변화와
인터넷이
우리에게
미치는
영향
모바일에서의
검색,
모바일에서
검색 입/출력 방식의
변화
음성
검색,
Speech-to-Text 기술,
다음의
음성검색
사물검색,
텍스트가
아닌 카메라를
통한 시각적
정보를
이용한
검색
코드검색,
음악검색,
소셜검색과
검색의
미래
비즈니스 모델 빌더(Business Model Builder) 프로토타이핑 버전 by INSIGHTORSroyhwang
인사이터스 컨설팅 그룹의 Official BMG Master가 Business Model Canvas보다 구체적이고 체계적인, 실전적인 output을 도출하기 위한 방법으로 개발한 비즈니스 모델 빌더의 프로토타이핑 버전입니다.
Full version과는 차이가 있으며, 프로토타이핑 버전이 가장 많이 쓰이므로 프로토타이핑 버전을 공개합니다.
해외 150여 개 커머스 웹사이트 사례 연구를 통한 온라인 커머스 UX/UI 방향성 검토Billy Choi
해외 150여 개 커머스 웹사이트 사례 연구를 통한 온라인 커머스 UX/UI 방향성 검토
* 제품 탐색
Indochino
Aéropostale
Gap
Walmart
Nike
* Shopping cart
Indigo
Tsovet
Gap
REI
Crate&Barrel
Williams-Sonoma
Sears
Nike
Kohl’s
Northern Tool
Eddie Bauer
Victoria’s secret
Nordstrom
Neiman Marcus
L.L. Bean
Walmart
Aéropostale
Yoox
Gilt
J&R
* 제품 비교
Lowe’s
Northern Tool
L.L. Bean
REI
Home Depot
클라우드 컴퓨팅과 Daum의 사례- 윤석찬 (KREN 연구 협력 포럼, 2013) Channy Yun
출처: http://www.koren.or.kr/board/board.php?task=view&db=data2&no=44
<개발자에서>
최근에 클라우드 기술이 부각되면서 다음에서도 발빠르게 사내 프라이빗 클라우드 서비스를 준비중이다. 가장 먼저 한 일은 사내 개발자들이 언제든지 자신의 가상머신(VM)을 할당 받아 테스트해 볼 수 있는 사내 클라우드 플랫폼 구축이었다.
2011년 초 오픈소스인 클라우드스택을 최적화해 구축했으며, 개발자들은 공용 테스트 서버나 서비스 서버에서 못하던 자신만의 최신 기술 습득이나 테스트를 아무 구애 받지 않고 자기 서버에서 해 볼 수 있게 됐다. 이 플랫폼은 앞으로 클라우드 파운더리 기반의 사내 PaaS과 하둡 테스트베드로도 활용하고 있으며, 실제 다음 서비스에서 클라우드 컴퓨팅 기술을 활용하는 기초가 되고 있다.
- http://www.bloter.net/archives/107844
Chaos Engineering을 위한 최신 도구 업데이트 - 윤석찬 (AWS 테크에반젤리스트)Channy Yun
- 발표 영상: https://www.youtube.com/watch?v=mLWD4KCQuT4
카오스 엔지니어링(Chaos Engineering)을 테스트해 볼 수 있는 각종 도구에 대해 최신 업데이트를 해드립니다. 로컬 장애 주입용 도구 부터, AWS System Manager기반 Runcommand 도구, AWS Lambda 도구, 그리고 ToxiProxy, ChaosToolkit 같은 오픈 소스 기반 도구와 간단한 데모를 함께 보여드립니다.
How to Measure DevRel's Perfomances: From Community to Business - Channy Yun ...Channy Yun
Developer relations are an impactable to generate business values in many software companies who hope to gain mindshare of developers in various approaches from contributing open sources to gaining meaningful sales leads. In this session, you’ll learn about how to measure the perfomrmance of developer relations for building community, increasing impacts and generating leads for sales.
https://tokyo-2018.devrel.net/speakers/yun/
카오스 엔지니어링(Chaos Engineering)이란 프로덕션 서비스의 각종 장애 조건을 견딜 수 있는 시스템의 신뢰성을 확보하기 위해 분산 시스템을 실험 하고 배우는 분야입니다. 즉, 개발자들이 현실 세계에서 발견되는 시스템 장애를 미리 탐지하여 복원성 높은 아키텍처를 구성하는 방법을 공유합니다.클라우드 컴퓨팅의 발전과 데브옵스 방법론을 기반으로 자동화를 통해 좀 더 쉽게 개발자들이 직접 분산 시스템을 통제된 환경에서 실험을 하는 동안 나오는 결과를 관찰함으로써 현실에서 실제 행동 방법을 배울 수 있습니다. 본 세션에서는 카오스 엔지니어링의 기본 개념과 함께 Kubernetes용 Chaos Tool인 KubeMonkey를 통해 무작위로 클러스터의 포드를 삭제하여 장애 복구 서비스 아키텍처를 검증하는 방법을 설명합니다.
DockerCon 2014에서 Adrian Cockcroft가 발표한 The state of the art in Microservice 중 해외 사례 발췌본
https://blog.docker.com/2014/12/dockercon-europe-keynote-state-of-the-art-in-microservices-by-adrian-cockcroft-battery-ventures/
2005년 구글맵으로 부터 시작된 웹 기반 지도 API 서비스는 웹 2.0의 데이터 플랫폼 서비스의 주요 사례로 떠올랐다. 그 이후 야후!, 마이크로소프트 등에서 지도 플랫폼 서비스와 API 제공이 잇달았으며, 국내에서도 다음이 최초로 항공 사진(스카이뷰)과 거리 사진(로드뷰)을 제공하고 네이버도 참여함으로서 로컬 기반 서비스의 폭발적 성장의 견인차 역할을 하였다. 노키아의 Here 및 오픈스트릿맵 등 제 3의 사업자 및 협업 기반 플랫폼이 성장하였으며, Open Layer 라이브러리 및 Open GIS 등 다양한 공개 소프트웨어 들도 함께 성장하였다.
특히, 스마트폰의 보급과 아울러 모바일용 지도 SDK를 적극 보급 및 지원하는 추세로 기존의 Ajax 기반의 이미지 기반 웹 지도 표현 기술은 WebGL 혹은 Canvas를 통해 3차원 기술을 도입하면서 웹 호환성 및 성능을 동시에 높히고 있다. 구글 스케치업을 통해 시작된 공간 3차원 서비스는 약간 주춤하지만 45도 이미지너리 및 DEM 기반 데이터는 계속 추가되고 있다.
최근에는 구글맵 엔진 서비스와 같은 전문 사용자의 참여를 이끌어 내어 클라우드 소싱 형태의 지도 데이터 생성 커뮤니티를 통해 저개발 국가 및 북한과 같은 미공개 지도 데이터 생산을 만들고 있다.
2011년부터 구글 부터 지도 API 서비스 유료화를 단행하여 보안 강화 및 품질 및 성능 향상을 통해 제 3자 재판매를 통한 사업을 진행하고 있다. 또한, 최근 많은 기업들이 글로벌 홈페이지에 자사의 위치나 고객센터를 이용자들이 찾는데 활용하고 있으며, 이를 활용해 물류•관제•입지분석•위험관리•마케팅 등에 활용하고 있다.
현재 글로벌 지도 API 플랫폼은 단순히 베이스맵을 지원하는데 그치지 않고 공간 정보를 시각화 및 표현하는데 필요한 다양한 기능을 제공하면서, 정보 전달 역할을 강화하고 있다. 또한, Mapbox 등 지도 타일의 다양한 스타일과 테마 기능을 통해 좀 더 미려한 지도를 제공하기도 한다.
향후 글로벌 지도 API 플랫폼은 단보다 고도화된 시스템을 활용해 데이터 분석 및 2차원 시각화 그리고 3차원 공간 정보 활용으로 진화하고 있다.
5. Daum 분산 스토리지의 증가
100,000
50GB
25GB
10,000
1GB
1,000
100MB
100
2004 2006 2012
6. 분산 파일 시스템: Tenth vs. HDFS
Tenth는 한메일, 카페 첨부 파일 등 대용량 파일을 저렴하게 저장하
기 위한 분산 파일 시스템으로 2005년 부터 개발
저장 파일 개수 700억개, 20페타 바이트 (2011)
– 2006년 라이코스메일, 카페 도입
– 2007년 한메일 기가 용량 도입
– 2009년 동영상 업로드팜 도입
– 2010년 다음 클라우드 도입
Tenth 비교 HDFS
2005 개발 시작 2006
C++ 구현 언어 Java
첨부 파일을 저장하기 위해 하 이용 목적 분산 시스템에서 파일 저장
나의 스토리지 처럼 이용 가능 용도로 활용
다중 (MySQL이용) 네임 노드 싱글
1~4MB (fixed chunks) 파일 형태 64MB (fixed blocks)
미지원 디렉토리 구조 지원함
7. Daum 소셜 데이터의 증가
월 검색 쿼리수
1,017,410,000
월 검색 UV
19,473,803
월 Top 페이지 PV
2,074,688,580
월 Top 페이지 UV
23,121,882
월 Daum.net PV
13,745,663,643
KoreanClick 통계(2012.3)
12. Daum’s Bigdata Use-cases
• Log Analysis
– Log Analysis for Daum services
– Targeting Ads by click-through logs • Services (MongoDB/Cassandra)
– Search Ranking by user behaviors - MyAgora
- Search Ad sysem
– User recommendation for Café service analysis - Index of recent visiting Daum Café
– Data process for search ranking algorithm - Internal Cache Farm(Redis)
– Analysis of gaming log analysis - Internal Git Repo (Redis)
• Data Storage (Hbase)
• Data Analysis - Search engine index
– Shopping data analysis - Server monitoring data
– Topic analysis and recommendation - User login data
– Spam filtering for user-generated contents
– Reverse-index for image search
– Search query normalization in NLP
– Data mining for search query, related query,
classification of documents
• Research
– SemSearch: large-scale semantic web search
– VisualRank: Similarity for Image search
21. Hadoop 기반 광고 로그 분석
광고 로그 및 통계 처리, 매체 토픽 분류 및 과거 로그 데
이터를 기반으로 광고 집행 타켓팅 분석
• input: 과거 집행(노출, 클릭) 로그 데이터 ( 필요에 따라 일,
주, 월 단위 로그 사용)
• output 광고에 대한 사용자별 노출 내역 통계 처리
22. 기존 분석 프로세스
– 데이터 복사 ▶ 파싱 ▶ 필터링 ▶분석
– Raw data ▶ SAS파일 : 약 10시간 (데이터 복사시간 제외)
– Query count : 약 6시간 (1일 데이터)
Hadoop을 이용한 분석 프로세스
– 데이터 ▶ 분석
– 1일 데이터 처리 : 1.5시간
23. 분석 속도 증가
Hadoop 도입 전
Hadoop 도입 후
시간당 분석 일 로그 분석
기존 방식에 비해 10~25%의 시간에 처리 가능
실시간으로 10분 단위 분석 가능
24. Hive: SQL을 통한 쉬운 분석
selelct keyword, count(distinct adid)
from ad_log
where dt='20120101' and hr='10' and mi= ‘10'
group by serviceId, mi
25. 실시간 비즈니스 분석
모바일 광고 타게팅 로그 분석 (10분 주기)
– Input: 광고ID, 사용자프로필, 노출/클릭
– Output: 광고ID, 프로필별 인덱스
– 실행시간: 1분 이내
모바일 광고 리포팅 (10분, 1시간, 1일 주기)
– Input: Ad@m 로그
– Output: 통계 데이터
– 실행시간: 4~5분, 2분 30초, 80분
26. 모바일 매체 토픽 분석 (1시간 주기)
– 매체별 광고의 클릭율 분석
– PC/모바일 광고 카테고리 분류
– 실행시간: 1분 이내
광고 카테고리 분석 (1~3시간 주기)
– 광고주나 랜딩 페이지에 따른 카테고리 분류
– PC: 3시간, 모바일:1시간 주기
– 실행시간: 10분 이내
29. 쇼핑 상품정보 (title) 클러스터링
– 상품id-상품title-상품category 형태의 base 데이터
생성이 필수
Hadoop 도입 효과
– 주기적 (일별) 데이터 추가 작업 필요
– 2억 row 이상의 상품정보 테이블 join 필요
– DB 작업이나 기타 다른 방식으로 일괄 처리시 큰 비용
부담임
30. 클릭 쿼리별 연관 분석
– 클릭쿼리와 카테고리간의 연관분석
– 쇼핑상품 클릭로그와 카테고리 정보를 결합(join)
Hadoop 도입 효과
– 대규모 데이터간의 결합(join) 및 집계
(Aggregation) 작업 부담
– 1년치 이상의 쇼핑클릭로그와 상품정보와의 결합 및
연관분석
• 로직 변경으로 기존의 데이터에 대해서 재계산이 필요한 상황
• 계절성을 고려하여 최소 1년 이상의 분석결과가 필요
31. (3) 다음 Top 토픽 분석
Top 화면에 제공할 콘텐츠의 토픽 분석
Hadoop 기반의 머신러닝 도구인
mahout 이용
32.
33.
34. Hadoop의 장단점
장점 : 빠르고 저렴하게 데이터 분석 가능
– 데이터를 바라 보는 관점의 차이 (저렴한 처리 비용)
– 샘플링이 필요 없음 (대용량 처리 가능)
– 운영 비용이 적음 (인프라 운영이 관리 가능)
– 분석도구나 프로그래밍 언어에 독립적임
– 다양한 지원 도구 (오픈소스 지원)
단점: 프로그래밍 방식의 변화 및 내재화 비용
– 설정 및 운영상의 내재화 작업이 필요
– 개념의 변화가 필요 (Map/Reduce 사고 전환)
– Hadoop은 계속 개선 중인 프로젝트임 (벤더 배포판 사용)
– 아직 구현되지 않은 부분이 많음(호환성이 낮은 편)
– 장애에 대한 대비 필요(메모리 및 네트웍 관련)
37. AD Search Listing
다음 통합 검색 쿼리: 6천만/일
외부 매체 포함 유입 쿼리 1.4억
Read Query: 2B/Day
Total Query: 2.5B/Day
38. From RDB to NoSQL
검색용DB
데이터 증가에 따른 한계점
– Oracle에서 불가능하다! MySQL에서 메모리 엔진 기반으로 운영
– “검색어- 광고목록”은 단순한 시스템
카산드라 선정 이유
– 검색 엔진의 데이터 구조와 유사
– 기타 NoSQL의 일반적 장점을 그대로 채용 가능
39. 카산드라의 장점
– 메모리가 우선이며 Read/Write 뿐 (업데이트가 없음)
– 단순한 Read Query에 대해 빠르게 응답 가능
– 주요 튜닝 지점
• 단순한 구조로 스키마 설계를 잘 해야 함
• 빠른 I/O 성능을 갖는 디스크 변경 및 RAID 설정 변경
• TCP 네트워크 조절 필요
• JVM 설정 튜닝도 필요
최근 Hbase의 사용 현황
– Hadoop을 사용하는 경우, 대부분 로그 저장소로 사용 중
– 2012년 상반기 부터는 안정성이 강화되고 있음
40. (2) 마이아고라
마이아고라는?
– 토론, 청원, 즐보드 등 아고라의
모든 글을 모아서 제공
– 총 데이터 6천만건 (2012.1)
문제점
– 짧은 시간에 너무 많은 데이터가
추가 되고 있음
해결 방법
– 데이터 입력 시간이 훨씬 짧은
NoSQL 솔루션 도입
Select Insert Update Delete
MySQL 355sec 250sec 317sec 310sec
MongoDB 294sec 60sec 153sec 123sec
<1백만건 MySQL과 MongoDB 데이터 처리 실험 결과>
41. MongoDB의 장점
– 문서 기반의 콘텐츠 데이터 저장에 유리
– 개발자 친화적인 (RDB) 기반 SQL을 그대로 사용할 수 있음
– MySQL과 비슷한 데이터 백업 및 복구 구조
– Replication: 안전성과 높은 가용성
– Auto-sharding : 분산확장(scale-out) 기능
주요 튜닝 사항
– 장애 시 쉽지 않은 데이터 복구
– 데이터가 없어지더라도 크게 상관(?) 없는 데이터에 활용
– 활용 함수에 따라 성능에 차이가 날 수 있음
• count() vs. cursor.size()
• update() vs. update($set)
42. Daum의 빅데이터 기술 전략
사내 기술 코디네이션
– 각 개발자가 Hadoop을 다양하게 활용할 아이디어 개발 및 실험
실행
– Hadoop을 테스트 해 볼 수 있는 클라우드 플랫폼 제공
– 실 서비스 투입 시 기존 운영팀으로 부터 노하우 전수
• 사내 세미나 및 교육 프로그램 운영
• Hadoop Expert를 중심으로 필요 시 노하우 제공
개발자 데이터 접근성 향상
– 데이터 분석가가 아닌 개발자가 직접 데이터에 접근 가능
– 기획자와 비즈니스에서 바로 의사 결정 가능
콘트롤 타워 보다는 분석 지원 및 인프라 운영 조직!
– 기술 진입 장벽을 낮추고 다양한 분석 아이디어 지원
43. 사내 개발자를 위한 Hadoop Farm
오픈 소스 CloudStack과 Hadoop 클러스터를 통한 유연한 분석용
온디멘드 작업 서비스 프로토타입 및 제공
- 가상 머신 활용 Hadoop 클러스터 생성
- 일정 관리 및 자동 할당 및 반납
- 초보자 및 전문가로 나누어 마법사 제공
- 다양한 샘플 작업 제시를 통한 작업 인지
44. Lessons for Big Data
기술 내재화가 중요 (No Vendors!)
– 개발자들이 직접 Hadoop을 활용할 수 있는 환경 필요
– 오픈 소스의 적극 활용 및 개발 잉여력 제공
데이터 분석 및 처리의 역할 파괴 (No Data Scientist!)
– 개발자들이 직접 실시간 분석을 위한 Hive 활용
– 문서, 이미지 등 다양한 형태의 데이터 처리를 위한 토대 마련
Small Data를 활용 강화 (No Big Mistakes!)
– Small Data라도 실시간으로 저렴하게 데이터를 처리하고,
– 처리된 데이터를 더 빠르고 쉽게 분석하도록 하여,
– 이를 비즈니스 의사결정에 바로 이용하는 것
– 이것이 바로 BigData 기술을 바른 활용임!