빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
Big Data Platform Field Case in MelOn (in Korean)
- Presented by Byeong-hwa Yoon, engineer manager at Loen Entertainment
- at Gruter TECHDAY 2014 Oct. 29 Seoul, Korea
빅데이터 기술의 소프트웨어 공학 적용
1. 빅데이터 기술의 활용 사례 - 빅데이터 기술은 이미 많은 적용 사례를 가지고 있고, IoT 기술과 더불어 일상의 기술이 되어 가고 있다 (Pervasive & Invisible Analytics).
2. Spark 플랫폼 - 이전에 Hadoop으로 대표되는 빅데이터의 분산 처리 기술은 계속 발전하고 있고, Spark는 메모리 기반 데이터 처리로 기존 대비 성능을 10~100배 개선하였다. 특히, Spark는 Scala라는 함수형 언어로 구현되었고, 이전에 Java 기반의 빅데이터 처리 코드를 보다 명료하고 Compact하게 구현할 수 있다. 데이터 분석에는 Imperative 언어보다 함수형 언어가 보다 적합하다.
3. 소프트웨어 공학에서의 데이터 분석 사례 - 최근 Software Analytics, Repository Mining 등 데이터 분석 사례들이 있고, 최근 GitHub 이나 StackOverflow 분석과 같은 빅데이터 분석 연구들이 진행되고 있다.
4. Spark를 활용한 Word Count 예
5. Big Data Software Engineering - 큰 데이터 처리 외에도, 실시간 데이터 처리 (Velocity), 다양한 데이터 처리 (Variety) 부분에도 소프트웨어 공학 적용이 필요하다. 또한, Big Data Software를 Engineering하는 부분에도 관심이 필요하다. Big Data 분석 코드 역시 SE의 대상으로 바라보고, Test Driven Dev, Agile Methodology와 같은 개발 방법의 적용을 살펴볼 필요가 있다.
마지막으로, 현재 빅데이터 기술에 대한 진입 장벽은 많이 낮아졌고, 사용 가능한 오픈소스들이 많다. 소프트웨어 공학자라면 빅데이터 분석을 직접 시도해 볼 필요가 있고, 특히, Spark-Scala는 향 후 더욱 발전 확대될 기술이다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅 데이터 환경의 고급 분석 기법과 지원 기술 동향 (Advanced Analytics and Technologies for Big Data)Myungjin Lee
오늘날 인터넷의 보편화와 소셜 미디어 및 스마트 기기의 발전으로 인해 정보의 양이 급격히 증가함에 따라 비즈니스 영역에 있어서 새로운 기회와 도전의 시기를 맞고 있다. 빅 데이터라 불리는 이러한 수 많은 정보들은 기업이 효율적인 의사결정을 지원할 수 있도록 도와줄 수 있으며, 또한 다른 기업과의 비즈니스 경쟁에서 경쟁우위를 차지하는데 아주 중요한 역할을 한다. 이러한 의사결정을 지원하기 위해서는 빅 데이터를 효과적으로 분석할 수 있는 방법론이 필요할 뿐 아니라 이를 지원할 수 있는 다양한 인프라를 필요로 한다. 따라서 본 논문에서는 빅 데이터를 분석하기 위한 고급분석 기법과 이를 지원하기 위한 기술 요소들을 도출하고, 향후의 발전 방향에 대해 논하고자 한다. 이러한 분석 기법과 기술을 통한 정확하고 신뢰성 높으며 신속한 의사결정은 기업이 고객의 요구를 신속히 수용하고 반영함으로써 기업의 수익 창출 및 시장을 선점하는 중요한 요인으로 작용할 수 있다.
Recently, as the Internet, social-media, and smart devices have been spread and common, the amount of information increases incredibly. Nowadays, we are confronting new opportunities and challenges in every business area. Obviously, such huge amount of information which called Big Data is playing a significant role at many parts, like improvement of effective decision making. Therefore, many companies could maintain their competitiveness in the market place. In order to support firm’s decision making, we need not only the methodology for the effective analysis of Big Data, but also various infra-structure which could support the firm’s decision making. As a result, this paper discusses advanced analysis methodologies and it’s supporting technical factors. The firm’s decision which is based on such analysis and techniques is usually accurate, reliable, fast, receiving and refreshing customer’s feedback immediately, so the decision making plays an important role in the revenue creation and preempt of market share.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
Big Data Platform Field Case in MelOn (in Korean)
- Presented by Byeong-hwa Yoon, engineer manager at Loen Entertainment
- at Gruter TECHDAY 2014 Oct. 29 Seoul, Korea
Hnavi-HDFS based log aggregater with HDFS BrowserLINE+
'HDFS에 로그를 좀 더 쉽게 저장하고 보자!'
H-Navi - Log4j, RabbitMQ, Flume과 HDFS 기반의 로그수집 및 ExtJS 및 Eclipse RCP(3.7) 의 HDFS 브라우저
- 지식경제부 SoftwareMaestro 2기 2단계 2차 발표 자료
- 김주리 멘티
- 김태완 멘토
My presentation in Week of Robotics, Helsinki, Finland on November 28th, 2014. My purpose was to initiate discussion about the possibilities and risks of using Big Data in combination with robotics, especially from ethical perspective. My main reference was Davis & Patterson (2012): Ethics of Big Data which I recommend as further reading.
CES 2016에서 보고 느낀 것들을 정리한 출장 보고회 자료입니다. 전체 주제들을 A-Z까지의 26가지 키워드로 정리를 하였고, 이를 다시 대분류 기술동향인 Car, Fitness/Healthcare/Wearabel, Home/IoT, Startup과 중국, 그리고 기타 그룹으로 정리를 해보았습니다. 관심 있는 분들에게 도움이 되시길 바래봅니다.
9 주; 2015.4.29. 수
교육정보서비스에서 정형/반정형/비정형 데이터 처리는 어떤 의미를 갖는가?
(교육정보에서 핵심 가중치를 두어야 할 데이터는 무엇인가?
몇 가지 추천하고 그 이유를 논한다.)
키워드 : 교육정보, 교육 데이터 마이닝, 교육 빅데이터
위에 대한 내용으로 고려대 정보대학 컴퓨터학과의 강장묵 교수 (연구)의 정규 교과목 교안 입니다.
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 JM code group
빅데이터 분석/처리에 따른 생활밀착형 서비스의 프라이버시 보호 측면에서의 구조혈 연구 (A Study on Structural Holes of Privacy Protection for Life Logging Service as analyzing/processing of Big-Data)
•Author : 강장묵*, 송유진**
•Keyword : Privacy, Personal Information, Structural Hole, Big-Data, Life Logging Service
http://www.jiibc.kr/bbs/board.php?bo_table=collect_paper&wr_id=1430
국내등재지
A Modern Data Integration Approach to Transform and Amplify Your Business (데이...Denodo
Watch full webinar here: https://bit.ly/3N5ufSC
In this session we will look at the key trends in data integration and in particular the role of the data fabric. We will discuss the physical v’s logical approaches and how data virtualization is a key technology to power the logical data fabric. The session will also cover how quick a return on investment may be achieved, examining the ke y findings of the Forrester total economic impact report and data virtualization.
고려대학교 대학원 교육정보서비스 특론 수업 4-5주 교안
고려대학교 정보대학 컴퓨터학과 강장묵 교수 강의
본 교안은 빅데이터 기술을 활용한 교육정보서비스에 대한 것임
강의는 교육정보에서 활용될 수 있는 여타 ICT 기술의 원리 중 정보공유와 API, 빅데이터 정보처리 과정과 하둡 프로그래밍의 이해, 구글 지도와 크레이그리스트의 매쉬업 사례 등을 다룸
4. 빅 데이터 출현배경
○데이터 저장기술의 발달로 용량 증가 및 비용 감소
1956년 IBM 데이터 저장장치(RAMAC) 5MB에 5만 달러, 2011년 2TB용량의 드라이
버는 70달러 미만의 가격에 판매
○CPU 성능의 발전과 클라우드 컴퓨팅의 발달로 대용량
데이터의 관리와 분석이 가능
○페이스북, 트위터와 같은 소셜 미디어의 부상
○스마트 기기의 다양화와 보급 증가
2010년 전세계 핸드폰 50억대
N 스크린 (PC, 스마트폰, 태블릿, TV)
웨어러블 디바이스의 증가로 네트웍 접속이 가능한 스마트 기기의 증가
○오픈소스 운동
구글, 페이스북, 아마존, 트위터 등의 주도로 오픈소스 운동이 활성화
출처: 1) http://en.wikipedia.org/wiki/Memory_storage_density#Effects_on_price
2) MGI(McKinsey Global Institute) 2011.06 – Big data: the next frontier for innovation, competition, and productivity
3
5. 데이터의 대 폭발
매달 페이스북에서 주고받는 컨텐츠: 300억건(McKinsey, 2011)
매년 전세계 데이터 40% 씩 증가 (McKinsey, 2011)
’10년~’15년까지 전세계 모바일 데이터 트래픽은 연평균 92%,
인터넷 트래픽은 연평균 34% 증가할 것으로 예상(Cisco, 2011)
트위터(twitter)는 전 세계 1억명의 월간 이용자(active user)들이
이용하고 있으며, 하루 평균 2억 개의 트윗이 발생(Twitter, 2011)
오늘날 11억 인구가 소셜 네트워크를 이용하고 있고 2억
5000만명이 매일 페이스북에 사진을 업로드하고 있다(인텔 CEO
폴 오텔리니, 2011)
출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013)
4
6. ICT 발전에 따른 데이터의 변화 방향
출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013)
5
7. 빅 데이터 역사 (1/2)
1944: Fremont Rider, 빅 데이터에 대한 첫번째 인식, Wesleyan University
Librarian, “미 대학 전체의 라이브러리가 지수적으로 증가할 것을 예측”
1949: Claud Shannon, “정보의 아버지”, 대용량 스토리지 기술에 대한 연구를
수행
1961: Derek Price , “과학 저널은 매 15년마다 두배로 증가”, “law of
exponential increase”
1996: 디지털 스토리지가 종이보다 저렴해짐
1997: M.Cox, D.Ellsworth, “빅 데이터” 용어가 처음 사용됨 – “ApplicationControlled Demand Paging for Out-of-Core Visualization”
출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/
6
8. 빅 데이터 역사 (2/2)
2001: Doug Laney(Meta Group), Volume, Velocity, Variety 개념 사용, “3D
Data Management: Controlling Data Volume, Velocity, and Variety”
2005: Tim O’Reilly, “데이터는 다음 번 ‘인텔 인사이드’이다”, “What is Web
2.0”
2008: Bret Swanson & George Glider, “미국 인터넷 트래픽은 2015년까지 1
ZB(제타바이트)에 도달할 것이고, 이는 2006년 보다 최소 50배에 이를
것이다.”, “Estimating the Exaflood”
2011: Martin Hillbert & Priscila Lopez, 세계 정보 저장량은 1986~2007까지
매년 25%씩 증가하고 있다. 또한, 1986년까지는 99.2%의 스토리지가
아날로그였지만, 2007년부터는 94%의 스토리지가 디지털이다.
출처: http://www.hcltech.com/blogs/enterprise-application-services/history-big-data, http://biggdata.weebly.com/
7
10. 데이터
이론을 세우는 데 기초가 되는 사실. 또는 바탕이 되는 자료
관찰이나 실험, 조사로 얻은 사실이나 정보.
- [네이버 국어사전]
재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형.
컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다.
컴퓨터에 입력하는 기호 ·숫자 ·문자를 말하며, 그 자체는 단순한 사실에
불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에
소용되는 정보를 만들어낸다.
- [네이버 지식백과]
컴퓨터 분야에서의 데이터는 옮기거나 처리하기에 좀더 편리한 형태로 바뀌어져 있는
정보를 말한다. 오늘날의 컴퓨터나 전송매체에 관련하여, 데이터는 바이너리나 디지털
형태로 변환되어 있는 정보를 말한다.
- [텀즈]
출처: http://www.terms.co.kr/data.htm, http://www.diffen.com/difference/Data_vs_Information
9
11. 정보
관찰이나 측정을 통하여 수집한 자료를 실제 문제에 도움이 될 수 있도록 정리한 지식
. 또는 그 자료.
- [네이버 국어사전]
"정보란 잡음(noise)이 배제된 메시지 신호(signal)“ by Claude Shannon
"다름을 만드는 모든 차이가 정보다“ by Gregory Bateson
정보는 어떤 사물이나 사태에 대한 정황을 반영하고 있다. 정보에 대해서는 여러 가지
차원에서 다양한 정의를 내릴 수 있다. 기술적인 차원에서 정보는 잡음이 배제된
메시지의 신호이지만 의미론의 차원에서는 대상이 표출하고 인간이 의도하는 목적과
방법을 담기도 한다.
- [네이버 지식백과]
출처: http://terms.naver.com/entry.nhn?docId=1526261&cid=3619&categoryId=3623
10
12. 데이터 vs. 정보
데이터
Raw, unorganized facts
No context
Just numbers and text
정보
Processed data
Data with context
Value added to data
summarized
origanized
analyzed
Example: 51007
Example
5/10/07 The date of your final
exam.
$51,007 The average starting
salary of an account manager.
출처: http://www.slideshare.net/EinsteinX2/data-vs-information, http://www.diffen.com/difference/Data_vs_Information
11
13. 빅데이터 정의
빅 데이터는 통상적으로 사용되는 데이터 수집 및 관리, 처리 소프트웨어의 수용
한계를 넘어서는 크기의 데이터를 말한다.[5]
- [위키피디아]
‘빅데이터’란 기존의 관리 및 분석 체계로는 감당할 수 없을 정도의 거대한 데이터의
집합을 지칭(SERI, 2010)
– 대규모 데이터와 관계된 기술 및 도구(수집·저장·검색·공유·분석·시각화 등)도 빅데이터의 범주
에 포함
– 과거 빅데이터는 천문·항공·우주 정보, 인간게놈 정보 등 특수 분야에 한정 됐으나 ICT의 발달
에 따라 전분야로 확산
빅데이터의 정의는 데이터 규모와 기술 측면에서 출발했으나, 빅 데이터의 가치와
활용효과 측면으로 의미가 확대되는 추세
– 빅데이터는 고객정보와 같은 정형화된 자산정보(내부) 뿐만 아니라 외부 데이터, 비정형, 소셜,
실시간 데이터 등이 복합적으로 구성
– 빅데이터는 규모, 다양성, 복잡성, 속도의 증가 특성을 갖고 있으며, 4개의 요소가 충족될수록
빅데이터에 적합
– 특정 규모(big volume) 이상을 빅데이터로 칭하기 보다는 원하는 가치(big value)를 얻을 수 있
는 정도로 상대적인 해석이 가능
출처: NIA(한국정보화진흥원) - 새로운 미래를 여는 빅데이터 시대 (2013)
12
20. 데이터베이스
데이터베이스는 그 내용을 쉽게 접근하여 처리하고 갱신할 수 있도록 구성된
데이터의 집합체이다.
- [텀즈]
여러 사람들이 공유하고 사용할 목적으로 통합 관리되는 정보의 집합이다.
논리적으로 연관된 하나 이상의 자료의 모음으로 그 내용을 고도로 구조화함으로써
검색과 갱신의 효율화를 꾀한 것이다.
- [위키피디아]
데이터베이스의 특징
실시간 접근성
지속적인 변화
동시 공유
내용에 대한 참조
출처: http://www.terms.co.kr/database.htm
19
21. 데이터베이스 역사 (1/2)
Persistent Storage 역사
천공카드
자기 테이프
플로피 디스크
하드 드라이브
플래시 메모리
데이터베이스의 의의
데이터와 응용 프로그램의 독립
데이터 공유 & 중복의 최소화
데이터 관련 이슈 처리 (ACID)
20
22. 데이터베이스 역사 (2/2)
•
•
•
데이터 종속
데이터 중복
데이터 불일치 문제
구조적 문제
출처: http://4840895.blogspot.kr/2009/04/history-of-dbms.html
21
24. 빅데이터 데이터베이스 기술
③
SQL on Hadoop
(Impala, Hive, Tajo, Drill)
Hadoop
Analytics
Spark
In-memory Analytics
Shark(SQL on Spark), SAP HANA
Streaming / CEP
(Esper, S4, Storm, HStreaming)
Realtime Analytics
(Streaming Processing)
Streaming SQL
(StreamSQL etc)
①
NoSQL
(MongoDB, Hbase, Cassandra)
Online Transactions
②
NewSQL
(MySQL Cluster, Tokutek,
VoltDB, dbShards)
23
25. 구글 빅데이터 관련 기술
기술
연도
GFS
2003
내용
Google File System: A Distributed Storage
MapReduce 2004
Simplified Data Processing on Large Clusters
Sawzall
2005
Interpreting the Data: Parallel Analysis with Sawzall
Chubby
2006
The Chubby Lock Service for Loosely-Coupled Distributed Systems
BigTable
2006
A Distributed Storage System for Structured Data
Paxos
2007
Paxos Made Live - An Engineering Perspective
Colossus
2009
GFS II
Percolator
2010
Large-scale Incremental Processing Using Distributed Transactions and Notifications
Pregel
2010
A System for Large-Scale Graph Processing
Dremel
2010
Interactive Analysis of Web-Scale Datasets
Tenzing
2011
A SQL Implementation On The MapReduce Framework
Megastore
2011
Providing Scalable, Highly Available Storage for Interactive Services
Spanner
2012
Google's Globally-Distributed Database
F1
2012
The Fault-Tolerant Distributed RDBMS Supporting Google's Ad Business
출처: Google researchs
24
26. 구글과 빅데이터 데이터베이스 기술
구글에서 자신들의 빅데이터 기술을 논문으로 발표 -> 오픈소스로 개발
구분
연도
오픈소스
설명
BigTable
2006
Apache HBase
NoSQL
Megastore
2011
-
BigTable + transaction + schema
Spanner
2012
-
NewSQL
Dremel
Online
Transaction
기술
2010
Cloudera Impala,
Apache Drill
SQL on Hadoop
Tenzing
2011
Apache Hive
An SQL implementation on
mapreduce framework
Analytics
25