빅데이터를 데이터 그 자체로 인식하는 오해가 존재한다. 그 이유는 아마도 빅데이터를 설명할 때 데이터의 속성을 가지고 설명하기 때문이라 생각한다.
하지만 빅데이터로 분류할 수 있는 데이터는 사실상 존재하지 않는다. 크다는 것, 비정형이라는 것 모두 상대적인 개념이기 때문이다.
빅데이터는 데이터 그 자체가 아니라 데이터를 가지고 무엇을 할 수 있는가에 초점이 맞추어져야 한다. 데이터를 기반하여 앎의 기초를 다지고 데이터로 자신의 생각을 증명하며 데이터에서 못 보던 무언가를 보는 것 이러한 것들이 빅데이터라 생각한다.
빅데이터 Myth 첫 번째로 이러한 오해를 깨고자 한다.
세바시 15분 데이터로 세상이 다시 한번 바뀝니다 @하용호 SK Telecomcbs15min
디지털이 아닌 것을 찾기 힘든 시대가 되어갑니다. 우리 뿐만 아니라 주변의 기계들도 끊임없이 데이터를 만들기 시작했습니다. 이 데이터 조각들이 서로 모이고 연결되어 새로운 규칙을 찾아내고 만들어가고 있습니다. 데이터로 파생될 많은 발명들은 인터넷 만큼이나 우리 세상을 바꿀 것이고, 우리는 그 입구에 서있습니다.
빅데이터를 데이터 그 자체로 인식하는 오해가 존재한다. 그 이유는 아마도 빅데이터를 설명할 때 데이터의 속성을 가지고 설명하기 때문이라 생각한다.
하지만 빅데이터로 분류할 수 있는 데이터는 사실상 존재하지 않는다. 크다는 것, 비정형이라는 것 모두 상대적인 개념이기 때문이다.
빅데이터는 데이터 그 자체가 아니라 데이터를 가지고 무엇을 할 수 있는가에 초점이 맞추어져야 한다. 데이터를 기반하여 앎의 기초를 다지고 데이터로 자신의 생각을 증명하며 데이터에서 못 보던 무언가를 보는 것 이러한 것들이 빅데이터라 생각한다.
빅데이터 Myth 첫 번째로 이러한 오해를 깨고자 한다.
세바시 15분 데이터로 세상이 다시 한번 바뀝니다 @하용호 SK Telecomcbs15min
디지털이 아닌 것을 찾기 힘든 시대가 되어갑니다. 우리 뿐만 아니라 주변의 기계들도 끊임없이 데이터를 만들기 시작했습니다. 이 데이터 조각들이 서로 모이고 연결되어 새로운 규칙을 찾아내고 만들어가고 있습니다. 데이터로 파생될 많은 발명들은 인터넷 만큼이나 우리 세상을 바꿀 것이고, 우리는 그 입구에 서있습니다.
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
향후 빅데이터의 주된 소스는 머신데이터가 될 것이다. 머신데이터의 속성은 스트리밍, 실시간이라는 특징을 가진다. 향후 머신데이터는 실시간 빅데이터 솔루션을 통해 우리의 생활로 서서히 스며들 것이다. IoT와 같은 새로운 트렌드에 빅데이터가 어우러지기 위해서도 머신데이터 기반의 실시간 빅데이터 솔루션이 필요하며 이러한 연유로 더욱 각광을 받게 될 것이다.
상용 실시간 빅데이터 솔루션 중 최고의 성능을 자랑하는 로그프레소는 향후 실시간 빅데이터와 머신 데이터에 가장 적합한 솔루션이다.
이 슬라이드는 머신데이터와 로그프레소의 기술을 설명하고 있다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
[우리가 데이터를 쓰는 법] 좋다는 건 알겠는데 좀 써보고 싶소. 데이터! - 넘버웍스 하용호 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫 번째 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 좋다는 건 알겠는데 좀 써보고 싶소. 데이터!
연사 : 넘버웍스 하용호 대표
향후 빅데이터의 주된 소스는 머신데이터가 될 것이다. 머신데이터의 속성은 스트리밍, 실시간이라는 특징을 가진다. 향후 머신데이터는 실시간 빅데이터 솔루션을 통해 우리의 생활로 서서히 스며들 것이다. IoT와 같은 새로운 트렌드에 빅데이터가 어우러지기 위해서도 머신데이터 기반의 실시간 빅데이터 솔루션이 필요하며 이러한 연유로 더욱 각광을 받게 될 것이다.
상용 실시간 빅데이터 솔루션 중 최고의 성능을 자랑하는 로그프레소는 향후 실시간 빅데이터와 머신 데이터에 가장 적합한 솔루션이다.
이 슬라이드는 머신데이터와 로그프레소의 기술을 설명하고 있다.
오늘 밤부터 쓰는 google analytics (구글 애널리틱스, GA) Yongho Ha
http://ga.yonghosee.com 에서 진행하는 구글 어날리틱스(google analytics) 에 대한 강의 슬라이드 입니다. 이 슬라이드는 샘플이지만, 초반부는 실재 강의 교재 그대로 입니다. 이것 자체로도 여러분이 GA를 이해하는데 좀 도움이 된다면 기쁘겠습니다^^ 감사합니다.
Spark 의 핵심은 무엇인가? RDD! (RDD paper review)Yongho Ha
요즘 Hadoop 보다 더 뜨고 있는 Spark.
그 Spark의 핵심을 이해하기 위해서는 핵심 자료구조인 Resilient Distributed Datasets (RDD)를 이해하는 것이 필요합니다.
RDD가 어떻게 동작하는지, 원 논문을 리뷰하며 살펴보도록 합시다.
http://www.cs.berkeley.edu/~matei/papers/2012/sigmod_shark_demo.pdf
빅데이터, 클라우드, IoT, 머신러닝. 왜 이렇게 많은 것들이 나타날까?Yongho Ha
클라우드라는 말이 들리더니, 어느새 빅데이터가 유행했습니다. 데이터가 중요하다는 것을 겨우 받아들일까 하는 판국에, 이제는 IoT라던가 머신러닝이 중요하다고 합니다. 이 많은 유행들은 그냥 일시적인 걸까요? 아니면 동시에 나타나게된 이유가 있는 걸까요? 이것들 뒤에 큰 흐름이 있지는 않을까요? 있다면 그것은 어디에서 시작되고 있을까요? numberworks.io
14. Cloud Computing
Cloud computing is simply a buzzword used to
repackage grid computing and utility
computing, both of which have existed for
decades.”
whatis.com
definition of Cloud Computing
14
15. 어느 평온한 KTH의 아침..
서버는 넉넉히 준비
되어있겠지?
네! 100만 유저까지
문제 없습니다! 15
38. AWS의 시간별/연별 과금
<On–Demand Instance> 0.085x24x365 = $744.6
<Reserved Instances> On-Demand 서비스의 30% 가격!
AWS는 최근 몇 년동안 12번 이상 가격을 낮춤! <위 가격은 2011.12월 기준> 38
49. Public 클라우드의 단점
보안 (개인정보, 자료의 물리적 위치 문제)
Public Cloud 와 Private Cloud 의 분리
클라우드컴퓨팅 활성화를 위한 법제도 개선방안 연구
- 한국인터넷진흥원 (2010.12)
서비스 중지
SLA (Service Level Agreement)
Multi-Region
특정 서비스 락인(Lock-in)
특정 업체의 IaaS에 Lock-in
49
50. 클라우드 컴퓨팅의 문제점
1. 관할권 이슈
우리나라 개인 정보가 미국에?
우리회사 정보가 다른 회사에?
2. 저작권 이슈
내가 합법적으로 구매한 음악을 클라우드에 넣었는데...
앗!친구들과 공유하는 폴더에!
3. 정보보안 이슈
우리회사 영업기밀이 인터넷을 타고 슝슝~
50
나의 개인정보.. 도대체 어디에 저장되어있고 어떻게 관리되고 있는거지?
51. SLA
(Service Level Agreement)
정의
서비스 공급업체와 고객간에 체결하는 계약
대개 어떤 서비스가 제공될 것인지를
측정이 가능한 조건으로 명시한 것
SLA의 구성요소
SLO(Service Level Objective)
서비스수준을 표현하기 위한 항목과 그 기준이나 목표치를 정의
측정(Measurement)
정의된 SLO를 측정도구나 운영체계를 통해 실측값으로 측정
위약(Penality)
측정결과 서비스 수준이 SLO에 약속된 것보다 못할 경우
SLA에 근거해 고객이 서비스 공급업체에게 보상을 요구하는 것
51