대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 처리시스템의 정의는 무엇이라고 할 수 있을까요?
간단히 정의하면 빅데이터 처리시스템은 “대량의 데이터를 분산 병렬 처리하고 관리하는 시스템” 이라고 할 수 있습니다.
여기서 중요한 것이 분산 병렬처리와 프레임워크 라는 말입니다.
먼저 프레임워크라는 말의 정의를 살펴보겠습니다.
빅데이터를 위한 프레임워크는 단일 소프트웨어가 아니라 복잡한 문제를 해결하는 소프트웨어 구조의 개념입니다.
이 프레임워크 안에는 각각의 단일 기능을 수행하는 별도의 소프트웨어들이 존재하며 이 소프트웨어들은 유기적으로 데이터를 수집하고 저장하고 관리합니다.
빅데이터는 3V라는 특징이 있다는 것에 대해서 설명해 드렸습니다.
3V는 – Volume, Variety, Velocity 라고 말씀드렸던것 기억하실겁니다.
이러한 특징을 가진 데이터를 처리하는 시스템을 빅데이터처리시스템이라고 합니다. 그렇다면 이런 시스템은 어떤 특징이 있을까요?
대량의 데이터를 처리할 수 있는 것은 당연한 조건이죠. 그러기 위해서 사용하는 시스템이 분산파일시스템입니다.
대형 병원의 교양 세미나에서 발표한 자료입니다.
이미 기술 지식은 충분하셨고 사례를 많이 궁금해 하셨습니다. 그래서 제 경험을 통해 얻었던 인사이트를 많이 나누었습니다. 하지만 의료현장은 플랫폼이나 기술보다는 의료기기로 접근하지 않으면 사용되기 힘들다는 생각이 들었습니다.
빅데이터 처리시스템의 정의는 무엇이라고 할 수 있을까요?
간단히 정의하면 빅데이터 처리시스템은 “대량의 데이터를 분산 병렬 처리하고 관리하는 시스템” 이라고 할 수 있습니다.
여기서 중요한 것이 분산 병렬처리와 프레임워크 라는 말입니다.
먼저 프레임워크라는 말의 정의를 살펴보겠습니다.
빅데이터를 위한 프레임워크는 단일 소프트웨어가 아니라 복잡한 문제를 해결하는 소프트웨어 구조의 개념입니다.
이 프레임워크 안에는 각각의 단일 기능을 수행하는 별도의 소프트웨어들이 존재하며 이 소프트웨어들은 유기적으로 데이터를 수집하고 저장하고 관리합니다.
빅데이터는 3V라는 특징이 있다는 것에 대해서 설명해 드렸습니다.
3V는 – Volume, Variety, Velocity 라고 말씀드렸던것 기억하실겁니다.
이러한 특징을 가진 데이터를 처리하는 시스템을 빅데이터처리시스템이라고 합니다. 그렇다면 이런 시스템은 어떤 특징이 있을까요?
대량의 데이터를 처리할 수 있는 것은 당연한 조건이죠. 그러기 위해서 사용하는 시스템이 분산파일시스템입니다.
첫 강의는 빅데이터를 들어가기에 앞서 “데이터가 무엇인가”에 대해서 알아보고 다음으로 빅데이터는 무엇인가에 대해서 배우고 이어서 빅데이터를 처리하는 기술에는 무엇이 있는지 알아보겠습니다.
빅데이터는 기존의 데이터 시스템으로는 다룰 수 없는 큰 데이터이기 때문에 빅데이터를 처리하기 위해서는 새로운 기술이 필요합니다.
이러한 데이터 처리기술은 무엇이 있는가를 4,5강에 이어서 배워보도록 하겠습니다.
6강에서는 가상화에 대해서 간단히 알아보고 최근 많은 분야에서 사용되고 있는 도커를 설치해서 하둡과 스파크 솔루션을 설치하는 방법을 배워보도록 하겠습니다.
10강에서는 데이터 분석을 하는데 어떤 방법으로 해야하는가에 대한 방법론을 소개해드리겠습니다.
11, 12강에서는 최근 많이 들어보셨을 4차 산업혁명, 인공지능에 대해서 살펴보고 이런 것이 빅데이터와 어떤 관계가 있는가를 알아보겠습니다.
분산 시스템의 가장 큰 목적이 있다면 바로 자원의 공유입니다.
자원을 공유하게 됨으로 하나의 일을 여러 시스템에서 분산해서 처리할 수 있는 장점이 있습니다. 또 하나의 시스템에서 할 일을 여러 시스템에서 나눠서 처리하게 되니까 연산 속도도 향상됩니다.
그리고 시스템의 신뢰도가 높아집니다.
왜 그럴까요? 만약 하나의 시스템에서 일을 처리하게 된다면 그 시스템이 어떤 장애나 문제로 인해서 다운되면 전체 서비스가 같이 다운됩니다.
하지만 하나의 일을 다른 시스템에서 분산해서 처리하게 되면 한 시스템의 장애 시에 그 일을 네트워크 상의 다른 시스템에서 처리하게 되니까 그만큼 시스템의 신뢰도가 높아지는 특징이 있습니다.
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅데이터의 개념과 활용사례
R을 이용한 워드클라우드 만들기
(5페이지의 링크가 사이트 상에서 에러로 같은 링크로 들어가 지는데
다운로드 해서 들어갈 경우 제대로 된 링크로 연결됩니다.)
발표 영상 : https://youtu.be/HNJ61BlKOqU
프로그래밍 영상 : https://youtu.be/bpzQ3QBOmhw
KISTI 계산과학공학센터에서 2017년 4월에 발표한 자료입니다. 오픈사이언스와 연구데이터, 빅데이터, 과학데이터, 데이터과학자에 대한 내용을 담고 있습니다.
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행하는 센터에서 인사이트를 가져사겼길 바랍니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
첫 강의는 빅데이터를 들어가기에 앞서 “데이터가 무엇인가”에 대해서 알아보고 다음으로 빅데이터는 무엇인가에 대해서 배우고 이어서 빅데이터를 처리하는 기술에는 무엇이 있는지 알아보겠습니다.
빅데이터는 기존의 데이터 시스템으로는 다룰 수 없는 큰 데이터이기 때문에 빅데이터를 처리하기 위해서는 새로운 기술이 필요합니다.
이러한 데이터 처리기술은 무엇이 있는가를 4,5강에 이어서 배워보도록 하겠습니다.
6강에서는 가상화에 대해서 간단히 알아보고 최근 많은 분야에서 사용되고 있는 도커를 설치해서 하둡과 스파크 솔루션을 설치하는 방법을 배워보도록 하겠습니다.
10강에서는 데이터 분석을 하는데 어떤 방법으로 해야하는가에 대한 방법론을 소개해드리겠습니다.
11, 12강에서는 최근 많이 들어보셨을 4차 산업혁명, 인공지능에 대해서 살펴보고 이런 것이 빅데이터와 어떤 관계가 있는가를 알아보겠습니다.
분산 시스템의 가장 큰 목적이 있다면 바로 자원의 공유입니다.
자원을 공유하게 됨으로 하나의 일을 여러 시스템에서 분산해서 처리할 수 있는 장점이 있습니다. 또 하나의 시스템에서 할 일을 여러 시스템에서 나눠서 처리하게 되니까 연산 속도도 향상됩니다.
그리고 시스템의 신뢰도가 높아집니다.
왜 그럴까요? 만약 하나의 시스템에서 일을 처리하게 된다면 그 시스템이 어떤 장애나 문제로 인해서 다운되면 전체 서비스가 같이 다운됩니다.
하지만 하나의 일을 다른 시스템에서 분산해서 처리하게 되면 한 시스템의 장애 시에 그 일을 네트워크 상의 다른 시스템에서 처리하게 되니까 그만큼 시스템의 신뢰도가 높아지는 특징이 있습니다.
2018년 7월 5일에 있었던 한국인터넷거버넌스포럼(KrIGF)에서 발표한 "오픈 데이터와 인공지능" 발표자료입니다.
다음과 같은 내용을 담고 있습니다.
* 오픈데이터의 정의
* 오픈데이터의 중요성
* 인공지능
* 인공지능에서 데이터의 중요성
* 제한된 데이터 환경에서의 문제점
* 인공지능을 위한 오픈데이터의 중요성
* 더 나은 인공지능 시대를 위한 제언
빅데이터의 개념과 활용사례
R을 이용한 워드클라우드 만들기
(5페이지의 링크가 사이트 상에서 에러로 같은 링크로 들어가 지는데
다운로드 해서 들어갈 경우 제대로 된 링크로 연결됩니다.)
발표 영상 : https://youtu.be/HNJ61BlKOqU
프로그래밍 영상 : https://youtu.be/bpzQ3QBOmhw
KISTI 계산과학공학센터에서 2017년 4월에 발표한 자료입니다. 오픈사이언스와 연구데이터, 빅데이터, 과학데이터, 데이터과학자에 대한 내용을 담고 있습니다.
공학, 의료영상, 자연과학 및 산업분야에서 제기되는 문제를
수리모델링-시뮬레이션-시각화과정을 통하여 예측/분석, 사용자에게 효율적인 프로그램 개발, 산업화에 이르기까지
다단계 연구를 종합적으로 수행하는 센터에서 인사이트를 가져사겼길 바랍니다.
본 자료는 빅데이터를 분석하는 전반적인 과정에 대해 정리한 자료로써 사회과학을 포함한 다양한 영역(컴퓨터 공학, 통계학, 수학 등)이 분석 과정에 참여할 수 있는지를 정리한 자료이다. 분석 과정 세부 영역에 있어선 주로 사회과학의 관점에서 기술하였다. 현재 자료는 2010년부터 사회과학의 관점에서 데이터 분석을 계속 해오면서 경험한 부분과 문헌 및 발표 자료 등을 통해 정리한 자료이다. 앞으로 여러 영역을 공부하면서 빅데이터 분석 프로세스를 더욱 발전시켜 나갈 예정이다.
[KERIS 이슈리포트] 요약 세미나 (Webinar) 자료
* 원문 링크: http://bit.ly/196LHBs
국내외 빅데이터 및 학습 분석 관련 기고서들과 동향 분석자료를 요약한 이슈리포트. UNESCO Policy Brief와 IMS Global의 백서를 중심으로 학습 분석 기술의 활용가능성과 쟁정들을 분석한 자료.
<주요>
1. 빅데이터 기술 및 산업 동향
2. 학습 분석 기술에 대한 이해
3. 학습 분석 기술 표준화 동향
4. 시사점
1. 빅데이터의 이해 :
데이터 사이언스와 인문학적 통찰력
학습목표
○ 빅데이터와 데이터 사이언스에 대하여 정확히 이해하고 왜 인문학적 통
찰력이 필요한가에 대하여 알아가는 것을 목표로 한다.
빅데이터 데이터 사이언스
인문학 통찰력
재료 ·자료 ·논거(論據)라는 뜻인 datum의 복수형이다. 컴퓨터 용어로는 정보를 작성하기 위해 필요한 자료를 뜻한다. 그 자체는 단순한
사실에 불과하지만, 컴퓨터에 의해서 일정한 프로그램에 따라 처리되어 특정한 목적에 소용되는 정보를 만들어낸다..
실험과 같이 검증된 방법으로 얻어 낸 자연계에 관한 체계적 지식 체계
인문학은 근대과학에 대해 그 목적과 가치를 인간적 입장에서 규정하는, 인간과 인류 문화에 관한 모든 정신과학을 통칭하여 일컫는다.
꿰뚫어 보는 직관
3. Data의 정의
“ Data are values of qualitative or
quantitative variables, belong to a
set of items.”
Set of items : Sometimes called the population; the set of objects you are interested in.
Variables : A measurement or characteristic of an item
Qualitative : Country of origin, sex, treatment...
Quantitative : Height, weight, blood pressure...
4. Set of Item
Oxford 대사전 : 추론과 추정의 근거를 이루는 사실
데이터를 단순한 객체로서 가치뿐 아니라 다른 객체와의 상호 관계 속에서 가치를 갖는 것
존재적 특성
객관적 사실(fact, raw material)
당위적 특성
추론, 예측, 전망 추정을 위한 근거
5. 존재적 특성
존재적 특성에는 정성적 데이터(qualitative data) 와 정량적 데이터
(quantitative data) 로 구분한다.
정성적 데이터 : 언어, 문자 등으로 이루어짐 – 오늘 날씨가 좋다
정량적 데이터 : 수치, 도형, 기호 등으로 이루어짐 – 나이, 몸무게
6. 당위적 특성
우리의 인식체계에서 어떤 사실에 대해 “데이터”라고 인식하게 되는 객체가
가지고 있는 존재 목적.
수요조사, 실험 검사 측정 등을 통해 데이터를 수집 축적 다양한 방법으로 분석 하여 논문 예
측 경영전략 정책을 수립하는 일련의 가치 창출.
암묵지 형식지
경험을 통해
습득된 무형의
지식
형상화된 지식
7. The data is the second most important thing
The most important thing in data science is the question
The second most important is data
Often the data will limit or enable the question
But having data can’t save you if you don’t have a question
9. 데이터베이스
동시에 복수의 적용 업무를 지원할 수 있도록 복수 이용자의 요구에 대응해서 데
이터를 받아 들이고 저장, 공급하기 위하여 일정한 구조에 따라서 편성된 데이터
의 집합
히스토리
1950년대 미국 군수목적으로 데이터의 기지라는 이름으로 개념 출발
1960년대 디지털 컴퓨팅 발달로 계층구조의 데이터베이스 탄생
1970년대 관계형 데이터베이스 이론 (코드-1981 튜링상)
1980년대 관계형 데이터베이스 시스템 출시
1990년대 ~ 현재 관계형 데이터베이스 시스템 전성기(SQL등장)
2010년대 big data이론의 대두로 NoSql 기반의 데이터 베이스 시스템 탄생
10. 데이터베이스 ACID 이론
원자성(Atomicity) : 트랜잭션의 처리는
완전히 끝마치지 않을 경우에는 전혀
이루어지지 않은 것과 같아야 한다.
이러한 특성을 All or Nothing"이라 한다.
일관성(Consistency) : 트랜잭션들간의
영향이 한 방향으로만 전달되어야 한다.
고립성(Isolation) : 트랜잭션의 부분적인
상태를 다른 트랜잭션에 제공해서는 안된다.
지속성(Durability) : 성공적인 트랜잭션의
수행 후에는 반드시 데이터베이스
(디스크)에 반영하여야 한다.
11. Big Data 처리의 문제점
왜 데이터는 갑자기 커졌을까(INPUT)?
데이터의 처리는(OUTPUT)?
12. CAP 이론
2000년 에릭 브루어(Eric Brewer)가 주창한 이론으로, CAP정리(CAP Theorem),
혹은 브루어 정리(Brewer’s theorem) 등으로 불리운다. 주요 내용은 분산 컴퓨
터 시스템에서, 분산된 시스템이 가지는 세가지 특성을 동시에 충족시키는 것
은 불가능하며, 이 중 두가지만을 취할 수 있다는 것을 정리한 내용이다
일관성 (Consistency)
각각의 사용자가 같은 데이터를 볼 수 있다 = 모든 노드가 같은 시간에 같은 데이터를 보여줘야 한다.
가용성 (Availability)
모든 사용자가 항상 읽고 쓸 수 있다 = 몇몇 노드가 다운되어도 다른 노드들에게 영향을 주지 않아야
한다.
분단가용성 (Partition Tolerance)
물리적으로 분리된 분산 환경에서도 작동한다 = 일부 메시지를 손실하더라도 시스템은 정상 동작을
해야 한다.
13. CAP 이론
CP 분류 (동일성 + 생존성 = 모든 노드가 함께 퍼포먼스를 내야하는 성능형)
AP 분류 (독립성 + 생존성 = 비동기화된 서비스 스토어에 적합)
14. NoSql
Not-Only-SQL 빅데이터 분산처리 및 저장 기수로가 함께 발달된 분산 데이터
베이스 기술
Key-Value : 가장 기초적이며 다른 데이터 모델의 기본이 됨. Dynamo, Redis
Ordered KeyValue : 키밸류 모델에 데이터간 연속성을 더해 스캔에 힘을 더함. BerkeleyDB
Big Table : 순차적 키밸류 모델에 데이터 모델링이 가능하도록 변경된 모델 : Hbase
Documnet : 오브젝트형 이 NoSql형태로 파생 오브젝트대신 XML,JSON등 문서형 사용
: MongoDB, Cloudant
21. Big Data가 변화시킨 것들
사전처리 사후처리(표준화된 문서포맷)
표본조사 전수조사(잉여력)
질 양(번역시스템)
인과관계 상관관계(Aviva)
22. Ice Break
다음중 Big Data라고 생각되는 것은
어느 것 일까요?
미의회
도서관 자료
한국고용정보원
자료
Twitter
자료
23. Hype Cycle
1995년부터 정보 테크놀러지 전문업체 가트너에 의해 제창된 개념으로서 새로운
테크놀러지의 특성을 시간에 따라 변이되는 다섯 가지 단계로 표현한 것이다.
이는 전 세계 적으로 널리 알려져서 현재 새로운 테크놀러 지가 등장한 경우 그 새
로운 테크놀러지의 전반적인 예측방향을 논할 때 주로 참조되고 있으며, 업계 표준
의 테크놀러지에 대한 시간대적 특성 단계 표현 툴이다.
1단계 Technology Trigger - 촉발된 테크놀러지
2단계 Peak of Inflated Expectation - 기대치의 피크
3단계 Trough of Disillusionment) - 각성의 골
4단계 Slope of Enlightenment - 완만한 개화
5단계 Plateau of Productivity - 안정적 생산성
33. 예측을 위한 주요 요소
질문 데이터 선정 측정 알고리즘 요인들 평가
무엇을 예측 할 것이며 무엇을 가지고 예측하려 하는가?
예측하기 위한 최선의 데이터를 선정해야 한다.
적용할 알고리즘 결정
알고리즘에 들어갈 Parameters들을 결정
새로운 데이터 셋을 넣어 알고리즘에 대한 평가
34. 미래의 빅데이터
데이터 : 모든 것의 데이터화
기 술 : 진화하는 알고리즘
인 력 : 데이터 사이언티스트, 알고리즈미스트