Data Science
조명대
(서울대 융합과학기술대학
원)
ü  다양하게 바라보라
ü  원본이냐 복제냐 It doesn’t matter?
ü  사용하고 또 사용하라
ü  어차피 보는 사람의 마음에서 모든 조합을 한
다
ü  내 생각을 강요하지 마라
ü  예술품의 모듈화
ü  기술의 모듈화
ü  잘게 나누어 재조합해서 주관적으로 보게도
하라
ü  수동정형화 -> 스스로 다변화된 지식 창조하
는 플랫폼방식으로의 패러다임 변화
ü  따라서 데이터를 용도에 따라 다양한 형태로
활용할 수 있는 능력을 기르자.
ü  http://videocooki.com
인간 표현 욕구의 인지적 변화: 예술작품 vs 데이터
Data Science 모델 (i)
구조화
(Unadulterated) Raw Data
Database Ontology Network 모델
분석 / 의미추출 / Creative Thinking
데이터를 저장하고
잘 간추려서
풀어내고 (분석하고)
(사고) 확장 시키고
창조적인 생각 가능하게
창의적 융합 능력을 배양하게 해주
는
상생의 데이터생태계 /플랫폼
Associative연결 패턴화
추상화 개념화→
Value
새로운 가치/질서에 따라 다시 형상화
질서
무질서
문제점파악 개념적모델→→
웹을 만나 공유/공개
Integration / Linked Data / Visualization / Data Storytelling
Think
Flow
Innovative
Creativity
Data
Informatio
n
Knowledg
e
Think
Information
Information in CONTEXT
Knowledge
Think
Very Dirty Data
Data
DIKT - 창조적인 생각
ü  추상할 수 있는 능력이 바로 그 첫걸음
이다.
창조의 종류
가치 / 감성 / 창의성 중심
•  추상: 뽑을 抽 이미지 象
•  핵심을 뽑아내고 본질을 간추리는 능력
추상이란?
•  세상은 복잡하고 방대하지만
추상은 간추리고 / 연역은 풀어낸다
•  이렇게 지식이 만들어지고 (웹의 등장으로) 계통
이 넓어져서 새로운 데이터 중심의 학문의 세계가
펼쳐진다.
•  Data Science
–  Making big data Small
ü 무질서/ 혼잡 -> 질서
ü 새로운 데이터 분석을 요구한다
ü  살아있는 인간을 중심에 둔 '의미의 귀환
1. 융합형 창조
문제점 파악
추상
다양한 Interface
사고의 확
장
융합형 창
조
- 답을 찾게 하자
- 질문하고, 풀어나가면서 사고의 확장
- 창의성 개발
1차왕자
의 난
가해자?
피해자?
그 당시의 정승은?일어난 장소?
다음 사건?
의문의 창출(사고의 확장)
철학에서
의 추상
과학에
서의 추
상
예술에서
의 추상
문학에
서의 추
상
수학에서
의 추상
ü 융합은 다른 것을 다르게 보는
•  인터페이스를 어디에 어떻게 둘 것인가에 따라 융합형 창
조의 모습이 달라질 수 있다.
•  서로 다름을 인정할 수 있는 마음과 다른 곳에서 바라볼
수 있는 능력배양
•  전문성의 경계를 넘나들 수 있는 능력
•  조직적인 연습이 필요하다
•  A third culture
•  아이디어는 하나의 개체가 아니다. 그 보다는 하나의 무리에 가깝다
•  집단지성 중, 구성원들의 ‘의도적인’ 협력에 의해서 이루어지는 창조
•  유동적 네트워크: 자유로운 공간에서 넘치는 정보를 공유하라
•  혁신은 현미경이 아니라 회의테이블에서 시작된다. ( Show & Tell)
•  네트워크는 붐벼야 한다.
2. 군집형 창조
"  세종대왕
피카소
"  Edison
"  Tim Berners-Lee
" 라이너스 토발즈
"  강남스타일
" 엘비스 프레슬리
"  윤영민 이영환 김학래 송인혁 노지훈
통념/기존 관념의 배반자들
"  사대주의가 팽배하던 그 시절 ...
"  " ... 오랑캐의 글을 만드시렵니까?"
"  기존의 질서: 명나라
"  아마 세종은 적어도 동양의 문자를 참조했을 것이다.
"  이 점이 이들의 천재성을 보여준다 / 세계의 문명을 비빔밥처럼
섞고 녹이고 빌려서 우리말을 완벽하게 표기하는 가장 완벽한
글로 재창조
세종대왕과 집현전 학사
Picasso
•  피카소는 있는 그대로 그
리지 않는다. 강조 및 과감
한 생략으로 특정 요소만
을 뽑아내서 그렸기 때문
에 추상화가이다.
•  Cubism
•  추상화가
“천재는 1프로의 영감과 99프로의 노력으로 이루어진다
”
•  이 말은 과학지식의 부족으로 비합리적인 방법을
사용했던 에디슨이 테슬라의 조롱을 전해 듣고 반
격하여 한 말이다. 그러나 이론적으로는 테슬라가
옳다.
•  에디슨이 말한 1프로의 영감도 패턴인식을 활용
한다는 점에서 연역추론에 해당된다. 귀납은 보조
수단에 불과하다.
•  그러나, 사업가로는 에디슨이 성공했다. (왜? Sw
arm creativity를 활용)
–  Menlo Park / William Hammer, Charles Hammer
•  CERN
•  새로운 정보 조직법의 필요성 절감
(서로 다른 데이터 포맷, 서로 다른 OS 등)
•  Vague, but exciting!
•  인터넷 플랫폼의 개방된 프로토콜 위에서 자유롭게 작업
•  url, http, html
•  COIN형성 (Dan Connolly, Pei-Yuan Wei 등)
•  Browser? Marc Andreeseen’s Mosaic
(Ian Richie 의 유명한 이야기) /
http://www.ted.com/talks/ian_ritchie_the_day_i_turned_down_tim_berners_lee.html
•  Mash up의 대가/ Bush+Englebert+Nelson
•  www/ W3C / Linked Data
Tim Berners-Lee
강남스타일
- Crowd Sourcing
- Open
"  
엘비스 프레슬리
Forrest Gump
•  윤영민
–  정보사회학 페이지 / 신뢰형성 / boundless
•  이영환
–  Productive Analytics and Big Data 그룹 / Civic Action
•  김학래
–  OKF Korea organizer / 수많은 Hackerthon
•  송인혁
–  스파크 저자 및 TED 전도사
•  노지훈
•  - Prezi 소개 및 전파 /
=> Creativity형성에 큰 역할
COINs
3.진화형 창조
스티븐 존슨: 아이디어는 어느 순간에 반짝 생각나는 것이 아니라
시간이 흐르면서 진화하고 발전해 나간다.
4.연결형 창조
천천히 진화하여 새로운 연결을 만든다
아이디어를 보호하는 것이 아니라 연결함으로써 더 나은 것을 얻을 수 있다.
좋은 아이디어는 연결, 융합, 재결합을 필요로 한다.
개념적인 경계를 가로지르면서 재발명된다.
4.연결형 창조 (ii)
그리거슨 교수는 저서 ‘이노베이터 DNA’
혁신적인 리더들에게 발견되는 다섯 가지
능력
- 연관되는 주제를 연결하기
- 자주 질문하기
- 심도 있게 관찰하기
- 다양한 그룹의 사람들과 소통하기
- 끊임없이 실험하기
•  다른 사람이 알고 있는 것을 재빨리 동기화
–  Royal Society
–  학회설립
–  책은 느리다 / 학회지발간하자
–  1665 Philosophical Transaction
Invisible College 형성
•  다른 사람이 알고 있는 것을 재빨리 동기화하자
•  2012 Dialog 2권
–  The third place / The third culture
–  정보사회학 페이지 / 예측분석 및 빅데이터 그룹
–  데이터사이언스 학회 설립
–  책은 느리다 / 학회지발간
이제 SN Invisible College 형성됨
학회 모델 (송영우 모델)
Small Data
Big Data
Social Data
Open Data
연구/개발
교육 활용
정책/제도
학회
시민
기업활동/NGO
대정부활동
(지방자치단체)
학교/학계/연구소
국내
해외
Data S
cience
Math
Statistics
Advanced
Computing
Visualization
Hacker
Mindset
Sociology
Information S
cience
Domain
Expertise
Data Engine
ering
Medical
Healthcare
Data Science 모델 (ii)
- 데이터를 대용량으로 저장할 줄 안다
- Data Integration, Data Aggregation 할 줄 안다
- 알맞은 질문을 던져 데이터를 얻어내 분석할 줄 안다
- 아이디어를 키워낼 줄 안다
- 데이터 관리와 유지를 할 줄 안다
⇒ 데이터를 모으고, 정렬하고, 저장하고, 가공하고, 정제하
고, 분석하고, 탐구하고, 시각화하고, 공유하고, 의미를 발굴
예) Palantir: 빅 데이터 활용하여 금융사기 및 테러범 검거
에 사용 (http://en.m.wikipedia.org/wiki/Palantir_Technologies)
(http://www.palantir.com/)
Data Scientist
- Are you interested in how things are related with each oth
er?
- Do you want to analyse trends and correlations in RDF da
ta?
- faceted exploration of RDF data by representing facets as
nodes in a graph visualization
- known interaction concepts to allow hierarchical faceted e
xploration of RDF data.
Data Scientist (ii)
•  Don’t be a STAR, be a GALAXY
•  아낌없는 나눔
•  협업을 통한 끊임없는 노력
•  TED-like Presentation
•  Exponential.ly-like small meet up
•  Start-up Community 지원
운영의 핵심
•  교학상장 (敎學相長)
•  준비된 Database Nation(Garfinkel, 2008)
•  Data-driven Innovation 추구
•  새로운 정보생태계/플랫폼 확립의 초석
•  새로운 과학적 연구방법론 대안제시
Vision
•  정치권력의 소재와 성격
–  국가 전반의 데이터 활용 체계 확립
–  공공정보 개방과 공유
•  사회 조직의 이노베이션
•  기업과 공공 기관의 구조와 업무과정
–  제품과 서비스 등에 광범위한 변화 (Zappos 등)
–  전략수립, 의사결정, 프로세스 최적화 (Process Innovation 3.0),
–  똑똑한 기업 (Smart Enterprise)
전망
•  다양한 융복합시도
–  인식의 전환과 함께 법제도의 개선
•  Open data policy 도입 지속적인 촉구
•  Best Practices 발굴 및 확산 (예:U-healthcare)
•  데이터 수집, 관리, 분석 및 활용 기술의 개발과 확산
–  Data Scientist, Modeller, Data Journalist 육성 프로그램
•  데이터 사이언스 모델 진화… 발전 … 영역간 협조유도
•  Solution Consulting / ASP 컨설팅 (Analytics Strategic Planning)
•  데이터 사이언스의 제도화
•  해외 관련 기관, 단체 및 전문가와의 교류
•  지속적인 Hackerthon, meetup 유치 지원 (장소, 재원)
학회 구체적활동
•  오픈데이터(Open Data)
•  링크드데이터(Linked Data, Linked Open Data)
•  소셜네트워크분석(SNA)
•  시민참여(Civic Engagement)
•  고객참여(Customer Engagement)
•  Smart Government / Smart Enterprise)
•  이노베이션(Innovation)
•  정보보호(Information Security)
•  프라이버시(Privacy)
•  자유(Freedom)
구체적영역
모임의 해외사례
Start-up Community
Chance to kickback, learn, be inspired and connect with like-mind
ed people
•  군자는 서로 다른 소리를 모아서 위대한 지휘자처
럼 위대한 화음을 만들어 낸다. 하지만 같음을 강요
하지는 않는다.
화이부동(和而不同)하자
•  교학상장 (敎學相長)
–  화합하려면 상대방을 인정.
–  상대방은 나와 다른 사람이라는 것을 전제.
–  화합은 다양성을 인정하는 것을 기본.
–  추구하는 목적이 다르기 때문에 데이터를 다양하게 바라
보게하자.
–  그렇게 놀 수 있는 데이터 플랫폼을 만들자

Data science (조명대)

  • 1.
  • 2.
    ü  다양하게 바라보라 ü 원본이냐 복제냐 It doesn’t matter? ü  사용하고 또 사용하라 ü  어차피 보는 사람의 마음에서 모든 조합을 한 다 ü  내 생각을 강요하지 마라 ü  예술품의 모듈화 ü  기술의 모듈화 ü  잘게 나누어 재조합해서 주관적으로 보게도 하라 ü  수동정형화 -> 스스로 다변화된 지식 창조하 는 플랫폼방식으로의 패러다임 변화 ü  따라서 데이터를 용도에 따라 다양한 형태로 활용할 수 있는 능력을 기르자. ü  http://videocooki.com 인간 표현 욕구의 인지적 변화: 예술작품 vs 데이터
  • 3.
    Data Science 모델(i) 구조화 (Unadulterated) Raw Data Database Ontology Network 모델 분석 / 의미추출 / Creative Thinking 데이터를 저장하고 잘 간추려서 풀어내고 (분석하고) (사고) 확장 시키고 창조적인 생각 가능하게 창의적 융합 능력을 배양하게 해주 는 상생의 데이터생태계 /플랫폼 Associative연결 패턴화 추상화 개념화→ Value 새로운 가치/질서에 따라 다시 형상화 질서 무질서 문제점파악 개념적모델→→ 웹을 만나 공유/공개 Integration / Linked Data / Visualization / Data Storytelling
  • 4.
  • 5.
    Information Information in CONTEXT Knowledge Think VeryDirty Data Data DIKT - 창조적인 생각
  • 6.
    ü  추상할 수있는 능력이 바로 그 첫걸음 이다. 창조의 종류 가치 / 감성 / 창의성 중심
  • 7.
    •  추상: 뽑을抽 이미지 象 •  핵심을 뽑아내고 본질을 간추리는 능력 추상이란?
  • 8.
    •  세상은 복잡하고방대하지만 추상은 간추리고 / 연역은 풀어낸다 •  이렇게 지식이 만들어지고 (웹의 등장으로) 계통 이 넓어져서 새로운 데이터 중심의 학문의 세계가 펼쳐진다. •  Data Science –  Making big data Small ü 무질서/ 혼잡 -> 질서 ü 새로운 데이터 분석을 요구한다 ü  살아있는 인간을 중심에 둔 '의미의 귀환
  • 9.
    1. 융합형 창조 문제점파악 추상 다양한 Interface 사고의 확 장 융합형 창 조 - 답을 찾게 하자 - 질문하고, 풀어나가면서 사고의 확장 - 창의성 개발
  • 10.
    1차왕자 의 난 가해자? 피해자? 그 당시의정승은?일어난 장소? 다음 사건? 의문의 창출(사고의 확장)
  • 11.
    철학에서 의 추상 과학에 서의 추 상 예술에서 의추상 문학에 서의 추 상 수학에서 의 추상 ü 융합은 다른 것을 다르게 보는
  • 12.
    •  인터페이스를 어디에어떻게 둘 것인가에 따라 융합형 창 조의 모습이 달라질 수 있다. •  서로 다름을 인정할 수 있는 마음과 다른 곳에서 바라볼 수 있는 능력배양 •  전문성의 경계를 넘나들 수 있는 능력 •  조직적인 연습이 필요하다 •  A third culture
  • 13.
    •  아이디어는 하나의개체가 아니다. 그 보다는 하나의 무리에 가깝다 •  집단지성 중, 구성원들의 ‘의도적인’ 협력에 의해서 이루어지는 창조 •  유동적 네트워크: 자유로운 공간에서 넘치는 정보를 공유하라 •  혁신은 현미경이 아니라 회의테이블에서 시작된다. ( Show & Tell) •  네트워크는 붐벼야 한다. 2. 군집형 창조
  • 14.
    "  세종대왕 피카소 "  Edison " Tim Berners-Lee " 라이너스 토발즈 "  강남스타일 " 엘비스 프레슬리 "  윤영민 이영환 김학래 송인혁 노지훈 통념/기존 관념의 배반자들
  • 15.
    "  사대주의가 팽배하던그 시절 ... "  " ... 오랑캐의 글을 만드시렵니까?" "  기존의 질서: 명나라 "  아마 세종은 적어도 동양의 문자를 참조했을 것이다. "  이 점이 이들의 천재성을 보여준다 / 세계의 문명을 비빔밥처럼 섞고 녹이고 빌려서 우리말을 완벽하게 표기하는 가장 완벽한 글로 재창조 세종대왕과 집현전 학사
  • 16.
    Picasso •  피카소는 있는그대로 그 리지 않는다. 강조 및 과감 한 생략으로 특정 요소만 을 뽑아내서 그렸기 때문 에 추상화가이다. •  Cubism •  추상화가
  • 17.
    “천재는 1프로의 영감과99프로의 노력으로 이루어진다 ” •  이 말은 과학지식의 부족으로 비합리적인 방법을 사용했던 에디슨이 테슬라의 조롱을 전해 듣고 반 격하여 한 말이다. 그러나 이론적으로는 테슬라가 옳다. •  에디슨이 말한 1프로의 영감도 패턴인식을 활용 한다는 점에서 연역추론에 해당된다. 귀납은 보조 수단에 불과하다. •  그러나, 사업가로는 에디슨이 성공했다. (왜? Sw arm creativity를 활용) –  Menlo Park / William Hammer, Charles Hammer
  • 18.
    •  CERN •  새로운정보 조직법의 필요성 절감 (서로 다른 데이터 포맷, 서로 다른 OS 등) •  Vague, but exciting! •  인터넷 플랫폼의 개방된 프로토콜 위에서 자유롭게 작업 •  url, http, html •  COIN형성 (Dan Connolly, Pei-Yuan Wei 등) •  Browser? Marc Andreeseen’s Mosaic (Ian Richie 의 유명한 이야기) / http://www.ted.com/talks/ian_ritchie_the_day_i_turned_down_tim_berners_lee.html •  Mash up의 대가/ Bush+Englebert+Nelson •  www/ W3C / Linked Data Tim Berners-Lee
  • 19.
  • 20.
  • 21.
    •  윤영민 –  정보사회학페이지 / 신뢰형성 / boundless •  이영환 –  Productive Analytics and Big Data 그룹 / Civic Action •  김학래 –  OKF Korea organizer / 수많은 Hackerthon •  송인혁 –  스파크 저자 및 TED 전도사 •  노지훈 •  - Prezi 소개 및 전파 / => Creativity형성에 큰 역할 COINs
  • 22.
    3.진화형 창조 스티븐 존슨:아이디어는 어느 순간에 반짝 생각나는 것이 아니라 시간이 흐르면서 진화하고 발전해 나간다.
  • 23.
    4.연결형 창조 천천히 진화하여새로운 연결을 만든다 아이디어를 보호하는 것이 아니라 연결함으로써 더 나은 것을 얻을 수 있다. 좋은 아이디어는 연결, 융합, 재결합을 필요로 한다. 개념적인 경계를 가로지르면서 재발명된다.
  • 24.
    4.연결형 창조 (ii) 그리거슨교수는 저서 ‘이노베이터 DNA’ 혁신적인 리더들에게 발견되는 다섯 가지 능력 - 연관되는 주제를 연결하기 - 자주 질문하기 - 심도 있게 관찰하기 - 다양한 그룹의 사람들과 소통하기 - 끊임없이 실험하기
  • 25.
    •  다른 사람이알고 있는 것을 재빨리 동기화 –  Royal Society –  학회설립 –  책은 느리다 / 학회지발간하자 –  1665 Philosophical Transaction Invisible College 형성
  • 26.
    •  다른 사람이알고 있는 것을 재빨리 동기화하자 •  2012 Dialog 2권 –  The third place / The third culture –  정보사회학 페이지 / 예측분석 및 빅데이터 그룹 –  데이터사이언스 학회 설립 –  책은 느리다 / 학회지발간 이제 SN Invisible College 형성됨
  • 27.
    학회 모델 (송영우모델) Small Data Big Data Social Data Open Data 연구/개발 교육 활용 정책/제도 학회 시민 기업활동/NGO 대정부활동 (지방자치단체) 학교/학계/연구소 국내 해외
  • 29.
  • 30.
    - 데이터를 대용량으로 저장할줄 안다 - Data Integration, Data Aggregation 할 줄 안다 - 알맞은 질문을 던져 데이터를 얻어내 분석할 줄 안다 - 아이디어를 키워낼 줄 안다 - 데이터 관리와 유지를 할 줄 안다 ⇒ 데이터를 모으고, 정렬하고, 저장하고, 가공하고, 정제하 고, 분석하고, 탐구하고, 시각화하고, 공유하고, 의미를 발굴 예) Palantir: 빅 데이터 활용하여 금융사기 및 테러범 검거 에 사용 (http://en.m.wikipedia.org/wiki/Palantir_Technologies) (http://www.palantir.com/) Data Scientist
  • 31.
    - Are you interestedin how things are related with each oth er? - Do you want to analyse trends and correlations in RDF da ta? - faceted exploration of RDF data by representing facets as nodes in a graph visualization - known interaction concepts to allow hierarchical faceted e xploration of RDF data. Data Scientist (ii)
  • 32.
    •  Don’t bea STAR, be a GALAXY •  아낌없는 나눔 •  협업을 통한 끊임없는 노력 •  TED-like Presentation •  Exponential.ly-like small meet up •  Start-up Community 지원 운영의 핵심
  • 33.
    •  교학상장 (敎學相長) • 준비된 Database Nation(Garfinkel, 2008) •  Data-driven Innovation 추구 •  새로운 정보생태계/플랫폼 확립의 초석 •  새로운 과학적 연구방법론 대안제시 Vision
  • 34.
    •  정치권력의 소재와성격 –  국가 전반의 데이터 활용 체계 확립 –  공공정보 개방과 공유 •  사회 조직의 이노베이션 •  기업과 공공 기관의 구조와 업무과정 –  제품과 서비스 등에 광범위한 변화 (Zappos 등) –  전략수립, 의사결정, 프로세스 최적화 (Process Innovation 3.0), –  똑똑한 기업 (Smart Enterprise) 전망
  • 35.
    •  다양한 융복합시도 – 인식의 전환과 함께 법제도의 개선 •  Open data policy 도입 지속적인 촉구 •  Best Practices 발굴 및 확산 (예:U-healthcare) •  데이터 수집, 관리, 분석 및 활용 기술의 개발과 확산 –  Data Scientist, Modeller, Data Journalist 육성 프로그램 •  데이터 사이언스 모델 진화… 발전 … 영역간 협조유도 •  Solution Consulting / ASP 컨설팅 (Analytics Strategic Planning) •  데이터 사이언스의 제도화 •  해외 관련 기관, 단체 및 전문가와의 교류 •  지속적인 Hackerthon, meetup 유치 지원 (장소, 재원) 학회 구체적활동
  • 36.
    •  오픈데이터(Open Data) • 링크드데이터(Linked Data, Linked Open Data) •  소셜네트워크분석(SNA) •  시민참여(Civic Engagement) •  고객참여(Customer Engagement) •  Smart Government / Smart Enterprise) •  이노베이션(Innovation) •  정보보호(Information Security) •  프라이버시(Privacy) •  자유(Freedom) 구체적영역
  • 37.
  • 38.
    Start-up Community Chance tokickback, learn, be inspired and connect with like-mind ed people
  • 39.
    •  군자는 서로다른 소리를 모아서 위대한 지휘자처 럼 위대한 화음을 만들어 낸다. 하지만 같음을 강요 하지는 않는다. 화이부동(和而不同)하자 •  교학상장 (敎學相長) –  화합하려면 상대방을 인정. –  상대방은 나와 다른 사람이라는 것을 전제. –  화합은 다양성을 인정하는 것을 기본. –  추구하는 목적이 다르기 때문에 데이터를 다양하게 바라 보게하자. –  그렇게 놀 수 있는 데이터 플랫폼을 만들자