한국 정부는 최근 데이터 전문 인력 5만명을 양성한다는 정책을 발표하였다. 그러나, 국내는 각종 규제로 인하여 데이터 접근성이 부족할 뿐만 아니라 실제 현장에는 빅 데이터가 없어서 빅데이터 인력이 양성되어도 제대로 활용 수도 없고 빅데이터 산업이 성장할 발판이 없다.
카카오뱅크나 K뱅크와 같은 국내 인터넷 은행은 빅데이터 부족으로 인하여 기존 은행권 수준에서 신용도를 인정받지 못한 서민들에게 중금리 대출을 해주지 못하고 있다. 이에 반해, 중국 중국 알리바바그룹의 마이뱅트나 미국 캐피탈원은행 등은 방대한 빅데이터를 활용하여 서민과 영세자영업자 등에게 중금리 대출을 해주고 있어서 빅데이터 산업을 성장시키며 기존 금융권에서 혜택을 받지 못한 다수의 서민들에게 커다란 도움을 주고 있다.
빅데이터 분석을 통하여 우리는 미래를 보다 정확히 분석하고 평가하고 예측할 수 있다. 따라서, 빅데이터 산업이 활성화되면 고부가가치 미래 인력과 기업의 성장이 촉진될 뿐만 아니라 사회 전체의 생산성과 효율성이 증가하고 낭비 요인와 위험 요인을 감소시켜 더 안전한 사회가 된다.
데이터 분석은 과거부터 이루어져왔으나 보다 풍부해진 빅데이터를 활용하여 다각도 분석이 가능해진다. 또한, 빅데이터 분석에 딥러닝 등 진보된 분석 방법을 적용하여 기존의 방법으로 찾아내기 어려웠던 복잡한 규칙이나 정보를 정확히 분석해낼 가능성이 높아졌으며, 데이터 분포를 가정할 필요가 없이 대량의 테스트 데이터를 사용하여 분석 모델의 신뢰도를 뒷받침할 수 있다. 뿐만아니라 더 빠르고 저렴해진 컴퓨팅 자원을 사용하여 과거와는 질적 수준이 다른 빅데이터 분석이 가능해졌다..
금융 분야에서 빅데이터를 효과적으로 분석 하면 투자, 마케팅, 위험 관리 등 여러 측면에서 금융사와 고객 및 사회 전체에 이로움을 주며, 위험을 감소시킨다.
기존 금융권에서 대출받지 못하고 고금리 대출에 몰리는 서민들도 빅데이터 분석을 통하여 신용 평가가 가능해지고 중금리 대출로 구제받을 수 있는 길이 열리게 된다.
빅데이터 수집과 활용에 가장 큰 장애 요인 중 하나는 빅데이터 분석에 필요한 개인 정보의 엄격한 규제에 있다.
개인 정보의 위험과 가치는 정보의 종류, 활용 목적, 개인의 특성 등 다양한 요인에 따라 천차만별이며, 100% 완전한 보안이란 본래 불가능한 것이다.
따라서, 개인 정보의 가치와 위험은 획일적으로 평가할 수 없고 각 개인의 관점에서 그 개인 정보의 활용으로부터 얻어지는 이익이 개인 정보의 활용으로 인한 손해보다 커지게 하는 것이 최선이다.
이를 위해서 우리 사회는 데이터의 위험도를 낮추면서, 큰 위험과 작은 위험에 대한 사회적 기준을 제시하고, 개인 정보의 활용에 대한 정보 주체의 선택권을 높여줄 필요가 있다.
이를 위해서 우리도 외국처럼 가명화와 익명화를 활용하여 위험이 큰 개인 정보를 위험이 작은 정보로 바꾸면 개인 정보를 용이하게 이용할 수 있게 해주어야 하며, 개인 데이터에 대한 소유권을 개인에게 돌려 줄 필요가 있다.
또한, 위험이 큰 개인 정보의 활용에 대해서는 정보 주체인 개인의 허락을 필요로 하게 하지만, 위험이 작은 개인 정보에 대해서는 활용 거부에 대한 개인의 명시적 요구가 있지 않는 한 활용을 용이하게 하자는 것이다.
그리고, 이러한 개인 정보를 악용하는 경우 처벌과 단속을 강화함으로써 추가적으로 보호할 수 있다.
풍부한 빅데이터 환경이 되기 위해서는 데이터의 생성, 수집, 교환, 공유를 활성화할 필요가 있으며, 이를 위해서 데이터의 가치와 활용에 대한 사회적 인식 변화가 필요할 뿐만 아니라 개인 정보의 가치와 위험에 대한 정보, 의견을 객관적으로 수집, 평가, 공유하여 개인 정보에 대한 대중의 이해도 향상을 위한 중립적인 기구 및 제도가 필요하다.
1. 2018. 9. 4.
김덕태 (i@deogtae.com)
㈜디티웨어 대표 / 고등지능기술원 교수 / 성균관대학교 겸임 교수
2. 1/21고등지능기술원
산업 혁명의 핵심 추세
생산성, 자동화, 연결성의 증가
1차 혁명 (1784)
증기 기관. 기계에 의한 생산.
2차 혁명 (1870)
전기. 대량 생산
3차 혁명 (1969)
전자. IT
4차 혁명 (현재)
인공지능, 빅데이터, …
출처: 2016 세계경제포럼에서 스위스글로벌금융그룹(UBS)의 4차
산업혁명 백서
https://www.ubs.com/global/en/about_ubs/follow_ubs/highligh
ts/davos-2016.html
4차 산업혁명과 빅데이터
3. 2/21고등지능기술원
인공지능, 빅데이터
예: 데이터 분석, 인공지능 비서 등
로봇공학
예: 인공지능 로봇 등
무인 운송 수단
예: 무인 항공기, 무인 자동차
사물 인터넷
예: IoT, 스마트 홈
블록체인
안전하고 편리하고 광범위하게 데이터(가치)를 저장 및 공유
3D 프린팅
개인 맞춤 생산
나노 기술
바이오 기술
4차 산업 혁명의 주요 기술
4. 3/21고등지능기술원
다보스 포럼
2020년까지, 4차 산업혁명으로 인해 1300만명 중에서 710만개 일자리 감소,
210만개의 새로운 일자리 증가 (500만개 일자리 순감소)
“2016년 초등학교에 입학하는 어린이들의 65%는 현존하지 않는 새로운 직업을 가질
것“
유망한 직종
데이터 분석가, 전문화된 세일즈 부문이 가장 유망
재무 관리: 49만명 증가
경영: 42만명 증가
컴퓨터, 수학: 41만명 증가
판매 관련직: 34만명 증가
교육 및 훈련: 6.6만명 증가
감소할 직종 (기계로 대체)
사무행정직: 476만명 감소 (2/3 감소) – 반복적 업무
제조 및 생산: 161만명 감소
건설 및 채굴: 50만명 감소
술·디자인·환경·스포츠 및 미디어: 15만명 감소
출처: 2016년 세계경제포럼 "일자리의 미래(The Future of Jobs)" 보고서
http://www3.weforum.org/docs/WEF_Future_of_Jobs.pdf
일자리 전망
5. 4/21고등지능기술원
안철수 대선 후보의 '4차 산업혁명시대를 대비한 10만 양병'
공약
https://m.post.naver.com/viewer/postView.nhn?volumeNo=7349
698&memberNo=904209&vType=VERTICAL
데이터 전문인력 5만명 양성한다…국가기술자격증 신설 (2018-
08-31)
https://m.news.naver.com/read.nhn?mode=LSD&mid=sec&sid1=
105&oid=421&aid=0003565329
4차 산업혁명 전문인력 양성 정책 (1)
6. 5/21고등지능기술원
문제점
데이터 접근성 부족
각종 제한으로 인하여 데이터 접근성 부족
현장에 빅 데이터가 없다
진짜 전문가는 현장에서 미해결 과제에 도전하며 스스로 학습
시키는 대로 구현할 수 있는 인력은 교육으로 양성될 수 있지만, 5만, 10만 양병을 써먹을
곳이 없다.
빅데이터 분석을 위해서는 다음 조건이 필요
데이터의 다양성
대량의 데이터
데이터 활용 자유도 (내부 및 외부 데이터)
4차 산업혁명 전문인력 양성 정책 (2)
7. 6/21고등지능기술원
국내
카카오뱅크, K뱅크
빅데이터 부족으로 인한 부실한 신용 분석으로 서민들에게 중금리 대출 곤란
인터넷 은행의 경쟁력 약화
중국
중국 알리바바그룹의 마이뱅트 등
10만 여개의 빅데이터를 사용하여 인공지능을 이용해 3분 내에 신용분석
금융계정도 갖지 못했던 농어민 영세자영업자 등 약 2억 명에게
중금리대출을 하는 포용금융을 통해 빈곤을 획기적으로 타파
미국
캐피탈원은행
미국에서도 캘리포니아에서 점포 하나 없이 미국 10대 은행으로 부상
방대한 빅데이터를 이용한 신용분석을 통한 중금리 대출
금융 빅데이터 산업 사례 현황 – 인터넷 은행
9. 8/21고등지능기술원
용도
정확한 미래 예측 (주가, 승률 등)
정확한 분류, 인식 (얼굴, 고장 등)
정확한 평가 (가치, 위험 등)
효과
사회 전체의 생산성과 효율성 증가
사회 전체의 낭비 요인, 위험 요인 감소
고부가가치 미래 인력, 기업, 일자리의 성장 촉진
빅데이터 분석의 가치 (2)
10. 9/21고등지능기술원
투자 관리
정확한 투자로 투자자의 이익 증가
실제 투자 가치가 높은 투자 대상에 제대로 투자가 이루어져 사회적
자원의 보다 효율적인 활용
마케팅
스팸 정보: 내게 불필요한 정보
유익한 정보: 내게 필요한 정보
빅데이터 분석으로 고객의 필요에 더 부합하는 상품/서비스 정보의
제공으로 사회 전체적으로 이익 증가
위험 관리
위험을 줄여서 이익 극대화
사회적 자원의 효과적 활용 증대
금융 분야 빅데이터 분석의 가치
11. 10/21고등지능기술원
새로운 분석 알고리듬 (딥러닝 등)의 출현
더 빠르고 저렴해진 컴퓨팅 자원의 일반화
새로운 (방대한) 데이터 가장 큰 걸림돌
빅 데이터 시대의 기회
12. 11/21고등지능기술원
구체적인 데이터로부터 유용한 정보 (일반화된 규칙이나 사실)를
추출
함수 y = f(x) 찾기 문제
예) 회귀 분석
데이터 분석의 원리
[출처: https://statistics.laerd.com/spss-tutorials/linear-regression-using-spss-statistics.php]
13. 12/21고등지능기술원
함수: y = f(x1, x2, x3, …)
y: 출력 (연체 확률)
X1, x2, …: 입력 (나이, 연체 이력, 월급, 평판, 습관, …)
데이터의 특징
나이 거래 기간 연체 이력 월급 평판 습관 … 연체 확률
20 0년 0, 0, 0, 0, 0,0 200 좋음 좋음 0.1%
30 10년 2, 0, 1, 0, 0, 0 300 나쁨 나쁨 1%
40 20년 2, 0, 1, 0, 0, 0 400 좋음 좋음 0.2%
… … … … … … …
데이터
개수
입력 출력
14. 13/21고등지능기술원
핵심 데이터만으로는 분석/예측에 불충분
얼굴 인식 기술은 이미지로부터 핵심 특징을 사람이 판단하고
알고리듬으로 추출한 후, 단순한 분석/예측 모델을 적용하여 인식
2011년까지 세계 1위 기술
인식율 개선 속도가 매우 느림
사람이 핵심 특징을 판단하지 않고 본래의 이미지 그대로 복잡한
분석/예측 모델(딥러닝 모델) 적용
2012년부터 매년 급속도로 인식율이 높아져서 현재는 기존 알고리듬 뿐만아니라 사람의
인식율을 능가함
핵심 데이터 vs. 다양한 데이터 (1)
15. 14/21고등지능기술원
핵심 데이터가 무엇인지 파악하기 어려운 경우도 많다
다양한 분석 가능
데이터의 종류가 다양하면 다양한 목적과 관점의 분석이 가능
핵심 데이터 vs. 다양한 데이터 (2)
16. 15/21고등지능기술원
신용 예측의 사례
핵심 데이터를 사용한 예측
연체 이력 연체 가능성 예측
다양한 데이터를 사용한 예측
연체 이력, 나이, 월급, 평판 연체 가능성 예측
데이터 속성 누락으로 인한 문제점
예측의 부정확성
같은 연체 이력을 가진 사람이라도 월급의 안정성이나 평판에 따라 향후 연체 가능성은
크게 달라질 수 있음
불공정성
실제 신용도가 낮은 사람에게 이익이 되고, 실제 신용도가 높은 사람이 손해가 됨
금융 사업 위험의 증가
사업의 예측 정확도가 낮으므로 금융 기관은 수익성의 불확실성 증가
악성 채무자의 악용 가능성 증가
핵심 데이터 vs. 다양한 데이터 (3)
17. 16/21고등지능기술원
기존 방법 (통계적 모델)
분포 가정 가정한 분포를 신뢰할 수 없고, 실제 분포가 매우 복잡한
분포일 경우 통계적 분석 방법이 제한됨
신뢰도 검정 데이터의 개수가 적은 경우 신뢰도가 충분히 높게 나오지
않는다.
예) 선형 회귀
기존 방법 (비통계적 단순 모델)
적은 데이터로도 분석이 가능
데이터가 많아도 정확도 향상에 한계
예) SVM
소량 데이터 vs. 다량 데이터 (1)
18. 17/21고등지능기술원
새로운 방법 (딥러닝을 포함한 복잡한 분석/예측 모델)
모델이 복잡
복잡한 규칙을 찾아내는 능력 향상
과대적합(overfit) 문제 발생 다량의 데이터 필요
분포를 가정하지 않음
분포 가정에 대한 위험 요인 제거
풍부한 테스트 데이터를 사용한 신뢰도 평가
모델 신뢰도 향상
소량 데이터 vs. 다량 데이터 (2)
19. 18/21고등지능기술원
개인 정보
빅 데이터 분석에 개인 정보의 필요성 증가
개인 정보의 위험과 가치는 다음에 따라 천차 만별
개인 정보의 종류
활용 목적
개인의 특성
개인 정보의 가치와 위험
20. 19/21고등지능기술원
개인별 총이익 관점에서 접근 필요
100% 보안은 본래 불가능
개인 정보의 활용으로부터 얻어지는 이익 > 개인 정보의 활용으로부터
얻어지는 손해
개인 정보의 활용으로부터 얻어지는 손해
위험으로 인한 손해의 크기
위험 확률
악용 불안감
개인 정보의 가치와 위험의 균형
21. 20/21고등지능기술원
가치와 위험의 사회적 기준과 개인의 선택권 간의 조화
일반적으로 큰 위험 opt in (사전 허락)
작은 위험 opt out (사전 거부)
개인의 데이터의 개인 소유권 강화
중요 개인 데이터의 개인 소유권 강화
위험의 사회적 감소 장치
익명화, 가명화를 통한 위험 감소와 opt out 데이터 활용 자유도 향상
개인 정보 보호 강화
악용 사법 처리 강화
균형 정책 방향
22. 21/21고등지능기술원
빅데이터 시대에서는 풍부하고 다양한 양질의 데이터 필요성 증가
정확해진 분석과 예측으로 사회 전체의 생산성과 효율성 증가 및 낭비 요인
감소
불공정 개선을 통한 선의의 약자 보호
사회 전체의 고부가가치 미래 인력과 기업의 성장 환경 제공
데이터의 생성, 수집, 교환, 공유 활성화 필요
데이터는 생성, 수집에 많은 비용이 소요
기존 데이터 활용 자유도 향상만으로 데이터 비용을 줄이고 생산성 향상
데이터 활용 자유도 향상
개인 선택권 강화
개인 데이터의 개인 소유권 강화
익명화, 가명화를 통한 위험의 감소와 활용 범위 확대
데이터의 가치와 활용에 대한 사회적 인식 변화 필요
개인 정보의 가치와 위험에 대한 정보, 의견을 객관적으로 수집, 평가,
공유하여 개인 정보에 대한 대중의 이해도 향상을 위한 중립적인 기구 및
제도 필요
결론