[우리가 데이터를 쓰는 법] 스타트업이 데이터를 활용해야 하는 10가지 이유 - Gonnector(고넥터) 고영혁 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫번째 키노트 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 스타트업이 데이터를 활용해야 하는 10가지 이유
연사 : 고넥터(Gonnector) 고영혁 대표
[우리가 데이터를 쓰는 법] 스타트업이 데이터를 활용해야 하는 10가지 이유 - Gonnector(고넥터) 고영혁 대표Dylan Ko
Gonnector(고넥터) 고영혁 대표가 주최한 스타트업 데이터 활용 세미나 '우리가 데이터를 쓰는 법' 의 첫번째 키노트 발표 자료
세미나 : 우리가 데이터를 쓰는 법 (How We Use Data)
일시 : 2016년 4월 12일 화요일 10:00 ~ 18:00
장소 : 마루180 (Maru180) B1 Think 홀
제목 : 스타트업이 데이터를 활용해야 하는 10가지 이유
연사 : 고넥터(Gonnector) 고영혁 대표
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
Introduction of NUGO's vision and business modelNickPark19
Introduction of team 'NUGO' standing for "None of Us Go through being left Out".
We achieve the most friendly AI ever.
We create module converting standard language to dialect of Korean based on seq2seq and attention neural network model.
스타트업의 R&D기획 프로세스 관점에서 비즈니스 모델을 바라볼 때, 아이디오 도출 혹은 커뮤니케이션 협업도구 그 이상의 실익을 기대할 수 있습니다. 충분한 백데이터에 업데이트되는 비즈니스 모델링을 통해 투자유치를 위한 사업계획이 수월하게 이루어집니다. 그로 인한 사업계획서는 충분한 사업계획의 결과물일 뿐입니다.
3월 5일 온라인 세미나 "스마트한 데이터모델링 with ER/Studio" 자료입니다. 데이터모델링을 할 때 꼭 알아야 할 10가지 기술을 살펴봅니다. 그리고 이 기술들을 ER/Studio에서는 얼마나 쉽고 빠르게 제공하는지, 다른 제품들은 어떻게 제공하고 있는지도 함께 살펴봅니다.
빅데이터 구축 및 술루션 가이드 주요 내용
- 고객 내부 빅데이터 프로젝트 진행시 단계별 진행 가이드
- 빅데이터 프로젝트 구축 타입
- 각 산업분야별로 빅데이터 엔진을 활용한 솔루션 구축 가이드
(딥 러닝 기법 기반의 분석 포함)
코세나(kosena), 이승훈 실장 admin@kosena.kr, kosena21@naver.com
010-9338-6400
Introduction of NUGO's vision and business modelNickPark19
Introduction of team 'NUGO' standing for "None of Us Go through being left Out".
We achieve the most friendly AI ever.
We create module converting standard language to dialect of Korean based on seq2seq and attention neural network model.
스타트업의 R&D기획 프로세스 관점에서 비즈니스 모델을 바라볼 때, 아이디오 도출 혹은 커뮤니케이션 협업도구 그 이상의 실익을 기대할 수 있습니다. 충분한 백데이터에 업데이트되는 비즈니스 모델링을 통해 투자유치를 위한 사업계획이 수월하게 이루어집니다. 그로 인한 사업계획서는 충분한 사업계획의 결과물일 뿐입니다.
3월 5일 온라인 세미나 "스마트한 데이터모델링 with ER/Studio" 자료입니다. 데이터모델링을 할 때 꼭 알아야 할 10가지 기술을 살펴봅니다. 그리고 이 기술들을 ER/Studio에서는 얼마나 쉽고 빠르게 제공하는지, 다른 제품들은 어떻게 제공하고 있는지도 함께 살펴봅니다.
1. 데이터 사이언스 SCHOOL
프로젝트 개요
1. 문제제기
1) 핀다:
- 소비자가 선정한 여러 기준(투자기간, 투자금액, 가입방식)에 따라 금융 상품 추천
- 투자 상품에 대한 기준이 확실하게 정해지지 않는 투자자들의 경우 상품 선정의
어려움 발생
2. 인사이트
- 예금,적금 상품의 경우 현재가치를 통한 상품의 연평균 실질 금리 계산
1
핀다 금융상품 분석
Team project / 2016.12
Abstract
Purpose of the project:
금융상품 검색 사이트 핀다에서 제공하지 못한 새로운 선택기준 소비자에게 제시.
2. 데이터 사이언스 SCHOOL
프로젝트 개요
2. 인사이트
- p2p상품의 경우 투자 등급, 투자기간을 보정한 보정 이자율 제공
3. 데이터 적용
- 실질금리 top 5 적금 상품 찾기
- 실질금리 top 5 예금 상품 찾기
- 투자등급 및 부도율 보정 top 5 p2p투자 상품 찾기
2
핀다 금융상품 분석
Team project / 2016.08
Abstract
Purpose of the project:
핀다 사이트에 게재된 금융상품을 통해 핀다 서비스 이용 사용자와 금융기업들을 위한 주요정보 수집
3. 데이터 사이언스 SCHOOL
프로젝트 개요
1.문제인식
- 한사람의 언어 패턴을 바탕으로 특정인을 구분하는 모델을 생성할 수 있을까?
2.인사이트
- TF-IDF SCORE : 각각의 문서를 구분 짓는 핵심이 되는 단어에 높은 점수를 부여
하여 문서간 구분을 용이하게 만드는 자연어 처리기법
- Postagging:
● Python의 한국어 자연어 처리 패키지인 konlpy를 사용하여 각각의 연설문을 형태소 별 로 분리하
여 분리된 형태소를 바탕으로 모델링
3
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
4. 데이터 사이언스 SCHOOL
프로젝트 개요
3.모델형성
1) 연설문 전체를 기반으로 발화자를 구분하는 모델
● scikit-learn package의 Linear SVM, Naive Bayese모델과 keras의 Neural
Network 등 다수의 모델을 비교하여 최고의 성능이 나오는 모델 선정
● 연설문을 기준으로 발화자를 구별하는 모델을 생성했을 경우 Test data set에 적
용한 모델 성능( test accuracy) 이 91.4% 가량 나타남.
● 연설문이 형태의 글이 아닌 짧은 글을 사용했을 경우 모델 적용 불가
2) 연설문에 쓰인 문장을 바탕으로 발화자를 구분하는 모델
● Turi의 graphlab 패키지를 사용하여 대용량 데이터 처리
● 문장을 기준으로 발화자를 맞추는 모델을 만드는 경우 Test data set에 적용한 모
델 성능( test accuracy) 이 91.4% 가량 나타남.
● 모델 성능은 떨어지지만 자서전, 일반 기자회견 등 다양한 형태의 문장에 모델 적
용 가능
4
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
5. 데이터 사이언스 SCHOOL
프로젝트 개요
1.Data - Feature and Target, How
1) Feature:
방의 종류 :원룸, 투룸, 오피스텔(True / False) | 옵션사항 :엘리베이터, 주차, 인덕션, 에어컨 등
거리데이터: 지하철과의 거리, 은행과의 거리 | 행정 구역별 데이터: 동 별 은행 개수,노인인구
2) Target : 집 가격
2.Model & Insight
1) Random forest regressor:
Pipeline방식을 써서 전체적인 변수들의 전처리를 실행하고 KFOLD방식을 이용해 선정한
cross-validation score를 통해 선형회귀 모델과 Random Forest모델 중 점수가 더 좋았던
Random Forest 모델을 최종 모델로 선정.
2) Business Insight:
● 건물의 층수는 가격의 영향을 크게 미쳤지만, 실제 방이 위치한 층은 전혀 영향력이 없었다
● 주변 카페와의 거리는 영향력이 적었지만, 스타벅스와의 거리는 매우 중요하였다.(가격의 크게 영향)
● 주변에 지하철역의 갯수는 영향력이 적었지만, 가장 가까운 지하철과의 거리는 영향력이 컸다.
3.Test
● Test Score:
● Random forest로 만든 모델 예측 가격과 실제 가격이 가장이 가장 다른 매물
방사이즈와 원룸인 점을 고려 했을때 가격이 매우 높은 (가성비가 떨어지는) 집을 찾을 수 있었다
5
우리집의 적정가는?
Team project / 2016.09 ~ 2016.11
Abstract
Purpose of the project:
서울시내 대학가 주변의 대학생들이 집을 구할 때 자신이 구입하려는 집의 적정가를 계산하는
데 도움이되는 모델 구축.