SlideShare a Scribd company logo
1 of 5
데이터 사이언스 SCHOOL
프로젝트 개요
1. 문제제기
1) 핀다:
- 소비자가 선정한 여러 기준(투자기간, 투자금액, 가입방식)에 따라 금융 상품 추천
- 투자 상품에 대한 기준이 확실하게 정해지지 않는 투자자들의 경우 상품 선정의
어려움 발생
2. 인사이트
- 예금,적금 상품의 경우 현재가치를 통한 상품의 연평균 실질 금리 계산
1
핀다 금융상품 분석
Team project / 2016.12
Abstract
Purpose of the project:
금융상품 검색 사이트 핀다에서 제공하지 못한 새로운 선택기준 소비자에게 제시.
데이터 사이언스 SCHOOL
프로젝트 개요
2. 인사이트
- p2p상품의 경우 투자 등급, 투자기간을 보정한 보정 이자율 제공
3. 데이터 적용
- 실질금리 top 5 적금 상품 찾기
- 실질금리 top 5 예금 상품 찾기
- 투자등급 및 부도율 보정 top 5 p2p투자 상품 찾기
2
핀다 금융상품 분석
Team project / 2016.08
Abstract
Purpose of the project:
핀다 사이트에 게재된 금융상품을 통해 핀다 서비스 이용 사용자와 금융기업들을 위한 주요정보 수집
데이터 사이언스 SCHOOL
프로젝트 개요
1.문제인식
- 한사람의 언어 패턴을 바탕으로 특정인을 구분하는 모델을 생성할 수 있을까?
2.인사이트
- TF-IDF SCORE : 각각의 문서를 구분 짓는 핵심이 되는 단어에 높은 점수를 부여
하여 문서간 구분을 용이하게 만드는 자연어 처리기법
- Postagging:
● Python의 한국어 자연어 처리 패키지인 konlpy를 사용하여 각각의 연설문을 형태소 별 로 분리하
여 분리된 형태소를 바탕으로 모델링
3
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
데이터 사이언스 SCHOOL
프로젝트 개요
3.모델형성
1) 연설문 전체를 기반으로 발화자를 구분하는 모델
● scikit-learn package의 Linear SVM, Naive Bayese모델과 keras의 Neural
Network 등 다수의 모델을 비교하여 최고의 성능이 나오는 모델 선정
● 연설문을 기준으로 발화자를 구별하는 모델을 생성했을 경우 Test data set에 적
용한 모델 성능( test accuracy) 이 91.4% 가량 나타남.
● 연설문이 형태의 글이 아닌 짧은 글을 사용했을 경우 모델 적용 불가
2) 연설문에 쓰인 문장을 바탕으로 발화자를 구분하는 모델
● Turi의 graphlab 패키지를 사용하여 대용량 데이터 처리
● 문장을 기준으로 발화자를 맞추는 모델을 만드는 경우 Test data set에 적용한 모
델 성능( test accuracy) 이 91.4% 가량 나타남.
● 모델 성능은 떨어지지만 자서전, 일반 기자회견 등 다양한 형태의 문장에 모델 적
용 가능
4
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
데이터 사이언스 SCHOOL
프로젝트 개요
1.Data - Feature and Target, How
1) Feature:
방의 종류 :원룸, 투룸, 오피스텔(True / False) | 옵션사항 :엘리베이터, 주차, 인덕션, 에어컨 등
거리데이터: 지하철과의 거리, 은행과의 거리 | 행정 구역별 데이터: 동 별 은행 개수,노인인구
2) Target : 집 가격
2.Model & Insight
1) Random forest regressor:
Pipeline방식을 써서 전체적인 변수들의 전처리를 실행하고 KFOLD방식을 이용해 선정한
cross-validation score를 통해 선형회귀 모델과 Random Forest모델 중 점수가 더 좋았던
Random Forest 모델을 최종 모델로 선정.
2) Business Insight:
● 건물의 층수는 가격의 영향을 크게 미쳤지만, 실제 방이 위치한 층은 전혀 영향력이 없었다
● 주변 카페와의 거리는 영향력이 적었지만, 스타벅스와의 거리는 매우 중요하였다.(가격의 크게 영향)
● 주변에 지하철역의 갯수는 영향력이 적었지만, 가장 가까운 지하철과의 거리는 영향력이 컸다.
3.Test
● Test Score:
● Random forest로 만든 모델 예측 가격과 실제 가격이 가장이 가장 다른 매물
방사이즈와 원룸인 점을 고려 했을때 가격이 매우 높은 (가성비가 떨어지는) 집을 찾을 수 있었다
5
우리집의 적정가는?
Team project / 2016.09 ~ 2016.11
Abstract
Purpose of the project:
서울시내 대학가 주변의 대학생들이 집을 구할 때 자신이 구입하려는 집의 적정가를 계산하는
데 도움이되는 모델 구축.

More Related Content

Similar to [패스트캠퍼스] 핀다금융상품분석 외 2개

[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
Introduction of NUGO's vision and business model
Introduction of NUGO's vision and business modelIntroduction of NUGO's vision and business model
Introduction of NUGO's vision and business modelNickPark19
 
책 "제품의 탄생" 소개
책 "제품의 탄생" 소개책 "제품의 탄생" 소개
책 "제품의 탄생" 소개SANGHEE SHIN
 
2014 0330-intel.education 정현준
2014 0330-intel.education 정현준2014 0330-intel.education 정현준
2014 0330-intel.education 정현준Hyun Jun Jung
 
2014 0330-intel.education 정현준
2014 0330-intel.education 정현준2014 0330-intel.education 정현준
2014 0330-intel.education 정현준Hyun Jun Jung
 
Week1 ot
Week1 otWeek1 ot
Week1 otEun Yu
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullTaejoon Yoo
 
Comsta_r01
Comsta_r01Comsta_r01
Comsta_r01comshin
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)동학 노
 
23기 0319 c조_naver case_ver3.0
23기 0319 c조_naver case_ver3.023기 0319 c조_naver case_ver3.0
23기 0319 c조_naver case_ver3.0Eunhwa Yang
 
Partnership with MezzoMedia - Glow
Partnership with MezzoMedia - GlowPartnership with MezzoMedia - Glow
Partnership with MezzoMedia - GlowMezzoMedia
 
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동Kwangdong Min
 
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12Donghan Kim
 
AWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong JinAWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong Jin윤 동진
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회yonsei87
 
프로젝트관리­ 2회(블로그용)
프로젝트관리­ 2회(블로그용)프로젝트관리­ 2회(블로그용)
프로젝트관리­ 2회(블로그용)yonsei87
 
Social Media Business Model Design through Visual Thinking
Social Media Business Model Design through Visual ThinkingSocial Media Business Model Design through Visual Thinking
Social Media Business Model Design through Visual ThinkingSanghyeok Park
 
20150305 스마트한 데이터모델링 with ER/Studio
20150305 스마트한 데이터모델링 with ER/Studio20150305 스마트한 데이터모델링 with ER/Studio
20150305 스마트한 데이터모델링 with ER/StudioDevgear
 
Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스TaeHwanKim61
 

Similar to [패스트캠퍼스] 핀다금융상품분석 외 2개 (20)

[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
Introduction of NUGO's vision and business model
Introduction of NUGO's vision and business modelIntroduction of NUGO's vision and business model
Introduction of NUGO's vision and business model
 
책 "제품의 탄생" 소개
책 "제품의 탄생" 소개책 "제품의 탄생" 소개
책 "제품의 탄생" 소개
 
2014 0330-intel.education 정현준
2014 0330-intel.education 정현준2014 0330-intel.education 정현준
2014 0330-intel.education 정현준
 
2014 0330-intel.education 정현준
2014 0330-intel.education 정현준2014 0330-intel.education 정현준
2014 0330-intel.education 정현준
 
Week1 ot
Week1 otWeek1 ot
Week1 ot
 
Customized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_fullCustomized Big Data Report 소개(minds lab) v1.0_full
Customized Big Data Report 소개(minds lab) v1.0_full
 
Comsta_r01
Comsta_r01Comsta_r01
Comsta_r01
 
빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
23기 0319 c조_naver case_ver3.0
23기 0319 c조_naver case_ver3.023기 0319 c조_naver case_ver3.0
23기 0319 c조_naver case_ver3.0
 
Partnership with MezzoMedia - Glow
Partnership with MezzoMedia - GlowPartnership with MezzoMedia - Glow
Partnership with MezzoMedia - Glow
 
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동
170222 창조경제혁신센터 기술사업화 과정에서의 비즈니스모델 민광동
 
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12
공공_빅데이터_분석의_확산을_위한_첫걸음-2016-12
 
AWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong JinAWS 사업계획서 pt- Yoon Dong Jin
AWS 사업계획서 pt- Yoon Dong Jin
 
프로젝트관리­ 3회
프로젝트관리­ 3회프로젝트관리­ 3회
프로젝트관리­ 3회
 
프로젝트관리­ 2회(블로그용)
프로젝트관리­ 2회(블로그용)프로젝트관리­ 2회(블로그용)
프로젝트관리­ 2회(블로그용)
 
Social Media Business Model Design through Visual Thinking
Social Media Business Model Design through Visual ThinkingSocial Media Business Model Design through Visual Thinking
Social Media Business Model Design through Visual Thinking
 
20150305 스마트한 데이터모델링 with ER/Studio
20150305 스마트한 데이터모델링 with ER/Studio20150305 스마트한 데이터모델링 with ER/Studio
20150305 스마트한 데이터모델링 with ER/Studio
 
Whats
WhatsWhats
Whats
 
Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스Inu x corps big idea contest_6팀 체커스
Inu x corps big idea contest_6팀 체커스
 

[패스트캠퍼스] 핀다금융상품분석 외 2개

  • 1. 데이터 사이언스 SCHOOL 프로젝트 개요 1. 문제제기 1) 핀다: - 소비자가 선정한 여러 기준(투자기간, 투자금액, 가입방식)에 따라 금융 상품 추천 - 투자 상품에 대한 기준이 확실하게 정해지지 않는 투자자들의 경우 상품 선정의 어려움 발생 2. 인사이트 - 예금,적금 상품의 경우 현재가치를 통한 상품의 연평균 실질 금리 계산 1 핀다 금융상품 분석 Team project / 2016.12 Abstract Purpose of the project: 금융상품 검색 사이트 핀다에서 제공하지 못한 새로운 선택기준 소비자에게 제시.
  • 2. 데이터 사이언스 SCHOOL 프로젝트 개요 2. 인사이트 - p2p상품의 경우 투자 등급, 투자기간을 보정한 보정 이자율 제공 3. 데이터 적용 - 실질금리 top 5 적금 상품 찾기 - 실질금리 top 5 예금 상품 찾기 - 투자등급 및 부도율 보정 top 5 p2p투자 상품 찾기 2 핀다 금융상품 분석 Team project / 2016.08 Abstract Purpose of the project: 핀다 사이트에 게재된 금융상품을 통해 핀다 서비스 이용 사용자와 금융기업들을 위한 주요정보 수집
  • 3. 데이터 사이언스 SCHOOL 프로젝트 개요 1.문제인식 - 한사람의 언어 패턴을 바탕으로 특정인을 구분하는 모델을 생성할 수 있을까? 2.인사이트 - TF-IDF SCORE : 각각의 문서를 구분 짓는 핵심이 되는 단어에 높은 점수를 부여 하여 문서간 구분을 용이하게 만드는 자연어 처리기법 - Postagging: ● Python의 한국어 자연어 처리 패키지인 konlpy를 사용하여 각각의 연설문을 형태소 별 로 분리하 여 분리된 형태소를 바탕으로 모델링 3 대통령 연설문 분석 Personal project / 2016.11 Abstract Purpose of the project: 대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고 이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
  • 4. 데이터 사이언스 SCHOOL 프로젝트 개요 3.모델형성 1) 연설문 전체를 기반으로 발화자를 구분하는 모델 ● scikit-learn package의 Linear SVM, Naive Bayese모델과 keras의 Neural Network 등 다수의 모델을 비교하여 최고의 성능이 나오는 모델 선정 ● 연설문을 기준으로 발화자를 구별하는 모델을 생성했을 경우 Test data set에 적 용한 모델 성능( test accuracy) 이 91.4% 가량 나타남. ● 연설문이 형태의 글이 아닌 짧은 글을 사용했을 경우 모델 적용 불가 2) 연설문에 쓰인 문장을 바탕으로 발화자를 구분하는 모델 ● Turi의 graphlab 패키지를 사용하여 대용량 데이터 처리 ● 문장을 기준으로 발화자를 맞추는 모델을 만드는 경우 Test data set에 적용한 모 델 성능( test accuracy) 이 91.4% 가량 나타남. ● 모델 성능은 떨어지지만 자서전, 일반 기자회견 등 다양한 형태의 문장에 모델 적 용 가능 4 대통령 연설문 분석 Personal project / 2016.11 Abstract Purpose of the project: 대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고 이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
  • 5. 데이터 사이언스 SCHOOL 프로젝트 개요 1.Data - Feature and Target, How 1) Feature: 방의 종류 :원룸, 투룸, 오피스텔(True / False) | 옵션사항 :엘리베이터, 주차, 인덕션, 에어컨 등 거리데이터: 지하철과의 거리, 은행과의 거리 | 행정 구역별 데이터: 동 별 은행 개수,노인인구 2) Target : 집 가격 2.Model & Insight 1) Random forest regressor: Pipeline방식을 써서 전체적인 변수들의 전처리를 실행하고 KFOLD방식을 이용해 선정한 cross-validation score를 통해 선형회귀 모델과 Random Forest모델 중 점수가 더 좋았던 Random Forest 모델을 최종 모델로 선정. 2) Business Insight: ● 건물의 층수는 가격의 영향을 크게 미쳤지만, 실제 방이 위치한 층은 전혀 영향력이 없었다 ● 주변 카페와의 거리는 영향력이 적었지만, 스타벅스와의 거리는 매우 중요하였다.(가격의 크게 영향) ● 주변에 지하철역의 갯수는 영향력이 적었지만, 가장 가까운 지하철과의 거리는 영향력이 컸다. 3.Test ● Test Score: ● Random forest로 만든 모델 예측 가격과 실제 가격이 가장이 가장 다른 매물 방사이즈와 원룸인 점을 고려 했을때 가격이 매우 높은 (가성비가 떨어지는) 집을 찾을 수 있었다 5 우리집의 적정가는? Team project / 2016.09 ~ 2016.11 Abstract Purpose of the project: 서울시내 대학가 주변의 대학생들이 집을 구할 때 자신이 구입하려는 집의 적정가를 계산하는 데 도움이되는 모델 구축.