1. 데이터 사이언스 SCHOOL
프로젝트 개요
1. 문제제기
1) 핀다:
- 소비자가 선정한 여러 기준(투자기간, 투자금액, 가입방식)에 따라 금융 상품 추천
- 투자 상품에 대한 기준이 확실하게 정해지지 않는 투자자들의 경우 상품 선정의
어려움 발생
2. 인사이트
- 예금,적금 상품의 경우 현재가치를 통한 상품의 연평균 실질 금리 계산
1
핀다 금융상품 분석
Team project / 2016.12
Abstract
Purpose of the project:
금융상품 검색 사이트 핀다에서 제공하지 못한 새로운 선택기준 소비자에게 제시.
2. 데이터 사이언스 SCHOOL
프로젝트 개요
2. 인사이트
- p2p상품의 경우 투자 등급, 투자기간을 보정한 보정 이자율 제공
3. 데이터 적용
- 실질금리 top 5 적금 상품 찾기
- 실질금리 top 5 예금 상품 찾기
- 투자등급 및 부도율 보정 top 5 p2p투자 상품 찾기
2
핀다 금융상품 분석
Team project / 2016.08
Abstract
Purpose of the project:
핀다 사이트에 게재된 금융상품을 통해 핀다 서비스 이용 사용자와 금융기업들을 위한 주요정보 수집
3. 데이터 사이언스 SCHOOL
프로젝트 개요
1.문제인식
- 한사람의 언어 패턴을 바탕으로 특정인을 구분하는 모델을 생성할 수 있을까?
2.인사이트
- TF-IDF SCORE : 각각의 문서를 구분 짓는 핵심이 되는 단어에 높은 점수를 부여
하여 문서간 구분을 용이하게 만드는 자연어 처리기법
- Postagging:
● Python의 한국어 자연어 처리 패키지인 konlpy를 사용하여 각각의 연설문을 형태소 별 로 분리하
여 분리된 형태소를 바탕으로 모델링
3
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
4. 데이터 사이언스 SCHOOL
프로젝트 개요
3.모델형성
1) 연설문 전체를 기반으로 발화자를 구분하는 모델
● scikit-learn package의 Linear SVM, Naive Bayese모델과 keras의 Neural
Network 등 다수의 모델을 비교하여 최고의 성능이 나오는 모델 선정
● 연설문을 기준으로 발화자를 구별하는 모델을 생성했을 경우 Test data set에 적
용한 모델 성능( test accuracy) 이 91.4% 가량 나타남.
● 연설문이 형태의 글이 아닌 짧은 글을 사용했을 경우 모델 적용 불가
2) 연설문에 쓰인 문장을 바탕으로 발화자를 구분하는 모델
● Turi의 graphlab 패키지를 사용하여 대용량 데이터 처리
● 문장을 기준으로 발화자를 맞추는 모델을 만드는 경우 Test data set에 적용한 모
델 성능( test accuracy) 이 91.4% 가량 나타남.
● 모델 성능은 떨어지지만 자서전, 일반 기자회견 등 다양한 형태의 문장에 모델 적
용 가능
4
대통령 연설문 분석
Personal project / 2016.11
Abstract
Purpose of the project:
대한민국 14, 15,16, 17,18대 대통령의 연설문을 분석하여 대통령별 연설문의 특징을 파악하고
이를 바탕으로 대통령의 연설문을 통해 연설문의 발화자를 알아보는 모델 생성
5. 데이터 사이언스 SCHOOL
프로젝트 개요
1.Data - Feature and Target, How
1) Feature:
방의 종류 :원룸, 투룸, 오피스텔(True / False) | 옵션사항 :엘리베이터, 주차, 인덕션, 에어컨 등
거리데이터: 지하철과의 거리, 은행과의 거리 | 행정 구역별 데이터: 동 별 은행 개수,노인인구
2) Target : 집 가격
2.Model & Insight
1) Random forest regressor:
Pipeline방식을 써서 전체적인 변수들의 전처리를 실행하고 KFOLD방식을 이용해 선정한
cross-validation score를 통해 선형회귀 모델과 Random Forest모델 중 점수가 더 좋았던
Random Forest 모델을 최종 모델로 선정.
2) Business Insight:
● 건물의 층수는 가격의 영향을 크게 미쳤지만, 실제 방이 위치한 층은 전혀 영향력이 없었다
● 주변 카페와의 거리는 영향력이 적었지만, 스타벅스와의 거리는 매우 중요하였다.(가격의 크게 영향)
● 주변에 지하철역의 갯수는 영향력이 적었지만, 가장 가까운 지하철과의 거리는 영향력이 컸다.
3.Test
● Test Score:
● Random forest로 만든 모델 예측 가격과 실제 가격이 가장이 가장 다른 매물
방사이즈와 원룸인 점을 고려 했을때 가격이 매우 높은 (가성비가 떨어지는) 집을 찾을 수 있었다
5
우리집의 적정가는?
Team project / 2016.09 ~ 2016.11
Abstract
Purpose of the project:
서울시내 대학가 주변의 대학생들이 집을 구할 때 자신이 구입하려는 집의 적정가를 계산하는
데 도움이되는 모델 구축.