SlideShare a Scribd company logo
1 of 10
Team Analysts
인천대학교 산업경영공학과
맘시터 추천시스템 개발 및
베이비시터 매칭 활성화 방안 제시
박지환 201701355
손승태 201701358
이현욱 201701365
조연성 201701370
최승원 201701374
필요성
2
• 맞벌이가구의 증가
최근 들어 맞벌이가구의 수가 증가하면서 부모들이 일하는 동안에 아이들을 돌보아줄 수 있는 베이비시터 수요가
증가하게 됨
• 적합하지 않은 베이비시터 추천으로 인한 매칭 실패
잘못된 추천으로 인해 부모들이 자신의 상황에 적합한 베이비시터를 매칭 받지 못함
맘시터 앱 리뷰 중 일부
맞벌이가구 비율 그래프
-> 부모 회원들에게 새로운 추천시스템과 매칭 활성화 방안이 필요함
베이비시터 수요는 늘어나고 있지만 잘못된 추천으로 수요를 충족시키지 못함
베이비시터 이용 가구 그래프
기대효과
3
추천시스템과 베이비시터 매칭의 활성화를 통하여 양측에 양질의 서비스를 제공하여
매칭 플랫폼 사용자의 수가 증가할 수 있을 것으로 보임
추천 성능 향상 베이비시터 매칭 활성화
추천시스템의 개발을 통해서
유령회원의 추천을 줄이고 더
많은 베이비시터의 후보군 제공
방사형 차트를 통해서 개개인의
부족한 역량을 알게 하며,
키워드 제시를 통한 베이비시터
개인의 역량을 표현하는데 도움
부모회원, 베이비시터 회원
양측에 보다 양질의 서비스를
제공함에 따라 베이비시터
구인구직 플랫폼의 독보적인
업계 1위와 유저의 유입 증가
플랫폼의 사용자 증가
베이비시터의 매칭 역량을 점수화 하고, 베이비시터 소개글에 인기 키워드를 제공하며,
새로운 추천서비스를 개발하여 문제점을 해결하고 최종 목표를 이루고자 함
• Feature importance 분석을 통하여 매칭에 중요한 feature 탐색
- applyStatus를 독립변수로 두어 의사결정나무 모델을 이용, Feature 중요도를 계산
- 주요 Feature들을 점수화 하여 방사형 차트로 시각화
• 인기 베이비시터 소개글 키워드 추출
- 인기 베이비시터 소개글 데이터를 수집하여 keyBert 모델을 통하여 키워드를 추출 후
- 소개글 작성 시 키워드를 제시하여 도움이 되도록 함
• Content Based Filtering, Collaborative Filtering 추천시스템 개발
- 베이비시터 데이터를 이용하여 Content based filtering 개발
- 유저 데이터를 생성해 유저와 베이비시터 사이의 관계를 이용하여 Collaborative filtering을 개발
과제 개요
맘시터 매칭 서비스 개선
4
<맘시터 매칭 서비스 개선 방안 프로세스>
인기 베이비시터 소개글
키워드 추출
Content Based Filtering,
Collaborative Filtering
추천서비스 개발
Feature importance
분석을 통하여 매칭에
중요한 feature 탐색
매칭 역량 방사형 차트
소개글 작성시 키워드 추천
키워드 키워드 키워드
…
Decision Tree 모델을 활용하여 베이비시터 회원들이 고용에 영향을 미치는 요소들의
중요도를 알아내고자 함
• 의사결정 나무
• 실험 방법
- Python3에서 각각 sklearn의 RandomForestClassifier, xgboost의 XGBClassifier과
LightGBM의 LGBMClassifier를 사용
- apply status(고용 상태)열을 독립변수로 두고 train, validation, test set을 랜덤 추출을 통해
각각 75%, 20%, 5%의 비율로 분할
- 모든 모델에 대해 공통 파라미터인 n_estimators, max_depth를
각각 [10, 20, 50, 100, 200], [1~10]의 조합으로 실험
Feature Importance - 방법론
5
Sitter data set
…
Tree
1
Tree
2
Tree N
Apply Status
Depth: M
• 실험 결과
- 여러 조합으로 실험한 결과 n_estimators=50, max_depth=2의 조합이 결과가 가장 좋았음
- 전반적으로 정확도는 낮은 편이지만, 그 중 가장 정확도가 높은 LightGBM을 사용하여
Feature Importance를 추출함
-> 중요도가 높은 Feature들로 구성된 방사형 차트를 통해 베이비시터들이
전체 평균과 비교하여 자신의 부족한 항목을 개선한다면, 매칭 확률을 높일 수 있음
Feature Importance - 실험결과
6
LightGBM > XGBoost > Random Forest
LightGBM Feature Importance
(n_estimators = 400, max_depth = 2)
LightGBM Learning Curve
(n_estimators = 1500, max_depth = 2)
Validation Loss : 0.468018
Keyword 추출
인기 베이비시터들의 소개글에서 키워드 추출을 통하여 사용빈도가 높은 단어를 알아내고자 함
• 데이터 수집
- 제공받은 베이비시터 데이터에서 viewCount, 평점 등을 활용하여 인기 베이비시터를 결정함
- 인기 베이비시터들의 소개글을 selenium을 통해 크롤링
- 한글 형태소 분석기인 Open Korean Text(OKT)를 이용하여 소개글을 단어화
• 실험 방법
- 단어화 된 소개글과 sklearn의 CountVectorizer를 이용하여 n_gram 기반의 키워드 후보군을 생성
- Pre-training 모델인 구글의 BERT를 기반으로 한 키워드 추출 라이브러리 KeyBERT를 이용하여 키워드
추출
• 실험 결과
인기 베이비시터
소개글 keyBert 모델 적용
7
키워드 추출
Content Based Filtering 과 Collaborative Filtering 구현해 추천 시스템을 개선하고자 함
• 데이터 확보
- 맘시터 측으로부터 베이비시터 데이터를 제공받음
- 부모들이 회원가입시 입력하는 정보를 바탕으로 부모 데이터를 생산
- 제공받은 베이비시터 데이터와 만든 부모 데이터를 바탕으로 거래 데이터를 생산
• 실험 방법
- 베이비시터 데이터를 정규화하고 각 Feature들을 cosine_similarity기법을
이용해 유사도를 계산하여 Content Based Filtering 구현
- 임의로 생산한 부모와 거래 데이터를 병합하여 SVD 행렬 분해를 한 이후 잠재요인 행렬을 이용해
행렬을 복원하는 과정에서 선호도를 예측하는 기법인 Matrix Factorization을 사용하여
Collaborative Filtering 구현
추천시스템 개발 - 방법론
8
원하는 돌봄 유형 베이비시터 연령 설정 원하는 시간 조율
부모가 회원가입 시 입력하는 정보들
• 실험 결과
-> 두 가지의 추천 시스템 개발을 통해 양질의 추천서비스를 기대할 수 있음
- Content Based Filtering
계산된 유사도를 통해 사용자들에게
고용했던 베이비시터와 유사한 베이비시터
추천 가능
- Collaborative Filtering
실제 선호도 – 예측 선호도를 error로 계산,
RMSE를 Loss Function으로 설정
학습 후 예측 선호도를 통해 개인화 추천 가능
추천시스템 개발 - 실험결과
9
Cosine 유사도
Matrix Factorization Loss Graph
Loss: 0.0002730
• 베이비시터 매칭 역량 차트
베이비시터 매칭 역량 차트를 통해 베이비시터 본인이 부모와 매칭이 안되는 이유를 파악하도록 하여
본인의 단점을 보완하도록 유도함
• 자기소개 키워드 제시
베이비시터 자기소개 작성 란에 부모들이 베이비시터를 선택하는데 긍정적인 영향을 주는 키워드들을 제시하여
자신의 역량을 표현하는 데에 도움을 줌
• 추천시스템 개선
콘텐츠 기반 추천으로 추천의 폭을 넓히고, 협업 필터링 추천으로 개인화 추천을 함으로써
부모들이 더욱 질 좋은 추천을 받을 수 있게 됨
결론
연구 결과들을 예시 화면으로 보여주고 이러한 연구들로 얻을 수 있는 효과를 설명하고자 함
콘텐츠 기반 추천 예시 화면
자기소개 키워드 예시 화면
베이비시터 매칭 역량 차트 예시 화면 차트 설명 예시
10

More Related Content

Similar to team_analysts_Mom-sitter.pptx

앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
Jungkyu Lee
 
Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5
Eunyoung Kim
 
Unite팀 6월9일 발표.pptx
Unite팀 6월9일 발표.pptxUnite팀 6월9일 발표.pptx
Unite팀 6월9일 발표.pptx
kimseonjeong1
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한
s song
 
6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx
ssuserd4afad
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링
InJae Hwang
 

Similar to team_analysts_Mom-sitter.pptx (20)

[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf[BizSpring] Data Consulting_사례집.pdf
[BizSpring] Data Consulting_사례집.pdf
 
Apache Mahout 맛보기 - 30분만에 추천시스템 만들기 for 네이버 TV 서비스
Apache Mahout 맛보기 - 30분만에 추천시스템 만들기 for 네이버 TV 서비스Apache Mahout 맛보기 - 30분만에 추천시스템 만들기 for 네이버 TV 서비스
Apache Mahout 맛보기 - 30분만에 추천시스템 만들기 for 네이버 TV 서비스
 
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
AdverTiming Matters : Examining User Ad Consumption for Effective Ad Allocati...
 
추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례추천시스템 구축을 위한 빅데이터 분석기법과 사례
추천시스템 구축을 위한 빅데이터 분석기법과 사례
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
피클 사업계획서 시립대
피클 사업계획서 시립대피클 사업계획서 시립대
피클 사업계획서 시립대
 
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
[팝콘 시즌1] 최보경 : 실무자를 위한 인과추론 활용 - Best Practices
 
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
Chapter 12 applications - 2
Chapter 12 applications - 2Chapter 12 applications - 2
Chapter 12 applications - 2
 
BS501 발표자료
BS501 발표자료BS501 발표자료
BS501 발표자료
 
Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5Web analytics 2.0 study ch.4-4.5
Web analytics 2.0 study ch.4-4.5
 
검색엔진 랭킹 상위 - scs(seo curation suite) 서비스 넥스트티
검색엔진 랭킹 상위 - scs(seo curation suite) 서비스 넥스트티검색엔진 랭킹 상위 - scs(seo curation suite) 서비스 넥스트티
검색엔진 랭킹 상위 - scs(seo curation suite) 서비스 넥스트티
 
kaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxkaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptx
 
Unite팀 6월9일 발표.pptx
Unite팀 6월9일 발표.pptxUnite팀 6월9일 발표.pptx
Unite팀 6월9일 발표.pptx
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한
 
[에이스카운터 웹로그분석]에이스카운터 ASP 서비스 소개서
[에이스카운터 웹로그분석]에이스카운터 ASP 서비스 소개서[에이스카운터 웹로그분석]에이스카운터 ASP 서비스 소개서
[에이스카운터 웹로그분석]에이스카운터 ASP 서비스 소개서
 
6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx6월 9일 발표자료_최종.pptx
6월 9일 발표자료_최종.pptx
 
전자상거래 협업필터링
전자상거래 협업필터링전자상거래 협업필터링
전자상거래 협업필터링
 
온라인 서비스 개선을 데이터 활용법 - 김진영 (How We Use Data)
온라인 서비스 개선을 데이터 활용법  - 김진영 (How We Use Data)온라인 서비스 개선을 데이터 활용법  - 김진영 (How We Use Data)
온라인 서비스 개선을 데이터 활용법 - 김진영 (How We Use Data)
 
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
[우리가 데이터를 쓰는 법] 온라인 서비스 개선을 위한 데이터 활용법 - 마이크로소프트 김진영 데이터과학자
 

team_analysts_Mom-sitter.pptx

  • 1. Team Analysts 인천대학교 산업경영공학과 맘시터 추천시스템 개발 및 베이비시터 매칭 활성화 방안 제시 박지환 201701355 손승태 201701358 이현욱 201701365 조연성 201701370 최승원 201701374
  • 2. 필요성 2 • 맞벌이가구의 증가 최근 들어 맞벌이가구의 수가 증가하면서 부모들이 일하는 동안에 아이들을 돌보아줄 수 있는 베이비시터 수요가 증가하게 됨 • 적합하지 않은 베이비시터 추천으로 인한 매칭 실패 잘못된 추천으로 인해 부모들이 자신의 상황에 적합한 베이비시터를 매칭 받지 못함 맘시터 앱 리뷰 중 일부 맞벌이가구 비율 그래프 -> 부모 회원들에게 새로운 추천시스템과 매칭 활성화 방안이 필요함 베이비시터 수요는 늘어나고 있지만 잘못된 추천으로 수요를 충족시키지 못함 베이비시터 이용 가구 그래프
  • 3. 기대효과 3 추천시스템과 베이비시터 매칭의 활성화를 통하여 양측에 양질의 서비스를 제공하여 매칭 플랫폼 사용자의 수가 증가할 수 있을 것으로 보임 추천 성능 향상 베이비시터 매칭 활성화 추천시스템의 개발을 통해서 유령회원의 추천을 줄이고 더 많은 베이비시터의 후보군 제공 방사형 차트를 통해서 개개인의 부족한 역량을 알게 하며, 키워드 제시를 통한 베이비시터 개인의 역량을 표현하는데 도움 부모회원, 베이비시터 회원 양측에 보다 양질의 서비스를 제공함에 따라 베이비시터 구인구직 플랫폼의 독보적인 업계 1위와 유저의 유입 증가 플랫폼의 사용자 증가
  • 4. 베이비시터의 매칭 역량을 점수화 하고, 베이비시터 소개글에 인기 키워드를 제공하며, 새로운 추천서비스를 개발하여 문제점을 해결하고 최종 목표를 이루고자 함 • Feature importance 분석을 통하여 매칭에 중요한 feature 탐색 - applyStatus를 독립변수로 두어 의사결정나무 모델을 이용, Feature 중요도를 계산 - 주요 Feature들을 점수화 하여 방사형 차트로 시각화 • 인기 베이비시터 소개글 키워드 추출 - 인기 베이비시터 소개글 데이터를 수집하여 keyBert 모델을 통하여 키워드를 추출 후 - 소개글 작성 시 키워드를 제시하여 도움이 되도록 함 • Content Based Filtering, Collaborative Filtering 추천시스템 개발 - 베이비시터 데이터를 이용하여 Content based filtering 개발 - 유저 데이터를 생성해 유저와 베이비시터 사이의 관계를 이용하여 Collaborative filtering을 개발 과제 개요 맘시터 매칭 서비스 개선 4 <맘시터 매칭 서비스 개선 방안 프로세스> 인기 베이비시터 소개글 키워드 추출 Content Based Filtering, Collaborative Filtering 추천서비스 개발 Feature importance 분석을 통하여 매칭에 중요한 feature 탐색 매칭 역량 방사형 차트 소개글 작성시 키워드 추천 키워드 키워드 키워드 …
  • 5. Decision Tree 모델을 활용하여 베이비시터 회원들이 고용에 영향을 미치는 요소들의 중요도를 알아내고자 함 • 의사결정 나무 • 실험 방법 - Python3에서 각각 sklearn의 RandomForestClassifier, xgboost의 XGBClassifier과 LightGBM의 LGBMClassifier를 사용 - apply status(고용 상태)열을 독립변수로 두고 train, validation, test set을 랜덤 추출을 통해 각각 75%, 20%, 5%의 비율로 분할 - 모든 모델에 대해 공통 파라미터인 n_estimators, max_depth를 각각 [10, 20, 50, 100, 200], [1~10]의 조합으로 실험 Feature Importance - 방법론 5 Sitter data set … Tree 1 Tree 2 Tree N Apply Status Depth: M
  • 6. • 실험 결과 - 여러 조합으로 실험한 결과 n_estimators=50, max_depth=2의 조합이 결과가 가장 좋았음 - 전반적으로 정확도는 낮은 편이지만, 그 중 가장 정확도가 높은 LightGBM을 사용하여 Feature Importance를 추출함 -> 중요도가 높은 Feature들로 구성된 방사형 차트를 통해 베이비시터들이 전체 평균과 비교하여 자신의 부족한 항목을 개선한다면, 매칭 확률을 높일 수 있음 Feature Importance - 실험결과 6 LightGBM > XGBoost > Random Forest LightGBM Feature Importance (n_estimators = 400, max_depth = 2) LightGBM Learning Curve (n_estimators = 1500, max_depth = 2) Validation Loss : 0.468018
  • 7. Keyword 추출 인기 베이비시터들의 소개글에서 키워드 추출을 통하여 사용빈도가 높은 단어를 알아내고자 함 • 데이터 수집 - 제공받은 베이비시터 데이터에서 viewCount, 평점 등을 활용하여 인기 베이비시터를 결정함 - 인기 베이비시터들의 소개글을 selenium을 통해 크롤링 - 한글 형태소 분석기인 Open Korean Text(OKT)를 이용하여 소개글을 단어화 • 실험 방법 - 단어화 된 소개글과 sklearn의 CountVectorizer를 이용하여 n_gram 기반의 키워드 후보군을 생성 - Pre-training 모델인 구글의 BERT를 기반으로 한 키워드 추출 라이브러리 KeyBERT를 이용하여 키워드 추출 • 실험 결과 인기 베이비시터 소개글 keyBert 모델 적용 7 키워드 추출
  • 8. Content Based Filtering 과 Collaborative Filtering 구현해 추천 시스템을 개선하고자 함 • 데이터 확보 - 맘시터 측으로부터 베이비시터 데이터를 제공받음 - 부모들이 회원가입시 입력하는 정보를 바탕으로 부모 데이터를 생산 - 제공받은 베이비시터 데이터와 만든 부모 데이터를 바탕으로 거래 데이터를 생산 • 실험 방법 - 베이비시터 데이터를 정규화하고 각 Feature들을 cosine_similarity기법을 이용해 유사도를 계산하여 Content Based Filtering 구현 - 임의로 생산한 부모와 거래 데이터를 병합하여 SVD 행렬 분해를 한 이후 잠재요인 행렬을 이용해 행렬을 복원하는 과정에서 선호도를 예측하는 기법인 Matrix Factorization을 사용하여 Collaborative Filtering 구현 추천시스템 개발 - 방법론 8 원하는 돌봄 유형 베이비시터 연령 설정 원하는 시간 조율 부모가 회원가입 시 입력하는 정보들
  • 9. • 실험 결과 -> 두 가지의 추천 시스템 개발을 통해 양질의 추천서비스를 기대할 수 있음 - Content Based Filtering 계산된 유사도를 통해 사용자들에게 고용했던 베이비시터와 유사한 베이비시터 추천 가능 - Collaborative Filtering 실제 선호도 – 예측 선호도를 error로 계산, RMSE를 Loss Function으로 설정 학습 후 예측 선호도를 통해 개인화 추천 가능 추천시스템 개발 - 실험결과 9 Cosine 유사도 Matrix Factorization Loss Graph Loss: 0.0002730
  • 10. • 베이비시터 매칭 역량 차트 베이비시터 매칭 역량 차트를 통해 베이비시터 본인이 부모와 매칭이 안되는 이유를 파악하도록 하여 본인의 단점을 보완하도록 유도함 • 자기소개 키워드 제시 베이비시터 자기소개 작성 란에 부모들이 베이비시터를 선택하는데 긍정적인 영향을 주는 키워드들을 제시하여 자신의 역량을 표현하는 데에 도움을 줌 • 추천시스템 개선 콘텐츠 기반 추천으로 추천의 폭을 넓히고, 협업 필터링 추천으로 개인화 추천을 함으로써 부모들이 더욱 질 좋은 추천을 받을 수 있게 됨 결론 연구 결과들을 예시 화면으로 보여주고 이러한 연구들로 얻을 수 있는 효과를 설명하고자 함 콘텐츠 기반 추천 예시 화면 자기소개 키워드 예시 화면 베이비시터 매칭 역량 차트 예시 화면 차트 설명 예시 10