SlideShare a Scribd company logo
1 of 27
NSEO
201401227 남궁동
201401230 박성원
201401234 신용헌
201401244 이상훈
201401254 최준호
1
(인공지능) 데이터 분석을 통한 (온라인 상품) 판매량 예측 모델
목차
3 연구 배경
5 관련 연구 및 사례
10 현존하는 사업과의 차이점 -> 기존 서비스와의 차별점
12 제안 방법
26 점수측정 방식
분석결과
28 일정 & 역할분담
2
4
키워드/상품명/태그 이미지 검색엔진 카테고리 서비스 방식 비용
현행 SEO
업체
크롤링을 통한
키워드 발굴
전문가들의
인력을 이용하여
분석 및 추천
알고리즘에 맞추어
다양한 홈페이지 개발
카테고리 설정에 관해
선 정보가 없음
고객 상담형 고가
NSEO 가이드 라인에 의해
기준을 세우고 평가
권장규격 평가 네이버 스토어를 대상 해당 키워드의 카테고
리 적합성 판단
고객이
직접입력
저가 또는 무료
11
12
주택 가격 예측모델을 활용한 판매량 예측 모델 만들기
데이터 프레임을 그대로 가져와서 train set과 test set을 만들어 준다.
주택 가격 예측모델을 활용한 판매량 예측 모델 만들기
모델을 만들어 준다.
여기선 평균 제곱 오차(Mean Absolute Error)를 활용하여서 모델의 정확도를 알아본다.
주택 가격 예측모델을 활용한 판매량 예측 모델 만들기
K-겹 교차 검증을 이용하여 모델의 정확도를 높여준다.
주택 가격 예측모델을 활용한 판매량 예측 모델 만들기
MAE 즉 평균제곱 오차의 값을 그래프로 나타내어 보기 편하게 한것이다.
주택 가격 예측모델을 활용한 판매량 예측 모델 만들기
모델을 학습시켜 테스트 해 본 결과 평균 제곱 오차가 1333정도 나온것을 알 수 있다.
판매량 예측에서 1333정도의 오차가 난다고 볼 수 있다.
14주차 결과물 및 결론
데이터의 양 증가 및 모델적용
기존 100개정도 사용했던 데이터의 양을 460개 정도로 늘려서 모델을 돌려보았다.
오른쪽 사진은 train data와 test data로 나누고 train data의 shape을 확인한 결과이다.
데이터의 양 증가 및 모델적용
기존보다 많은 양의 데이터로 다시 모델을 구동시킨 결과이다.
데이터의 양 증가 및 모델적용
기존 100개의 데이터를 사용했을 때의 val MAE 값보다 (1300~3000)
460개의 데이터를 사용했을때 val MAE 값이 훨씬 낮은 것을 알 수 있다. (400~900)
데이터의 양 증가 및 모델적용
최종적으로 모델에 적용했을때 MAE 값이 311이 나온것을 확인할 수 있다.
해석하면 예측을 했을때 예측값에서 311정도의 오차가 날 수 있다는 뜻이다.
결론
추가적으로 코드를 모르는 사람이 봐도 이해할 수 있도록 보완하기
INPUT = 제목과 가격 입력
-> 딥러닝 모델으로 판매량 예측하기
OUTPUT = 판매량을 오차범위 311개 내로 예측 (입력하는 품목에 따라 다를수 있음)
13주차 (딥러닝)
입력 데이터
▶ 기존 데이터에
텍스트 정보 추가
▶입력 변수
: 랭킹, 제품명, 가격, 리뷰
▶ 출력 변수
: 구매횟수
딥러닝 학습 코드
▶ 전체 데이터 中 10%를 Test셋으로 사용
▶ Train셋 中 20%를 검증셋으로 사용함
▶ 데이터중 랜덤으로 훈련셋과 검증셋을 분리함
학습 결과
학습 결과
-데이터 분석
4 .텍스트 전처리
정제 AND 정규화
· 정제(cleaning) : 갖고 있는 코퍼스로부터 노이
즈 데이터를 제거한다.
· 정규화(normalization) : 표현 방법이 다른 단
어들을 통합시켜서 같은 단어로 만들어준다.
어간 추출 AND 표제어 추출
표제어 추출(lemmazation): 표제어 추출은 단어들
이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가
서 단어의 개수를 줄일 수 있는지 판단
제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
-데이터 분석
4 .텍스트 전처리(불용어 사전 예시)
제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
-카테고리
총 4692개의 카테고리/분류 DB
이 DB를 이용하여 우리 프로그램에 고객이
상품등록을 하고자 할 때,
상품에 관련한 키워드만 입력해 주면
네이버 쇼핑사이트에 상위 랭크된 상품
카테고리/분류 정보를 얻어 올 수 있음
제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
-카테고리
검색 키워드: 아이스 잔
카테고리 DB코드
제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
10주 일정계획
W1 W2 W3 W4 W5 W6 W7 W8 W9 W10
기획
관련사례 조사
데이터 수집
필요기술 조사
프로그램 설계
개발
프로그램 개발
서버 구축
최종 테스트
수정 피드백 수정
28

More Related Content

Similar to 캡스톤디자인

앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
Jungkyu Lee
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한
s song
 

Similar to 캡스톤디자인 (20)

[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices[PAP] 실무자를 위한 인과추론 활용 : Best Practices
[PAP] 실무자를 위한 인과추론 활용 : Best Practices
 
Create a solution including deep learning models
Create a solution including deep learning modelsCreate a solution including deep learning models
Create a solution including deep learning models
 
앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발앙상블 학습 기반의 추천시스템 개발
앙상블 학습 기반의 추천시스템 개발
 
검색엔진에 적용된 딥러닝 모델 방법론
검색엔진에 적용된 딥러닝 모델 방법론검색엔진에 적용된 딥러닝 모델 방법론
검색엔진에 적용된 딥러닝 모델 방법론
 
[직장인환급과정]구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정_구글애널리틱스학원/데이터탐색/직장인환급/재직자향상과정/환급과정/국비지원
[직장인환급과정]구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정_구글애널리틱스학원/데이터탐색/직장인환급/재직자향상과정/환급과정/국비지원[직장인환급과정]구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정_구글애널리틱스학원/데이터탐색/직장인환급/재직자향상과정/환급과정/국비지원
[직장인환급과정]구글 애널리틱스를 활용한 분석용 데이터탐색 재직자향상과정_구글애널리틱스학원/데이터탐색/직장인환급/재직자향상과정/환급과정/국비지원
 
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
링크드인의 Big Data Recommendation Products - 어제의 데이터를 통해 내일을 예측한다
 
개발이 테스트를 만났을 때(Shift left testing)
개발이 테스트를 만났을 때(Shift left testing)개발이 테스트를 만났을 때(Shift left testing)
개발이 테스트를 만났을 때(Shift left testing)
 
HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델HR Analytics - 퇴직가능성예측모델
HR Analytics - 퇴직가능성예측모델
 
Bert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP ChallengeBert3q KorQuAD Finetuning NLP Challenge
Bert3q KorQuAD Finetuning NLP Challenge
 
Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한 Diquest 김경선 엔터프라이즈 검색에 적합한
Diquest 김경선 엔터프라이즈 검색에 적합한
 
kaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptxkaggle hm fashion recsys pjct 발표 자료.pptx
kaggle hm fashion recsys pjct 발표 자료.pptx
 
Deep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendationsDeep neural networks for You-Tube recommendations
Deep neural networks for You-Tube recommendations
 
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석파이썬 라이브러리로 쉽게 시작하는 데이터 분석
파이썬 라이브러리로 쉽게 시작하는 데이터 분석
 
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
S.M.Lee, Invited Talk on "Machine Learning-based Anomaly Detection"
 
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
[부스트캠프 Tech Talk] 구건모_모델링 자동화와 실험 검증 전략
 
HR Analytics
HR AnalyticsHR Analytics
HR Analytics
 
Online price dispersion a game theoretic
Online price dispersion a game theoreticOnline price dispersion a game theoretic
Online price dispersion a game theoretic
 
eCommerce Recommendation project
eCommerce Recommendation projecteCommerce Recommendation project
eCommerce Recommendation project
 
권기훈_포트폴리오
권기훈_포트폴리오권기훈_포트폴리오
권기훈_포트폴리오
 
Ml
MlMl
Ml
 

캡스톤디자인

  • 1. NSEO 201401227 남궁동 201401230 박성원 201401234 신용헌 201401244 이상훈 201401254 최준호 1 (인공지능) 데이터 분석을 통한 (온라인 상품) 판매량 예측 모델
  • 2. 목차 3 연구 배경 5 관련 연구 및 사례 10 현존하는 사업과의 차이점 -> 기존 서비스와의 차별점 12 제안 방법 26 점수측정 방식 분석결과 28 일정 & 역할분담 2
  • 3. 4
  • 4. 키워드/상품명/태그 이미지 검색엔진 카테고리 서비스 방식 비용 현행 SEO 업체 크롤링을 통한 키워드 발굴 전문가들의 인력을 이용하여 분석 및 추천 알고리즘에 맞추어 다양한 홈페이지 개발 카테고리 설정에 관해 선 정보가 없음 고객 상담형 고가 NSEO 가이드 라인에 의해 기준을 세우고 평가 권장규격 평가 네이버 스토어를 대상 해당 키워드의 카테고 리 적합성 판단 고객이 직접입력 저가 또는 무료 11
  • 5. 12
  • 6. 주택 가격 예측모델을 활용한 판매량 예측 모델 만들기 데이터 프레임을 그대로 가져와서 train set과 test set을 만들어 준다.
  • 7. 주택 가격 예측모델을 활용한 판매량 예측 모델 만들기 모델을 만들어 준다. 여기선 평균 제곱 오차(Mean Absolute Error)를 활용하여서 모델의 정확도를 알아본다.
  • 8. 주택 가격 예측모델을 활용한 판매량 예측 모델 만들기 K-겹 교차 검증을 이용하여 모델의 정확도를 높여준다.
  • 9. 주택 가격 예측모델을 활용한 판매량 예측 모델 만들기 MAE 즉 평균제곱 오차의 값을 그래프로 나타내어 보기 편하게 한것이다.
  • 10. 주택 가격 예측모델을 활용한 판매량 예측 모델 만들기 모델을 학습시켜 테스트 해 본 결과 평균 제곱 오차가 1333정도 나온것을 알 수 있다. 판매량 예측에서 1333정도의 오차가 난다고 볼 수 있다.
  • 12. 데이터의 양 증가 및 모델적용 기존 100개정도 사용했던 데이터의 양을 460개 정도로 늘려서 모델을 돌려보았다. 오른쪽 사진은 train data와 test data로 나누고 train data의 shape을 확인한 결과이다.
  • 13. 데이터의 양 증가 및 모델적용 기존보다 많은 양의 데이터로 다시 모델을 구동시킨 결과이다.
  • 14. 데이터의 양 증가 및 모델적용 기존 100개의 데이터를 사용했을 때의 val MAE 값보다 (1300~3000) 460개의 데이터를 사용했을때 val MAE 값이 훨씬 낮은 것을 알 수 있다. (400~900)
  • 15. 데이터의 양 증가 및 모델적용 최종적으로 모델에 적용했을때 MAE 값이 311이 나온것을 확인할 수 있다. 해석하면 예측을 했을때 예측값에서 311정도의 오차가 날 수 있다는 뜻이다.
  • 16. 결론 추가적으로 코드를 모르는 사람이 봐도 이해할 수 있도록 보완하기 INPUT = 제목과 가격 입력 -> 딥러닝 모델으로 판매량 예측하기 OUTPUT = 판매량을 오차범위 311개 내로 예측 (입력하는 품목에 따라 다를수 있음)
  • 18. 입력 데이터 ▶ 기존 데이터에 텍스트 정보 추가 ▶입력 변수 : 랭킹, 제품명, 가격, 리뷰 ▶ 출력 변수 : 구매횟수
  • 19. 딥러닝 학습 코드 ▶ 전체 데이터 中 10%를 Test셋으로 사용 ▶ Train셋 中 20%를 검증셋으로 사용함 ▶ 데이터중 랜덤으로 훈련셋과 검증셋을 분리함
  • 22.
  • 23. -데이터 분석 4 .텍스트 전처리 정제 AND 정규화 · 정제(cleaning) : 갖고 있는 코퍼스로부터 노이 즈 데이터를 제거한다. · 정규화(normalization) : 표현 방법이 다른 단 어들을 통합시켜서 같은 단어로 만들어준다. 어간 추출 AND 표제어 추출 표제어 추출(lemmazation): 표제어 추출은 단어들 이 다른 형태를 가지더라도, 그 뿌리 단어를 찾아가 서 단어의 개수를 줄일 수 있는지 판단 제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
  • 24. -데이터 분석 4 .텍스트 전처리(불용어 사전 예시) 제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
  • 25. -카테고리 총 4692개의 카테고리/분류 DB 이 DB를 이용하여 우리 프로그램에 고객이 상품등록을 하고자 할 때, 상품에 관련한 키워드만 입력해 주면 네이버 쇼핑사이트에 상위 랭크된 상품 카테고리/분류 정보를 얻어 올 수 있음 제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
  • 26. -카테고리 검색 키워드: 아이스 잔 카테고리 DB코드 제품명 추천을 위한 상위 7개 업체에 대한 데이터 수집
  • 27. 10주 일정계획 W1 W2 W3 W4 W5 W6 W7 W8 W9 W10 기획 관련사례 조사 데이터 수집 필요기술 조사 프로그램 설계 개발 프로그램 개발 서버 구축 최종 테스트 수정 피드백 수정 28