Your SlideShare is downloading. ×
온라인 물가지수 분석을 위한 빅데이터 융합분석 방법
Upcoming SlideShare
Loading in...5
×

Thanks for flagging this SlideShare!

Oops! An error has occurred.

×

Introducing the official SlideShare app

Stunning, full-screen experience for iPhone and Android

Text the download link to your phone

Standard text messaging rates apply

온라인 물가지수 분석을 위한 빅데이터 융합분석 방법

2,592
views

Published on

2013 한국데이터사이언스학회 학술대회 및 정기총회(2013. 11. 29) …

2013 한국데이터사이언스학회 학술대회 및 정기총회(2013. 11. 29)
오픈 SNS 이상호 소장의 “온라인 물가지수 분석을 위한 빅데이터 융합분석 방법” 발표 자료입니다.

Published in: Social Media

0 Comments
2 Likes
Statistics
Notes
  • Be the first to comment

No Downloads
Views
Total Views
2,592
On Slideshare
0
From Embeds
0
Number of Embeds
5
Actions
Shares
0
Downloads
35
Comments
0
Likes
2
Embeds 0
No embeds

Report content
Flagged as inappropriate Flag as inappropriate
Flag as inappropriate

Select your reason for flagging this presentation as inappropriate.

Cancel
No notes for slide

Transcript

  • 1. 오픈SNS 연구소 이상호
  • 2. I. II. III. IV. V. VI. 온라인 물가지수 개요 한국형 BPP 분석 방법론 감성지수 분석 방법론 온라인 물가지수 융합분석 제약사항 결론 및 향후 발전 방향
  • 3. 1. 2. 3. 4. 5. 6. CPI 온라인 물가지수 CPI 단점 온라인 물가지수 강점 한국형 BPP & MBPP 감성지수
  • 4.    도시가계가 일상생활을 영위하기 위해 구입하는 상품가격과 서비스 요금의 변동을 종합적으로 측 정하기 위해 작성하는 지수 2010년을 기준(=100)으로 가계소비지출에서 차 지하는 비중이 1/10,000 이상인 품목 481개를 대상으로 작성 5년 단위 품목 및 기준 재설정
  • 5.   데이터 모델을 온라인상으로 한정하여 CPI와 같이 물가지수를 산정 구글물가지수(Google Price Index) ◦ 2013.10 전미실물경제협회(NABE) 콘퍼런스  BPP(Billion Price Project) ◦ MIT의 물가지수 프로젝트 ◦ 국가별 대표적인 온라인 마트의 가격 동향 조사결과를 지 수화
  • 6. 소비자의 구매 패턴 변화 반영이 어려움 생활비 추가 지출분에 대한 물가지수 반영이 어려움 물가지수 분석의 신속성과 예측이 어려움
  • 7. 시간적 측면 • web crawling 이용하여 빠른 시간 내에 대 용량 데이터 수집 비용 측면 • 온라인에서 판매되는 상품의 가격 정보를 기 계적으로 수집하기 때문에 비용절감 기술의 진보 • 대용량 수집/저장/분석 및 변동된 가격 정보 를 자동 추출하는 기술 자동화
  • 8. 한국형 BPP MIT - 전세계적으로 물가지수 조사 - 국가별 대표적인 온라인 마 켓을 대상으로 조사 - 특정 품목에 한정 MBPP - Modified BPP - 온라인 마켓의 특성 응 용 한국형 - CPI 조사 품목에 대해 전반 적인 조사 가능 - 국내 온라인 마켓을 전수 조 사 - 많이 팔리는 품목에 가 중치를 두는 방식
  • 9.   일반 소비자가 느끼는 물가에 대한 감성적 지수 “싸다”, ”비싸다”에 대한 의견으로 소비자가 체감하는 느 낌에 대한 평가 지수  주관적 기준이며, 절대적인 평가기준은 없음  집단지성처럼 많은 통계치가 모였을 때 의미를 가짐
  • 10. 1. 2. 3. 산출 방법론 산출 예 산출 절차
  • 11. 개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지) BPP 물가지수 산출 시점 t에서의 품목 레벨 지수. Jevons Index 품목 내 가중치가 없는 기하평균 품목지수 Chain Index 기준시점부터 현재시점까지 계산된 개별 품목지수의 곱으로 기준시점 기준 지수. Supermarket Index 산술 가중 평균을 이용한 최종 BPP물가지수
  • 12. 기본분류ID 품목ID site 상품 id 일자 오늘가격 A015 48 emart 해참기름 E12321 09/01 7000 A015 48 emart 오참기름 E12327 09/01 6600 A015 48 homeplus 오참기름 H22221 09/01 6500 A015 48 lotte 그냥참기름 L0001 09/01 7200 A015 49 emart 해식용유 E12355 09/01 4000 A015 49 homeplus 해식용유 H22223 09/01 3800 A015 49 lotte 그냥식용유 L00011 09/01 3900 ….. 기본분류ID 품목ID site 상품 id 어제가격 A015 48 emart 해참기름 E12321 09/02 7100 A015 48 emart 오참기름 E12327 09/02 6600 A015 48 homeplus 오참기름 H22221 09/02 6700 A015 48 lotte 그냥참기름 L0001 09/02 7500 A015 49 emart 해식용유 E12355 09/02 4100 A015 49 homeplus 해식용유 H22223 09/02 4100 A015 49 lotte 그냥식용유 L00011 09/02 4350 ….. 오늘가격
  • 13. Step 0. 데이터 준비 기본분류ID 품목ID site 상품 id A015 48 emart 해참기름 E12321 7000 7100 A015 48 emart 오참기름 E12327 6600 6600 A015 48 homeplus 오참기름 H22221 6500 6700 A015 48 lotte 그냥참기름 L0001 7200 7500 A015 49 emart 해식용유 E12355 4000 4100 A015 49 homeplus 해식용유 H22223 3800 4100 A015 49 lotte 그냥식용유 L00011 3900 4350 ….. 9/1 9/2
  • 14. 기본분류ID 품목ID site 상품 id 어제가격 오늘가격 A015 48 emart 해참기름 E12321 7000 7100 A015 48 emart 오참기름 E12327 6600 6600 A015 48 homeplus 오참기름 H22221 6500 6700 A015 48 lotte 그냥참기름 L0001 7200 7500 A015 49 emart 해식용유 E12355 4000 4100 A015 49 homeplus 해식용유 H22223 3800 4100 A015 49 lotte 그냥식용유 L00011 3900 4350 ….. 개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지) BPP 물가지수 산출 Step1. 개별품목지수 계산 ex. 48 품목에 대한 개별품목지수= 4 7100 6600 6700 7500 * * *  1.021557 7000 6600 6500 7200
  • 15. 개별 품목 지수 BPP 물가지수 산출 품목 물가지수 (기준시점부터 현재시점까지) Step2. 품목물가지수 계산 - 기준시점 9/1, 현재시점 9/5 가정 품목ID 날짜 개별품목지수 품목물가지수 계산 품목물가지수 48 09/ 01 1.0216 =1.0216 1.0216 48 09/ 02 1.0355 =1.0216*1.0355 1.0578 48 09/ 03 1.4562 =1.0216*1.0355*1.4562 1.5404 48 09/ 04 1.0523 =1.0216*1.0355*1.4562*1.0523 1.6210 48 09/ 05 1.0123 =1.0216*1.0355*1.4562*1.0523*1.0123 1.6409 49 09/ 01 1.0015 =1.0015 1.0015 49 09/ 02 1.0322 =1.0015*1.0322 1.0337 49 09/ 03 1.2455 =1.0015*1.0322*1.2455 1.2875 49 09/ 04 1.0015 =1.0015*1.0322*1.2455*1.0015 1.2895 49 09/ 05 1.0565 =1.0015*1.0322*1.2455*1.0015*1.0565 1.3623
  • 16. 품목ID 날짜 개별품목지수 48 09/ 01 1.0216 =1.0216 1.0216 48 09/ 02 1.0355 =1.0216*1.0355 1.0578 48 09/ 03 1.4562 =1.0216*1.0355*1.4562 1.5404 48 09/ 04 1.0523 =1.0216*1.0355*1.4562*1.0523 1.6210 48 09/ 05 1.0123 =1.0216*1.0355*1.4562*1.0523*1.0123 1.6409 49 09/ 01 1.0015 =1.0015 1.0015 49 09/ 02 1.0322 =1.0015*1.0322 1.0337 49 09/ 03 1.2455 =1.0015*1.0322*1.2455 1.2875 49 09/ 04 1.0015 =1.0015*1.0322*1.2455*1.0015 1.2895 49 09/ 05 1.0565 =1.0015*1.0322*1.2455*1.0015*1.0565 1.3623 개별 품목 지수 품목 물가지수 (기준시점부터 현재시점까지) 품목물가지수 계산 품목물가지수 BPP 물가지수 산출 Step3. BPP물가지수 계산 - 48 품목 가중치가 0.6이고 49 품목 가중치가 0.7이라고 가정 날짜 BPP물가지수계산 BPP물가지수 09/ 01 =0.6/(0.6+0.7)*1.0216+0.7/(0.6+0.7)*1.0015 1.0108 09/ 02 =0.6/(0.6+0.7)*1.0578+0.7/(0.6+0.7)*1.0337 1.0448 09/ 03 =0.6/(0.6+0.7)*1.5404+0.7/(0.6+0.7)*1.2875 1.4042 09/ 04 =0.6/(0.6+0.7)*1.621+0.7/(0.6+0.7)*1.2895 1.4425 09/ 05 =0.6/(0.6+0.7)*1.6409+0.7/(0.6+0.7)*1.3623 1.4909 …
  • 17. 수집 파싱 저장 QC 지수 산출 시각화
  • 18. 수집 파싱 저장 QC 지수 산출 시각화
  • 19. 크롤링 (crawling) 파싱 저장 QC 지수 산출 시각화 HTML 제목 품목 ID 품목명 상품ID 가격 배송료 [반값도전] 이마트 드림뷰2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000
  • 20. 수집 파싱 지수 산출 QC 저장 시각화 제목 품목 ID 품목명 상품ID 가격 배송료 [반값도전] 이마트 드림뷰2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000 Site 코드 수집일시 제목 품목 ID 품목명 상품ID 가격 배송료 노출 페이지 페이지내 순서 emart 20131111 [반값도전] 이마트 드림뷰 2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000 1 1 ... ... ... ... ... ... ... ... ... ...
  • 21. 크롤링 (crawling) 파싱 (Parsing) 저장 지수 산출 QC 시각화 Site 코드 수집일시 제목 품목 ID 품목명 상품ID 가격 배송료 노출 페이지 페이지내 순서 emart 20131111 [반값도전] 이마트 드림뷰 2 LED TV 10.. TV0947 LEDTV LEDTV654 699,000 30,000 1 1 ... ... ... ... ... ... ... ... ... ... BPP 변화 추이
  • 22. 1. 2. 소셜 감성분석 개요 분석 방법론
  • 23. 다양한 분야에 대한 의견들이 블로그, 카페, 커뮤니티 등의 다양한 채널을 통해 존재 인터넷에는 상품, 브랜드, 인물, 이슈 등의 사용자들의 의견을 주제별로 수집하여, 긍정/부정을 평가하고 이에 대한 속성별, 시간별, 출처별로 통계를 리포팅 긍정/부정을 지수화
  • 24. 웹 수집기 SNS 유사문서 필터 수집문서 DB 블로그/카페 수집댓글 DB 뉴스/게시판 주제적합 문서판단 감성 추출기 Buzz 통계 및 키워드네트워크 색인 DB 분석 Scheduler 감성사전 DB 데이터 색인 사용자 감성분석 DB 통계DB
  • 25. 1. 2. 융합분석 의도 시각화 및 비교분석
  • 26.  단일 품목별 급등락하는 시점에 소비자가 느끼는 가격에 대한 감성분석  정성적으로 느끼는 체감 가격을 정량적으로 수치화  BPP의 변곡점별 감성분석 결과에 대한 모니터링
  • 27. BPP BPP 변화 추이 감성지수
  • 28.  과연 팔리는 물건인가? ◦ 온라인 업체의 판매량 및 품목에 대한 조사 필요  매일 전수조사가 가능한가? ◦ 네이버 지식쇼핑 건수 : 1억건 이상  온라인상으로 수집하지 못하는 품목은? ◦ 지역별 버스요금 등  잘못된 가격정보 게시 ◦ 부정확한 전국 주요소별 가격 정보 등
  • 29. 1. 2. 3. 결론 지역을 고려한 분석 MBPP에 대한 연구
  • 30.  BPP 효용성 ◦ 국가별 CPI와 비교시 추세가 아주 유사함 ◦ 특정 국가는 CPI가 BPP대비 월등히 낮게 발표되고 있음  CPI 비교 ◦ 대체수단으로서의 BPP는 더 연구가 필요함 ◦ BPP가 추세적으로 유사한 경우 활용성이 있을 것으로 예 상 ◦ CPI의 보조지표로 BPP 활용 가능
  • 31.  물가는 지역별로 차이가 있음  지역 고려 시 온라인 물가지수 문제점 ◦ 대부분의 온라인 사이트는 전국단위로 구성됨  온라인화 되어 있는 지역별 재래시장 및 도소매 시 장 가격 추적 필요
  • 32. 어떤 것을 많이 살까?