제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
제 15회 보아즈(BOAZ) 빅데이터 컨퍼런스 - [리뷰의 재발견 팀] : 이커머스 리뷰 유용성 파악 및 필터링BOAZ Bigdata
데이터 분석 프로젝트를 진행한 리뷰의 재발견 팀에서는 아래와 같은 프로젝트를 진행했습다.
Review? Re-View!
물건 살 때 우리는 리뷰를 보며 많은 정보를 얻습니다❕여러분이 보는 그 리뷰의 유용성을 저희가 알려드릴게요
리뷰 유용성 판단부터 토픽으로 알아보는 리뷰 유용성 결정 요인 분석, 군집화를 통한 대표 리뷰 추출까지
우리 같이 Review를 Re-View해봐요
16기 정수연 한양대 파이낸스경영학과
16기 문예진 서강대 경제학부 / 빅데이터 사이언스
16기 이상민 경희대 소프트웨어융합학과
16기 황의린 숙명여대 생명시스템학부 / 통계학과
16기 정승연 연세대 대학원 전산언어학
2. Chapter 01 시장조사 연구의 타당성, 신뢰성 및 샘플링
Chapter 02 요인분석의 실제 – SPSS 패키지를 활용하여-
3. 시장조사 연구방법론 중요 사항
◼ 시장조사 연구자들은 사회현상에 대한 설명(explanation), 예측
(prediction), 통제(control)에 주로 관심을 가짐
◼ 시장조사 연구 방법론에서는 특정 개념을 표현하기 위해서 측정
치를 사용하여
◼ 모델을 구성하는 특정 모수(요인적재량)의 추정치를 획득함
◼ 척도의 신뢰도, 타당도 및 측정모델의 적합도 평가가 중요함
4. 시장조사 연구방법론 중요 사항 2
◼ 척도의 종류
▪ 명목 척도(남녀 구분)
▪ 서열 척도(성적의 1등 2등 구분)
▪ 등간 척도(나는 BTS를 매우 좋아하는 정도의 간격을 표시한 구분)
▪ 비율 척도(나는 BTS를 음악가 전체에서 75% 비율로 좋아한다의 구분)
◼ 지표(indicator)의 특징
▪ 관측변수가 잠재변수에 어떠한 식으로 관련되어 있느냐의 문제를 파악
하는 것이 중요하며
▪ 일반적으로 관측변수가 잠재변수에 반영지표로서 작용하는 것을 가정
하는데
▪ 그러나 반영지표가 아닌 조형지표로 설정해야 하는 경우도 많음
5. 반영지표와 조형지표
◼ 인과방향에 따라 지표를 두 종류로 나눌 수 있음
◼ 반영지표(reflective indicator)
▪ 잠재변수가 관측변수를 야기하는 것으로 간주
▪ 결과지표(effect indicator)라 하기도 함
◼ 조형지표(formative indicator)
▪ 관측변수가 잠재변수를 야기하는 것으로 간주
▪ 원인지표(cause indicator)라 하기도 함
◼ 시장조사론을 포함한 사회과학 연구에서는 조형지표가 오히려 적
절함에도 불구하고 이를 무시하고 분석하는 경향이 있기 때문에
지표의 인과적 방향을 신중히 고려하여야 함
6. 반영지표와 조형지표 2
◼ 지표가 잠재변수의 원인인가 혹은 결과인가를 결정하기 위해서는
◼ 인과적 우선순위를 설정하는 것이 필요한데 이의 한 방법으로는
시간적 우선 순위를 들 수 있음 (예: 교육과 사회경제적지위에서
교육은 조형지표임)
◼ 지표의 인과적 방향이 중요함을
◼ Cohen etc.(1990)은 다음과 같이 지적하고 있음 :
◼ “사회과학 및 행동과학의 저널에서 연구 결론의 타당도에 대해 심
각한 의문을 제기하는 가장 보편적이 실수이다”
▪ Cohen, P., J. Cohen, J. Teresi, M. Marchi, and C. N. Velez(1990),
“Problems in the Measurement of Latent Variables in Structural
Equations Causal Models,” Applied Psychological Measurement,
14, 183-96.
7. Chapter 01. 타당성과 신뢰성
◼ 타당성이란?
• 연구자가 어떤 연구문제에 대한 설문조사를 실시했을 때,
그 설문 자료가 얼마나 정확하게 측정되었는가를 판단하는 기준
9. Chapter 01. 타당성과 신뢰성
◼ 신뢰성이란?
• 연구자가 어떤 연구문제에 대해 실시한 설문조사에 대하여 그 조사를 다시 반복한다고
가정할 때, 그 결과가 얼마나 원래 측정치와 일치할지를 나타내는 척도이다.
◼ 크론바흐 알파계수를 이용하는 방법
• 항목 간의 상관관계를 계산해서 변형하는 방법
• 측정도구의 문항 수에 따라 값이 변함
• 크론바흐 알파계수는 0~1 사이의 값을 가짐
• 계수가 높을수록 신뢰성이 높은 것으로 판단
11. Chapter 02. 요인분석
◼ 요인분석이란?
• 등간척도나 비율척도로 이루어진 대상을 분석
• 여러 변수들 간의 공분산과 상관관계 등을 이용하여 변수들 간의 상호관계를 분석, 그
결과를 토대로 문항과 변수들 간의 상관성 및 구조를 파악하여 여러 변수들이 지닌 정
보를 적은 수의 요인으로 묶어서 나타내는 분석 기법
• R-type 요인분석 : 변인(평가항목)들을 기준으로 요인들을 구분
• Q-type 요인분석 : 개별 응답자들에 대하여 케이스별로 상이한 특성을 가지는 개인들
을 상호 동질적인 몇 개의 집단으로 구분하는 것
– 계산하기 어렵다는 문제가 있어 일반적으로 군집분석을 대안으로 사용
14. Chapter 02. 요인분석
◼ 요인분석 2
▪ 대부분의 사회과학용 통계학 교재에서 설명하고 있는 방법
• 논문을 작성하는 과정에서 많은 연구자들이 적용해온 방법
▪ 해석과정에서 문제 제기 가능성
• 요인들 간에 서로 독립적이라는 가정 하에서 회전방식인 직각회전을 실시하여 얻은 결
과이기 때문에 공분산은 0이다.
• 때문에 모든 표를 확인한다는 점에 초점을 맞추어 ‘ 최대우도’의 방법과 사각회전 방법
으로 가시 한번 정확하게 분석해야 한다.
▪ 요인분석 1과 요인분석 2를 비교
• 분석 과정은 대부분 동일하고 에서만 차이가 나타남
• 요인분석 2를 확인해 보면 두 분석 방법 간의 명확한 차이를 알 수 있다.
15. 준비파일 : 요인분석.xls
요인분석 2
01
02
SPSS Statistics를 구동하여 ‘요인분석.xls’ 불러오기
데이터 편집창에서 요인분석을 클릭
정확한 방법
26. 준비파일 : 요인분석.xls
• [기술통계량]: 1~15번의 설문 문항에 대한 응답을 기반으로 평균과 표준편차가 계산
✓ ‘분석수’는 각각의 설문 문항에 응답한 수로, 표본의 수와 같다
• [KMO와 Bartlett의 검정]: 설문 문항 15개에 대하여 요인분석을 실시하는 것이 적합한지를 확인하는 기
준이 된다
✓ KMO>.5, Bartlett의 p<.01를 만족하므로, 지금 진행 중인 요인분석이 적절하다 판단할 수 있다
요인분석 2
27. 준비파일 : 요인분석.xls
요인분석 2
• [상관행렬]: 1~15번의 설문 문항 간의 상관관계를 나타낸 값
28. 준비파일 : 요인분석.xls
• [공통성]: 추출된 요인들에 의해 설명되는 변수의 분산을 나타냄
✓ 1번 문항이 공통요인을 설명하는 데 있어서 .826(8.6%)만큼의 설명력이 있다는 의미
• [설명된 총분산]: 요인들이 가진 변수의 분산 설명도를 나타냄
✓ ㅊ 의 요인추출 창에서 고유값이 1 이상인 요인을 추출하겠다 설정했으며, 이 설정대로 추
출된 5개의 요인으로 회전 전과 후의 고유값을 판단
✓ 추출된 요인들 5개가 전체 입력변수의 79.103%를 설명하고, 추출된 적재값은 69.479%를 설명
✓ 추출된 요인 적재값(추출 제곱합 적재값: % 누적 행의 마지막 줄)은 일반적으로 사회과학 연구에
서는 60% 이상, 자연과학에서는 95% 이상으로 확인한다
요인분석 2
29. 준비파일 : 요인분석.xls
• [스크리 도표]: [설명된 총분산] 표에서 확인할 수 있는 15가지 성분들의 고유값(eigen value)을 큰 값에
서 작은 값 순으로 그래프롤 보여줌
✓ 의 요인추출 창에서 고유값이 1 이상인 요인을 추출하겠다 설정, 총 5개의 성분이 요인으
로 추출되었음을 그래프로 확인
✓ 고유값이 1보다 크면 하나의 요인이 변수 1개 이상의 분산을 설명한다는 의미
✓ 1보다 작은 것은 요인으로서의 의미가 없음을 나타내기 때문에 그 경계값으로 ‘1’이 설정 됨
요인분석 2
30. 준비파일 : 요인분석.xls
• [요인행렬]: 요인적재 값은 각 변수와 해당 요인 간의 상관계수를 나타냄
✓ 상관계수를 의미하는 표가 제시되는 것이 요인 간 ‘(상수관계)=0’을 가정하는 직각행렬과 다른 부분
✓ ‘요인분석 1’의 분석결과에서 요인과 변수 간의 상관행렬을 표시하지 못했던 이유는 직각회전이 변
수들 간의 ‘(상관계수)=0’을 가정하고 있기 때문
• [적합도 검정]: 변수들을 서로 나누어 놓은 것이 적합한 것인지 검정
✓ 적합도 검정은 카이제곱 검정을 통해 진행, 이에 대한 유의확률이 제시됨
✓ P<0.5 이므로 귀무가설이 기각하여, 변수들을 5가지로 구분하는 것이 적합하다는 것을 확인
• [요인 상관행렬]: 각 요인 간의 상관계수를 나타냄
요인분석 2
32. 준비파일 : 요인분석.xls
• [패턴행렬]: 이 표는 직각회전에서의 [회전된 성분행렬] 표와 같다고 생각하면 됨
✓ 요인점수를 이용, 해당 사례의 특정 변인을 예측하는 선형방정식 계수를 기준으로, 요인회전 후의
요인 적재량을 계산하여 요인의 직접적 효과를 나타냄
✓ .3이상이면 추출된 요인이 통계적으로 의미 있다 판단, .5이상이면 매우 유의한 것으로 판단
✓ 경우에 따라 요인들 간의 직접적/간접적 영향을 모두 고려하기 때문에 1이 넘어가는 경우도 있음
요인분석 2
33. 준비파일 : 요인분석.xls
• [구조행렬]: 이 표의 요인 적재값은 요인과 변인의 상관계수를 나타냄
✓ 상관관계를 나타내는 계수에는 패턴행렬에서의 선형방정식과 같이 직/간접효과가 모두 반영
✓ ‘직접 오블리민’과 같은 사각회전 방법: 요인들 간의 독립성이 가정되지 않으므로 상호연관을 가지고
직/간접적 영향을 고려
✓ 직각회전의 경우: 결과값을 쉽게 구하지 못하므로 여러 가지 행렬을 산출하여 복합적으로 판단
✓ 요인들 간의 상관관계가 독립적: 타 요인을 통한 간접효과가 없어 패턴행렬과 구조 행렬 값은 같다
요인분석 2
34. 준비파일 : 요인분석.xls
• [회전된 요인 공간에서의 도표]: 요인 1,2,3
의 좌표 공간에서 변수들의 위치를 점으로
표현한 것
• [요인점수 계수행렬]
✓ 여러 변수를 5개의 요인으로 축소, 축소된 각 요인에 대한 응답 결과를 계수화하여 각 요인의 표준화
값을 곱한 후 이를 모두 더한다. 이렇게 더한 각 요인들에 대한 응답의 행렬을 의미
요인분석 2
35. 준비파일 : 요인분석.xls
• [요인점수 공분산 행렬]
✓ 모든 값이 0이 아니다.
✓ 베리맥스 회전을 실행한 분석은 상관관계가 없다(독립적)는 사실을 전제로 분석하였으나, ‘직접 오블
리민’은 변수 간 상관관계가 있다(독립적이지 않음)는 사실을 전제로 분석했기 때문
요인분석 2
36. 요인분석 2
• 요인분석은 설문 문항인 변수들을 서로 연관성이 있는 것끼리 묶어 간단하게 표현하기 위한 것
• 요인분석 결과를 제시할 때는 신뢰도분석까지 진행하여 요인분석과 신뢰도분석의 결과를 종합적으로
제시하는 것이 바람직하다.