연관도 분석을 이용한 데이터마이닝

연관도 분석을 이용한
데이터 마이닝
안랩 멀티플랫폼서비스개발팀
오근현
keunhyun.oh@ahnlab.com

데이터 홍수
데이터는 차고 넘치고 오늘 우리 자신도 어마어마한 데이터를
생산해냈다

데이터 과학 홍수
데이터 마이닝, 빅데이터, 데이터 과학, 통계, 시각화 등등 여
러 이름으로 데이터 기반 연구, 사업, 취미 생활이 활발히 이
루어짐(사실 오래전부터)

그래서 뭐할 수 있는데?

한번쯤 들어봤을만한 예제
• 질리도록 들었을…
• 마트의 상품진열도 아무 의미없이 하는게 아니더라
연관검색어에까지 나오는 예제

검색 엔진 연관 검색어 예시
단순 보는 것이 아니라 데이터 안에 숨겨진 의미와
의도도 추론가능(너는 아마 이것도 원할꺼야)

넷플릭스 추천 예시
나도 모르는 내 안에 숨겨진 욕망을 찾아내는 데
이터 과학

오늘의 학습목표
• 연관도 분석을 통해 수집된 데이터에 숨겨진 규칙을
알아낼 수 있다.
• 연관도 분석을 통해 데이터에서 정보를 캐낼 수 있
는(마이닝) 관점을 넓힌다.
• 내일의 나는 지금의 나보다 데이터를 의미있게 모으
고 사용하자.

위키 백과에서 말하는 데이터
• Data (/ˈdeɪtə/ day-tə, /ˈdætə/ da-tə, or /ˈdɑːtə/ dah-tə)
• A set of values of qualitative or quantitative variables
• Pieces of data are individual pieces of information
• Data is measured, collected and reported, and analyzed,
whereupon it can be visualized using graphs or images
• Data as a general concept refers to the fact that some
existing information or knowledge is represented or coded in
some form suitable for better usage or processing.
• (출처: 위키백과)

데이터 마이닝의 정의
• 대규모로 저장된 데이터 안에서 체계적이고 자동적
으로 통계적 규칙이나 패턴을 찾아 내는 것이다. (출
처: 위키백과)
• 데이터베이스로부터 과거에는 알지 못했지만 데이
터 속에서 유도된 새로운 데이터 모델을 발견하여
미래에 실행 가능한 정보를 추출해 내고 의사 결정
에 이용하는 과정을 말한다. (출처: 두산동아백과)

DATA MINING?
경험 속에서 정보 찾기!

Apriori Algorithm
• An algorithm for frequent item set mining and
association rule learning over transactional
databases.(출처: 위키백과)
• Agarwal and Srikant (1994)
• 데이터 각 아이템 사이의 연관성을 찾아내기 위한
알고리즘
• 추천, 상관 관계 추론, 사용관계 분석에 사용 가능

Apriori Algorithm 이해를 위한
예시1 (1/2)
• 예시 출처: 위키 백과
• 1단계: 각 아이템별 출현 횟수 계산
각 아이템별
빈도 계산
최소 빈도(Support; 지지도)에
미치지 못하는 데이터는 제거
실제 Apriori Algorithm에서는 확률
로 표시

Apriori Algorithm 이해를 위한
예시1 (2/2)
• 2단계: 1단계를 통과한 아이템을 기준으로 2개씩 쌍으로 묶음
• 3단계: 2단계를 통과한 2개씩 묶은 쌍 중 일정 빈도를 넘은 아이템을
기준으로 3개씩 묶은 아이템 셋(set)을 만듦.
• 4단계: 이런 식으로 반복, 반복, 반복 ==> 빈도를 넘은 아이템 셋을
모아서 규칙으로 정의

Support
• 아이템 또는 아이템 셋 X가 전체 데이터에서 표시되
는 비율
• X와 Y과 동시에 나타났을 경우의 Support
• Apriori Algorithm에서 파라메터로 쓰일 경우 해당
아이템 또는 아이템 셋이 규칙으로 의미를 가지기
위한 최소한의 비율로 사용

Confidence
• 아이템 또는 아이템 셋 X가 나타났을 때 아이템 Y가
나타나는 비율 ==> 조건부 확률
• 아이템 또는 아이템 셋 간의 상관관계를 나타냄
• 해당 값이 높다는 것은 해당 규칙으로 정의된 관계
의 상관성의 높고 일반화된 관계라는 의미

Lift
• 전체 아이템 셋에서 규칙이 얼마나 특별한지, 의미
있는지를 확인
• 조건부 확률식 계산에 의해 X와 Y가 독립이면 lift값은 1
• lift값이 1보다 클때, X와 Y가 상관관계가 있다 또는 의존성
이 있다라고 이야기함

Conviction
• Y 없이 X가 발생한 비율
• 찾아낸 규칙이 얼마나 잘못되었는지를 확인

알고리즘 의사 코드
• https://en.wikipedia.org/wiki/Apriori_algorithm

Apriori Algorithm 예제
출처:
https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww
.washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS-
4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc

Apriori Algorithm 예제 결
과
출처:
https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww
.washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS-
4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc

실습
• https://github.com/asaini/Apriori
• Support와 Confidence만 고려한 코드
• 실습 환경: Python 2.x
• 사용 예제:
• python apriori.py -f INTEGRATED-DATASET.csv -s
0.17 -c 0.68
• 데이터셋: A copy of the “Online directory of certified
businesses with a detailed profile” file from the Small
Business Services (SBS) dataset in the NYC Open
Data Sets

실습에 사용한 데이터 예시

실습 - main 코드 확인(1/2)

실습 - main 코드 확인(2/2)

실습 - 결과예시
아이템 별 Support
Confidence 기반 Rule

요약
• 데이터는 경험이고 흔적이다.
• 데이터 마이닝은 경험과 흔적 속에 숨겨진 정보, 규
칙을 찾는 과정이다.
• Apriori Algorithm을 이용하여 데이터 아이템 사이의
연관성, 상관관계를 찾을 수 있다.
• 데이터를 수집 또는 가공할때 데이터에서 연관관계
를 찾을 수 있도록 고려하면 좋지 않을까?
• 이미 수집된 데이터에서 연관관계를 찾을 만한게 무
엇이 있을까?

연관도 분석을 이용한 데이터마이닝

Recommended

Recommended

More Related Content

What's hot

What's hot (20)

Similar to 연관도 분석을 이용한 데이터마이닝

Similar to 연관도 분석을 이용한 데이터마이닝 (20)

More from Keunhyun Oh

More from Keunhyun Oh (9)

연관도 분석을 이용한 데이터마이닝