11. 위키 백과에서 말하는 데이터
• Data (/ˈdeɪtə/ day-tə, /ˈdætə/ da-tə, or /ˈdɑːtə/ dah-tə)
• A set of values of qualitative or quantitative variables
• Pieces of data are individual pieces of information
• Data is measured, collected and reported, and analyzed,
whereupon it can be visualized using graphs or images
• Data as a general concept refers to the fact that some
existing information or knowledge is represented or coded in
some form suitable for better usage or processing.
• (출처: 위키백과)
13. 데이터 마이닝의 정의
• 대규모로 저장된 데이터 안에서 체계적이고 자동적
으로 통계적 규칙이나 패턴을 찾아 내는 것이다. (출
처: 위키백과)
• 데이터베이스로부터 과거에는 알지 못했지만 데이
터 속에서 유도된 새로운 데이터 모델을 발견하여
미래에 실행 가능한 정보를 추출해 내고 의사 결정
에 이용하는 과정을 말한다. (출처: 두산동아백과)
15. Apriori Algorithm
• An algorithm for frequent item set mining and
association rule learning over transactional
databases.(출처: 위키백과)
• Agarwal and Srikant (1994)
• 데이터 각 아이템 사이의 연관성을 찾아내기 위한
알고리즘
• 추천, 상관 관계 추론, 사용관계 분석에 사용 가능
16. Apriori Algorithm 이해를 위한
예시1 (1/2)
• 예시 출처: 위키 백과
• 1단계: 각 아이템별 출현 횟수 계산
각 아이템별
빈도 계산
최소 빈도(Support; 지지도)에
미치지 못하는 데이터는 제거
실제 Apriori Algorithm에서는 확률
로 표시
17. Apriori Algorithm 이해를 위한
예시1 (2/2)
• 2단계: 1단계를 통과한 아이템을 기준으로 2개씩 쌍으로 묶음
• 3단계: 2단계를 통과한 2개씩 묶은 쌍 중 일정 빈도를 넘은 아이템을
기준으로 3개씩 묶은 아이템 셋(set)을 만듦.
• 4단계: 이런 식으로 반복, 반복, 반복 ==> 빈도를 넘은 아이템 셋을
모아서 규칙으로 정의
18. Support
• 아이템 또는 아이템 셋 X가 전체 데이터에서 표시되
는 비율
• X와 Y과 동시에 나타났을 경우의 Support
• Apriori Algorithm에서 파라메터로 쓰일 경우 해당
아이템 또는 아이템 셋이 규칙으로 의미를 가지기
위한 최소한의 비율로 사용
19. Confidence
• 아이템 또는 아이템 셋 X가 나타났을 때 아이템 Y가
나타나는 비율 ==> 조건부 확률
• 아이템 또는 아이템 셋 간의 상관관계를 나타냄
• 해당 값이 높다는 것은 해당 규칙으로 정의된 관계
의 상관성의 높고 일반화된 관계라는 의미
20. Lift
• 전체 아이템 셋에서 규칙이 얼마나 특별한지, 의미
있는지를 확인
• 조건부 확률식 계산에 의해 X와 Y가 독립이면 lift값은 1
• lift값이 1보다 클때, X와 Y가 상관관계가 있다 또는 의존성
이 있다라고 이야기함
24. Apriori Algorithm 예제 결
과
출처:
https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww
.washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS-
4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc
25. 실습
• https://github.com/asaini/Apriori
• Support와 Confidence만 고려한 코드
• 실습 환경: Python 2.x
• 사용 예제:
• python apriori.py -f INTEGRATED-DATASET.csv -s
0.17 -c 0.68
• 데이터셋: A copy of the “Online directory of certified
businesses with a detailed profile” file from the Small
Business Services (SBS) dataset in the NYC Open
Data Sets
30. 요약
• 데이터는 경험이고 흔적이다.
• 데이터 마이닝은 경험과 흔적 속에 숨겨진 정보, 규
칙을 찾는 과정이다.
• Apriori Algorithm을 이용하여 데이터 아이템 사이의
연관성, 상관관계를 찾을 수 있다.
• 데이터를 수집 또는 가공할때 데이터에서 연관관계
를 찾을 수 있도록 고려하면 좋지 않을까?
• 이미 수집된 데이터에서 연관관계를 찾을 만한게 무
엇이 있을까?