SlideShare a Scribd company logo
1 of 30
연관도 분석을 이용한
데이터 마이닝
안랩 멀티플랫폼서비스개발팀
오근현
keunhyun.oh@ahnlab.com
배경
데이터 홍수
데이터는 차고 넘치고 오늘 우리 자신도 어마어마한 데이터를
생산해냈다
데이터 과학 홍수
데이터 마이닝, 빅데이터, 데이터 과학, 통계, 시각화 등등 여
러 이름으로 데이터 기반 연구, 사업, 취미 생활이 활발히 이
루어짐(사실 오래전부터)
그래서 뭐할 수 있는데?
한번쯤 들어봤을만한 예제
• 질리도록 들었을…
• 마트의 상품진열도 아무 의미없이 하는게 아니더라
연관검색어에까지 나오는 예제
검색 엔진 연관 검색어 예시
단순 보는 것이 아니라 데이터 안에 숨겨진 의미와
의도도 추론가능(너는 아마 이것도 원할꺼야)
넷플릭스 추천 예시
나도 모르는 내 안에 숨겨진 욕망을 찾아내는 데
이터 과학
오늘의 학습목표
• 연관도 분석을 통해 수집된 데이터에 숨겨진 규칙을
알아낼 수 있다.
• 연관도 분석을 통해 데이터에서 정보를 캐낼 수 있
는(마이닝) 관점을 넓힌다.
• 내일의 나는 지금의 나보다 데이터를 의미있게 모으
고 사용하자.
DATA?
위키 백과에서 말하는 데이터
• Data (/ˈdeɪtə/ day-tə, /ˈdætə/ da-tə, or /ˈdɑːtə/ dah-tə)
• A set of values of qualitative or quantitative variables
• Pieces of data are individual pieces of information
• Data is measured, collected and reported, and analyzed,
whereupon it can be visualized using graphs or images
• Data as a general concept refers to the fact that some
existing information or knowledge is represented or coded in
some form suitable for better usage or processing.
• (출처: 위키백과)
DATA?
경험! 흔적!
데이터 마이닝의 정의
• 대규모로 저장된 데이터 안에서 체계적이고 자동적
으로 통계적 규칙이나 패턴을 찾아 내는 것이다. (출
처: 위키백과)
• 데이터베이스로부터 과거에는 알지 못했지만 데이
터 속에서 유도된 새로운 데이터 모델을 발견하여
미래에 실행 가능한 정보를 추출해 내고 의사 결정
에 이용하는 과정을 말한다. (출처: 두산동아백과)
DATA MINING?
경험 속에서 정보 찾기!
Apriori Algorithm
• An algorithm for frequent item set mining and
association rule learning over transactional
databases.(출처: 위키백과)
• Agarwal and Srikant (1994)
• 데이터 각 아이템 사이의 연관성을 찾아내기 위한
알고리즘
• 추천, 상관 관계 추론, 사용관계 분석에 사용 가능
Apriori Algorithm 이해를 위한
예시1 (1/2)
• 예시 출처: 위키 백과
• 1단계: 각 아이템별 출현 횟수 계산
각 아이템별
빈도 계산
최소 빈도(Support; 지지도)에
미치지 못하는 데이터는 제거
실제 Apriori Algorithm에서는 확률
로 표시
Apriori Algorithm 이해를 위한
예시1 (2/2)
• 2단계: 1단계를 통과한 아이템을 기준으로 2개씩 쌍으로 묶음
• 3단계: 2단계를 통과한 2개씩 묶은 쌍 중 일정 빈도를 넘은 아이템을
기준으로 3개씩 묶은 아이템 셋(set)을 만듦.
• 4단계: 이런 식으로 반복, 반복, 반복 ==> 빈도를 넘은 아이템 셋을
모아서 규칙으로 정의
Support
• 아이템 또는 아이템 셋 X가 전체 데이터에서 표시되
는 비율
• X와 Y과 동시에 나타났을 경우의 Support
• Apriori Algorithm에서 파라메터로 쓰일 경우 해당
아이템 또는 아이템 셋이 규칙으로 의미를 가지기
위한 최소한의 비율로 사용
Confidence
• 아이템 또는 아이템 셋 X가 나타났을 때 아이템 Y가
나타나는 비율 ==> 조건부 확률
• 아이템 또는 아이템 셋 간의 상관관계를 나타냄
• 해당 값이 높다는 것은 해당 규칙으로 정의된 관계
의 상관성의 높고 일반화된 관계라는 의미
Lift
• 전체 아이템 셋에서 규칙이 얼마나 특별한지, 의미
있는지를 확인
• 조건부 확률식 계산에 의해 X와 Y가 독립이면 lift값은 1
• lift값이 1보다 클때, X와 Y가 상관관계가 있다 또는 의존성
이 있다라고 이야기함
Conviction
• Y 없이 X가 발생한 비율
• 찾아낸 규칙이 얼마나 잘못되었는지를 확인
알고리즘 의사 코드
• https://en.wikipedia.org/wiki/Apriori_algorithm
Apriori Algorithm 예제
출처:
https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww
.washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS-
4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc
Apriori Algorithm 예제 결
과
출처:
https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww
.washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS-
4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc
실습
• https://github.com/asaini/Apriori
• Support와 Confidence만 고려한 코드
• 실습 환경: Python 2.x
• 사용 예제:
• python apriori.py -f INTEGRATED-DATASET.csv -s
0.17 -c 0.68
• 데이터셋: A copy of the “Online directory of certified
businesses with a detailed profile” file from the Small
Business Services (SBS) dataset in the NYC Open
Data Sets
실습에 사용한 데이터 예시
실습 - main 코드 확인(1/2)
실습 - main 코드 확인(2/2)
실습 - 결과예시
아이템 별 Support
Confidence 기반 Rule
요약
• 데이터는 경험이고 흔적이다.
• 데이터 마이닝은 경험과 흔적 속에 숨겨진 정보, 규
칙을 찾는 과정이다.
• Apriori Algorithm을 이용하여 데이터 아이템 사이의
연관성, 상관관계를 찾을 수 있다.
• 데이터를 수집 또는 가공할때 데이터에서 연관관계
를 찾을 수 있도록 고려하면 좋지 않을까?
• 이미 수집된 데이터에서 연관관계를 찾을 만한게 무
엇이 있을까?

More Related Content

What's hot

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
동학 노
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
Webometrics Class
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
atelier t*h
 

What's hot (20)

빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)빅데이터 솔루션 소개서(2013년 05월)
빅데이터 솔루션 소개서(2013년 05월)
 
Process for Big Data Analysis
Process for Big Data AnalysisProcess for Big Data Analysis
Process for Big Data Analysis
 
빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2빅데이터 이용 사례 분석 2
빅데이터 이용 사례 분석 2
 
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
빅데이터미래전략세미나 빅데이터 기반 선진국정운영의 비전과 전략 한국정보화진흥원김현곤센터장
 
빅데이터 이용 사례 분석
빅데이터 이용 사례 분석빅데이터 이용 사례 분석
빅데이터 이용 사례 분석
 
Big Data 대충 알아보기
Big Data 대충 알아보기Big Data 대충 알아보기
Big Data 대충 알아보기
 
빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향빅데이터 시대 새로운 신기술과 활용방향
빅데이터 시대 새로운 신기술과 활용방향
 
[2A6]web & health 2.0. 회사에서의 data science란?
[2A6]web & health 2.0. 회사에서의 data science란?[2A6]web & health 2.0. 회사에서의 data science란?
[2A6]web & health 2.0. 회사에서의 data science란?
 
빅데이터_ISP수업
빅데이터_ISP수업빅데이터_ISP수업
빅데이터_ISP수업
 
빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.빅데이터 활용사례 by GoldenWired INC.
빅데이터 활용사례 by GoldenWired INC.
 
데이터 사이언스 소개 - 정준호
데이터 사이언스 소개 -  정준호데이터 사이언스 소개 -  정준호
데이터 사이언스 소개 - 정준호
 
Bigdata
BigdataBigdata
Bigdata
 
데이터 분석 프로세스
데이터 분석 프로세스데이터 분석 프로세스
데이터 분석 프로세스
 
분석5기 4조
분석5기 4조분석5기 4조
분석5기 4조
 
빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향빅데이터 기술 및 시장동향
빅데이터 기술 및 시장동향
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
[2016 데이터 그랜드 컨퍼런스] 2 5(빅데이터). 유비원 비정형데이터 중심의 big data 활용방안
 
빅 데이터 개요 및 활용
빅 데이터 개요 및 활용빅 데이터 개요 및 활용
빅 데이터 개요 및 활용
 
빅데이터란?
빅데이터란?빅데이터란?
빅데이터란?
 
빅데이터 기술을 적용한_차세대_보안핵심_신기술의_최적_적용_및_활용방안(배포)-d_han_kim-2014-2-20
빅데이터 기술을 적용한_차세대_보안핵심_신기술의_최적_적용_및_활용방안(배포)-d_han_kim-2014-2-20빅데이터 기술을 적용한_차세대_보안핵심_신기술의_최적_적용_및_활용방안(배포)-d_han_kim-2014-2-20
빅데이터 기술을 적용한_차세대_보안핵심_신기술의_최적_적용_및_활용방안(배포)-d_han_kim-2014-2-20
 

Similar to 연관도 분석을 이용한 데이터마이닝

기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
효근 윤
 
사이버컴과 네트워크분석 12주차 1
사이버컴과 네트워크분석 12주차 1사이버컴과 네트워크분석 12주차 1
사이버컴과 네트워크분석 12주차 1
Han Woo PARK
 

Similar to 연관도 분석을 이용한 데이터마이닝 (20)

170321 32기 권채은 세미나 : 장바구니분석
170321 32기 권채은 세미나 : 장바구니분석170321 32기 권채은 세미나 : 장바구니분석
170321 32기 권채은 세미나 : 장바구니분석
 
데이터마이닝
데이터마이닝데이터마이닝
데이터마이닝
 
집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking
집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking
집단 지성 (Programming collective intelligence) 스터디: Chapter 4 - Searching & Ranking
 
Mahout
MahoutMahout
Mahout
 
Bigdate & R programming
Bigdate & R programmingBigdate & R programming
Bigdate & R programming
 
LLG Data Journalism Module3 Review
LLG Data Journalism Module3 ReviewLLG Data Journalism Module3 Review
LLG Data Journalism Module3 Review
 
2018 06-11-active-question-answering
2018 06-11-active-question-answering2018 06-11-active-question-answering
2018 06-11-active-question-answering
 
Human-Machine Interaction and AI
Human-Machine Interaction and AIHuman-Machine Interaction and AI
Human-Machine Interaction and AI
 
오픈 데이터와 인공지능
오픈 데이터와 인공지능오픈 데이터와 인공지능
오픈 데이터와 인공지능
 
추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft추천 시스템 개요 (1)-draft
추천 시스템 개요 (1)-draft
 
기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf기계학습 현재와미래 Pdf
기계학습 현재와미래 Pdf
 
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
[홍대 머신러닝 스터디 - 핸즈온 머신러닝] 1장. 한눈에 보는 머신러닝
 
1.introduction
1.introduction1.introduction
1.introduction
 
사이버컴과 네트워크분석 12주차 1
사이버컴과 네트워크분석 12주차 1사이버컴과 네트워크분석 12주차 1
사이버컴과 네트워크분석 12주차 1
 
Linked Open Data
Linked Open DataLinked Open Data
Linked Open Data
 
T ka kr_4th
T ka kr_4thT ka kr_4th
T ka kr_4th
 
오픈사이언스와 연구데이터
오픈사이언스와 연구데이터오픈사이언스와 연구데이터
오픈사이언스와 연구데이터
 
[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience[2A7]Linkedin'sDataScienceWhyIsItScience
[2A7]Linkedin'sDataScienceWhyIsItScience
 
Information Retrieval - Modeling
Information Retrieval - ModelingInformation Retrieval - Modeling
Information Retrieval - Modeling
 
Datasheets for dataset
Datasheets for datasetDatasheets for dataset
Datasheets for dataset
 

More from Keunhyun Oh

More from Keunhyun Oh (9)

Mastering Python chapter3
Mastering Python chapter3Mastering Python chapter3
Mastering Python chapter3
 
[SwiftStudy 2016] 3장. 함수
[SwiftStudy 2016] 3장. 함수[SwiftStudy 2016] 3장. 함수
[SwiftStudy 2016] 3장. 함수
 
[SwiftStudy 2016] 2장. Swift 타입 파트 1
[SwiftStudy 2016] 2장. Swift 타입 파트 1[SwiftStudy 2016] 2장. Swift 타입 파트 1
[SwiftStudy 2016] 2장. Swift 타입 파트 1
 
[SwiftStudy 2016] 1장. Swift 소개
[SwiftStudy 2016] 1장. Swift 소개[SwiftStudy 2016] 1장. Swift 소개
[SwiftStudy 2016] 1장. Swift 소개
 
WWDC2016 스터디 공유 발표 - 공유용
WWDC2016 스터디 공유 발표 - 공유용WWDC2016 스터디 공유 발표 - 공유용
WWDC2016 스터디 공유 발표 - 공유용
 
프로그래밍 오브젝티브 C 2.0 (5/E) - 8장 상속
프로그래밍 오브젝티브 C  2.0 (5/E) -  8장 상속프로그래밍 오브젝티브 C  2.0 (5/E) -  8장 상속
프로그래밍 오브젝티브 C 2.0 (5/E) - 8장 상속
 
게임 AI를 통해 본 인공지능 기본 개념
게임 AI를 통해 본 인공지능 기본 개념게임 AI를 통해 본 인공지능 기본 개념
게임 AI를 통해 본 인공지능 기본 개념
 
Doing data science chap11
Doing data science chap11Doing data science chap11
Doing data science chap11
 
Doing data science chap4
Doing data science chap4Doing data science chap4
Doing data science chap4
 

연관도 분석을 이용한 데이터마이닝

  • 1. 연관도 분석을 이용한 데이터 마이닝 안랩 멀티플랫폼서비스개발팀 오근현 keunhyun.oh@ahnlab.com
  • 3. 데이터 홍수 데이터는 차고 넘치고 오늘 우리 자신도 어마어마한 데이터를 생산해냈다
  • 4. 데이터 과학 홍수 데이터 마이닝, 빅데이터, 데이터 과학, 통계, 시각화 등등 여 러 이름으로 데이터 기반 연구, 사업, 취미 생활이 활발히 이 루어짐(사실 오래전부터)
  • 5. 그래서 뭐할 수 있는데?
  • 6. 한번쯤 들어봤을만한 예제 • 질리도록 들었을… • 마트의 상품진열도 아무 의미없이 하는게 아니더라 연관검색어에까지 나오는 예제
  • 7. 검색 엔진 연관 검색어 예시 단순 보는 것이 아니라 데이터 안에 숨겨진 의미와 의도도 추론가능(너는 아마 이것도 원할꺼야)
  • 8. 넷플릭스 추천 예시 나도 모르는 내 안에 숨겨진 욕망을 찾아내는 데 이터 과학
  • 9. 오늘의 학습목표 • 연관도 분석을 통해 수집된 데이터에 숨겨진 규칙을 알아낼 수 있다. • 연관도 분석을 통해 데이터에서 정보를 캐낼 수 있 는(마이닝) 관점을 넓힌다. • 내일의 나는 지금의 나보다 데이터를 의미있게 모으 고 사용하자.
  • 10. DATA?
  • 11. 위키 백과에서 말하는 데이터 • Data (/ˈdeɪtə/ day-tə, /ˈdætə/ da-tə, or /ˈdɑːtə/ dah-tə) • A set of values of qualitative or quantitative variables • Pieces of data are individual pieces of information • Data is measured, collected and reported, and analyzed, whereupon it can be visualized using graphs or images • Data as a general concept refers to the fact that some existing information or knowledge is represented or coded in some form suitable for better usage or processing. • (출처: 위키백과)
  • 13. 데이터 마이닝의 정의 • 대규모로 저장된 데이터 안에서 체계적이고 자동적 으로 통계적 규칙이나 패턴을 찾아 내는 것이다. (출 처: 위키백과) • 데이터베이스로부터 과거에는 알지 못했지만 데이 터 속에서 유도된 새로운 데이터 모델을 발견하여 미래에 실행 가능한 정보를 추출해 내고 의사 결정 에 이용하는 과정을 말한다. (출처: 두산동아백과)
  • 15. Apriori Algorithm • An algorithm for frequent item set mining and association rule learning over transactional databases.(출처: 위키백과) • Agarwal and Srikant (1994) • 데이터 각 아이템 사이의 연관성을 찾아내기 위한 알고리즘 • 추천, 상관 관계 추론, 사용관계 분석에 사용 가능
  • 16. Apriori Algorithm 이해를 위한 예시1 (1/2) • 예시 출처: 위키 백과 • 1단계: 각 아이템별 출현 횟수 계산 각 아이템별 빈도 계산 최소 빈도(Support; 지지도)에 미치지 못하는 데이터는 제거 실제 Apriori Algorithm에서는 확률 로 표시
  • 17. Apriori Algorithm 이해를 위한 예시1 (2/2) • 2단계: 1단계를 통과한 아이템을 기준으로 2개씩 쌍으로 묶음 • 3단계: 2단계를 통과한 2개씩 묶은 쌍 중 일정 빈도를 넘은 아이템을 기준으로 3개씩 묶은 아이템 셋(set)을 만듦. • 4단계: 이런 식으로 반복, 반복, 반복 ==> 빈도를 넘은 아이템 셋을 모아서 규칙으로 정의
  • 18. Support • 아이템 또는 아이템 셋 X가 전체 데이터에서 표시되 는 비율 • X와 Y과 동시에 나타났을 경우의 Support • Apriori Algorithm에서 파라메터로 쓰일 경우 해당 아이템 또는 아이템 셋이 규칙으로 의미를 가지기 위한 최소한의 비율로 사용
  • 19. Confidence • 아이템 또는 아이템 셋 X가 나타났을 때 아이템 Y가 나타나는 비율 ==> 조건부 확률 • 아이템 또는 아이템 셋 간의 상관관계를 나타냄 • 해당 값이 높다는 것은 해당 규칙으로 정의된 관계 의 상관성의 높고 일반화된 관계라는 의미
  • 20. Lift • 전체 아이템 셋에서 규칙이 얼마나 특별한지, 의미 있는지를 확인 • 조건부 확률식 계산에 의해 X와 Y가 독립이면 lift값은 1 • lift값이 1보다 클때, X와 Y가 상관관계가 있다 또는 의존성 이 있다라고 이야기함
  • 21. Conviction • Y 없이 X가 발생한 비율 • 찾아낸 규칙이 얼마나 잘못되었는지를 확인
  • 22. 알고리즘 의사 코드 • https://en.wikipedia.org/wiki/Apriori_algorithm
  • 24. Apriori Algorithm 예제 결 과 출처: https://www.google.co.kr/url?sa=t&rct=j&q=&esrc=s&source=web&cd=2&cad=rja&uact=8&ved=0ahUKEwjxhdv_hIfMAhXKk5QKHbjlBPkQFggmMAE&url=http%3A%2F%2Fwww .washburn.edu%2Ffaculty%2Fboncella%2FXLMiner%2FLecture%25208%2520-%2520Association%2520Rules.ppt&usg=AFQjCNE6sdsUiQj8wBa5JoS- 4PXRhUKoTw&sig2=pnn8INZT8Fl2tX-7tDJ9hgc
  • 25. 실습 • https://github.com/asaini/Apriori • Support와 Confidence만 고려한 코드 • 실습 환경: Python 2.x • 사용 예제: • python apriori.py -f INTEGRATED-DATASET.csv -s 0.17 -c 0.68 • 데이터셋: A copy of the “Online directory of certified businesses with a detailed profile” file from the Small Business Services (SBS) dataset in the NYC Open Data Sets
  • 27. 실습 - main 코드 확인(1/2)
  • 28. 실습 - main 코드 확인(2/2)
  • 29. 실습 - 결과예시 아이템 별 Support Confidence 기반 Rule
  • 30. 요약 • 데이터는 경험이고 흔적이다. • 데이터 마이닝은 경험과 흔적 속에 숨겨진 정보, 규 칙을 찾는 과정이다. • Apriori Algorithm을 이용하여 데이터 아이템 사이의 연관성, 상관관계를 찾을 수 있다. • 데이터를 수집 또는 가공할때 데이터에서 연관관계 를 찾을 수 있도록 고려하면 좋지 않을까? • 이미 수집된 데이터에서 연관관계를 찾을 만한게 무 엇이 있을까?