SlideShare a Scribd company logo
1 of 30
Download to read offline
황인욱
Head of Intelligence Division, S2W
안전한 사이버 세상을 위한 데이터 애널리틱스
최신기법과 적용사례
2021년 11월
2
Copyright ⓒ 2021, S2W Inc.
소개
[학위]
서울대학교 컴퓨터공학 학사/석사
[주요경력]
(현) S2W 인텔리전스 그룹 리더
Atto Research 기술연구소
삼성전자 생산기술연구소
티맥스소프트 R&D center
데이터 인텔리전스 기반 CTI 전문 기업
[솔루션]
다크웹, 랜섬웨어 등 위협 대응 솔루션
이상거래, 악성유저 탐지 솔루션
암호화폐 자금추적, 거래분석 솔루션
주요 고객사
발표자
3
Copyright ⓒ 2021, S2W Inc.
사이버 세상의 위협
Hacking, ransomware
- 시스템 유지가 어려울 정도의 피해와 혼란을 주는 것이 목적
- 해킹 또는 데이터를 탈취를 통해 상대방 협박
- 가상화폐를 받아서 세탁
Dark web
N****사 서버
관리자 계정 판매글
Internet market fraud
- 플랫폼, 시스템을 최대한 이용하면서 다른 사용자나 플랫
폼의 이익을 조금씩 빼앗음 (기생)
- Fake news, fake review, shopping scam, social spam
- 경제활동의 많은 부분이 온라인, 모바일 플랫폼으로 옮겨
가면서 급증
암호화폐
4
Copyright ⓒ 2021, S2W Inc.
사이버 세상의 위협
Hacking, ransomware
Dark web
N****사 서버
관리자 계정 판매글
Internet market fraud
암호화폐
- 플랫폼, 시스템을 최대한 이용하면서 다른 사용자나 플랫
폼의 이익을 조금씩 빼앗음 (기생)
- Fake news, fake review, shopping scam, social spam
- 경제활동의 많은 부분이 온라인, 모바일 플랫폼으로 옮겨
가면서 급증
- 시스템 유지가 어려울 정도의 피해와 혼란을 주는 것이 목적
- 해킹 또는 데이터를 탈취를 통해 상대방 협박
- 가상화폐를 받아서 세탁
이 발표의 주제
플랫폼의 이익과 신뢰도를 갉아먹
는 위협에 대응하기
5
Copyright ⓒ 2021, S2W Inc.
순서
사이버 세상의 fraud와 abusing
Fraud/abusing 탐지 방법
시장에서 배운 것들
결론
6
Copyright ⓒ 2021, S2W Inc.
자전거래, 시세조작
$16 내고 피자 받음
(친구 주소)
$24 받고 피자 보냄
주요대상
• 리셀(resell)플랫폼
• 가상자산거래소
• 오픈마켓
배경
• 플랫폼간의치열한고객유치경쟁으로가격인하경쟁.
• 리셀플랫폼,가상자산등은기존의규제가아직닿지않는영역
• 프로그램을통해반복적으로 차익거래가가능한구조
유형
• 다수의계정을동원한반복적인자전거래
• 이벤트지원금수취,시세조작목적
7
Copyright ⓒ 2021, S2W Inc.
Fake review, news
주요대상
• 리뷰플랫폼
• 배달앱
• SNS
배경
• 온라인리뷰의영향력이매우커짐
• 이제는물건을사도,밥을먹어도,택시를타도소비자가평가를
남긴다.
• Seller는평판을유지해야할강한유인을가짐
유형
• 랭킹,평판조작:댓글,별점알바
• 경쟁업체악성리뷰달기
• SNSfollower늘리기
• 사람들의관심을끌기위한가짜뉴스
8
Copyright ⓒ 2021, S2W Inc.
위조상품, 브랜드 도용
주요대상
• 유명브랜드
• 연예인굿즈
• 대중에게알려진경제전문가및투자자
배경
• K-culture열풍
• 전문가/유명인과대중사이소통채널이급증
유형
• 유명브랜드에대한가품,위조품
• 캐릭터,연예인이미지를 도용
• 유명인프로필로SNS계정을사칭하여경제적이익편취
• DM으로팬에게접근하여2차피해발생
(S2W 엔진으로 찾은) 해외 도박사이트의 한국 아티스트 사진 도용 사례
9
Copyright ⓒ 2021, S2W Inc.
개인간 거래사기
주요대상
• 중고거래플랫폼
• 게임아이템거래플랫폼
배경
• 개인간거래의특수성:유일한판매물건.매수자마음이급함
• 대포폰,대포통장등추적회피할수있는blackmarket존재
유형
• 중고거래사기
• 매우싼가격,외부채널(카카오톡)유도,에스크로회피
• 조직화된그룹이존재.
• 게임아이템거래사기
• 허위매물
구매가능합니다.
지역이어디신가요?
안녕하세요
아이패드팔렸나요?
노원구입니다.
여기는포항이라직거래는어
렵겠네요.
계좌이체가능하신가요?
XX페이는안되나요?
제가돈이급한데정산이늦어
서사용하지않습니다ㅠ
구매가능합니다.
네이버페이가능합니다.
안녕하세요
아이패드팔렸나요?
네이버페이가되나요?
아래링크따라서구매진행하
고계좌이체해주세요.
pay.naver11.com/?pd=12345
10
Copyright ⓒ 2021, S2W Inc.
앱내 결제후 환불 어뷰징
주요대상
• 게임앱
• 인앱결제를포함한앱
배경
• 현실에서거래되는높은가격을가지는사이버공간의아이템등장
• 인앱결제이후,아이템을사용하거나앱내거래하더라도앱스토어
환불가능
• 앱개발사는환불내역을바로파악하는것이어려움
유형
• 큰금액을결제-현금화한후,결제취소
• 비지니스화:결제/환불과정컨설팅업체존재
• 지속적인계정확보-환불
3. 환불
1. 결제
2. 아이템 판매
환불신청 대행업체
11
Copyright ⓒ 2021, S2W Inc.
순서
사이버 세상의 fraud와 abusing
Fraud/abusing 탐지 방법
시장에서 배운 것들
결론
12
Copyright ⓒ 2021, S2W Inc.
빈대(기생충)를 잡는 방법
집에 불을 지른다 집을 계속 지으면서, 빈대가 보이면 잡는다
접근제어는 대부분의 정상유저를 괴롭힌다. 모니터링과 분석으로 지킨다.
13
Copyright ⓒ 2021, S2W Inc.
업무로직, 어뷰징 로직 파악
직접 어뷰징하고, 어뷰저 찾아보기.
내부 시스템 사용해보기. 담당자 인터뷰
데이터베이스 스키마 파악
정보간 관계 분석을 통해 숨겨진 위협 요인 파악
검증된 가설을 이용하고 조합하여 모델 구축
모델별로 데이터에 적용하여 실시간 탐지
모델링 결과에 대한 고객의 피드백 반영
기존 시스템 연동
관리자 인터페이스 고도화
Data를 분석하여 Intelligence를 뽑아내자.
통계
시뮬레이션
패턴/연결성 분석
데이터
인텔리전스
업무, 시스템 분석
데이터 분석
가설 수립과 검증
모델구축
시스템 구축/연동
이제부터
할 얘기
14
Copyright ⓒ 2021, S2W Inc.
데이터 분석: 가설수립과 검증
15
Copyright ⓒ 2021, S2W Inc.
Detection method, models
User Behavior
Analysis
• 위치정보
• 클릭, 액션 정보
• 거래내역, 거래타이밍
• 사용한 언어: 채팅, 게시글
Identity Inference
• 접속정보 기반의 유사도 측정: 접속 IP 정보, 접속 장비, 접속 타이밍
• 결제/배송 정보의 유사성
• 각종 사용자 인증정보
Graph-based
Modeling
Other Features
• 이미지 분석: 이미지 수집과 학습은 탐지에 필수적인 기술
• 이미지와 텍스트를 결합하여 분석
• 자연어 sentiment analysis
• Social media 상의 관계를 graph로 모델링
• User/product를 node로, 평가/거래를 edge로 표현한 graph를 구축하여 분석
16
Copyright ⓒ 2021, S2W Inc.
1. Understand normal behavior
2. Find suspicious user behavior
3. Distinguish the two
User behavior modeling
다음과 같은 순서로.
17
Copyright ⓒ 2021, S2W Inc.
User behavior, location
• SNS 상에서 정상유저그룹, 비정상 유저그룹의 transition model을
만들어보면 확실히 다르다.
• 유저가 리뷰를 남긴 시간, 위치를 이용하여 여러가지 값을 측정
- 최대이동속도
- 일별 최대 리뷰 수
- 다른 유저와의 차이
- 유저간 리뷰대상일치도
• 극단적인 아웃라이어 탐지
• Spammer는 rating의 분포와 시간간격이 다름
“You are How You Click: Clickstream Analysis for sybil Detection (2013)”
18
Copyright ⓒ 2021, S2W Inc.
User behavior, location
• SNS 상에서 정상유저그룹, 비정상 유저그룹의 transition model을
만들어보면 확실히 다르다.
• 리뷰어가 부여한 score의 average와 variance를 측정
• 리뷰 개수
• 리뷰를 남긴 위치/시간을 이용한 속도
• 유저 위치의 Entropy가 지나치게 높은 경우
19
Copyright ⓒ 2021, S2W Inc.
거래패턴, 언어사용 패턴
• 자산의 가격 변화의 위험에 노출되지 않으려는 목적을 가지고
있을 때 나타나는 패턴.
• 이벤트 지원금 수취, 거래량 늘리기, 시세조작)을 달성하고자
하면서 나타나는 패턴
• 두 유저 사이의 거래가 잦으며, 다른 유저와의 거래는 거의 없음.
• 두 유저간의 거래는 체결에 걸리는 시간이 짧은 현상이 나타남.
• 확률적인 모델링이 가능.
텍스트패턴 사기 정상
ㅠ혹시번개페이 21 0
폰확인어렵네여~ 18 0
●●●문●의●●주●세●요●●● 8 0
튝으로남겨주세요 7 0
• 특정 키워드는 거래사기 사용자에게 반복적으로 나타남
• 조직적 사기그룹의 존재 또는 사기꾼이 여러 개 계정을
사용함으로써 생기는 문제로 보임
• 단어별 위험도 스코어링
• 𝑅 𝑊 =
𝑃 𝑊 𝑛𝑜𝑟𝑚𝑎𝑙)
𝑃 𝑊 𝑓𝑟𝑎𝑢𝑑)
• 𝑃 𝑓𝑟𝑎𝑢𝑑 𝑊) = 𝑃 𝑊 𝑓𝑟𝑎𝑢𝑑) 𝑃 𝑓𝑟𝑎𝑢𝑑 / 𝑃 𝑊
• 𝑃 𝑛𝑜𝑟𝑚𝑎𝑙 𝑊) = 𝑃 𝑊 𝑛𝑜𝑟𝑚𝑎𝑙) 𝑃 𝑛𝑜𝑟𝑚𝑎𝑙 / 𝑃(𝑊)
20
Copyright ⓒ 2021, S2W Inc.
Identity 분석
접속패턴 분석
IP 주소 고유도와
접속패턴을 고려한 유사도 평가
Login
History
고정 IP
통신사 IP 대역
공공장소 IP
USER B
USER A
• 유사한 IP로 지속적으로 접속하는 두 유저
• A접속/로그아웃하고 B접속/로그아웃이 반복되는 경우, A와 B는
같은 소유주의 계정일 확률이 높음
유저 정보 기반 그룹화
21
Copyright ⓒ 2021, S2W Inc.
• User: Normal or Fraud
• Product quality: good or bad
• Markov random field를 이용한 모델링 - 확률적으로 가장
그럴듯(maximum likelihood)한 설명(normal/fraud/good/bad
태깅)을 찾는 것
Graph model: opinion-based model
Prior belief of node i
Compatibility between node I and j
User-product 간의 bipartite review graph 생성
“Opinion fraud detection in online reviews by network effects (2013)”
긍정평가 Product
User Good Bad
Normal 1-e e
Fraud 2e 1-2e
부정평가 Product
User Good Bad
Normal e 1-e
Fraud 1-2e 2e
22
Copyright ⓒ 2021, S2W Inc.
Graph model: user clustering
조직적인 fraud/abusing
xxx.xxx.xxx.xxx yyy.yyy.yyy.yyy
xxx.yyy.xxx.yyy
zzz.zzz.zzz.zzz
zzz.zzz.zz.xxx
aaa.aa.aaa.aaa
Device
IP Address
수행 인력
상품소개 텍스트 패턴 …
도용 이미지
수법
조직적
운영
도용된 명의로 게시글 및 사기 작업 수행
Facebook 사진 업로드 인스타그램 following
“Uncovering large groups of active malicious accounts in online social networks (2014)”
• 집단적, 조직적으로 fraud, abusing이 이루어지는 경우, 특정시기에
공통의 자원과 방법을 사용하여 유사도 높은 클러스터가 나게 됨.
• 그래프 기반으로 그런 클러스터를 탐지하면, 개별 유저의 행동만
봤을 때보다 많은 것을 알수 있게 됨.
• 유저간 유사도(similarity)와 클러스터의 위험도를 잘 정의해야 함.
23
Copyright ⓒ 2021, S2W Inc.
Graph model: user clustering
User-user graph
UID 1
UID 2
UID 3
UID 4
UID 1
UID 2
UID 3
UID 4
Edge pruning/clustering Measuring cluster risk
UID 1
UID 2
IP, device
접속시간/패턴
거래내역
Similarity를 정의 Cluster risk를 정의
유저간 유사도로 edge의 weight 계산
Cluster: relatively dense subgraph
24
Copyright ⓒ 2021, S2W Inc.
Image Processing
• SNS/웹페이지 수집과 연동
• 텍스트 – 이미지 기반의 유사로고 탐지: 보통 deep learning 기반
• 담당자 확인후 서비스/상품 take-down
이미지 분석을 통한 brand protection Fake Image 판별
• Twitter에서 #friends, #followers, tweet length, #words 등 25개
feature로 fake image 탐지
Result
“Faking sandy: characterizing and identifying fake images on twitter during hurricane sandy."
25
Copyright ⓒ 2021, S2W Inc.
순서
사이버 세상의 fraud와 abusing
Fraud 탐지 방법
시장에서 배운 것들
결론
26
Copyright ⓒ 2021, S2W Inc.
Lessons learned
데이터에 대한 가설수립/검증, 모델링은 탐색적으로 하자.
• 초기 단계에서는 구축을 고려하지 않고 아이디어를 내고 테스트.
- 현재 구축된 시스템을 보면 가설 탐색 범위가 제한된다.
- 아이디어와 인사이트(insight)가 우선, 기법과 구현은 그 다음.
• 가설 수립/검증, 모델수립/확인의 단계는 매우 짧아야 한다.
• 새로운 가설이나 모델을 테스트하는 데에 심적인 부담이 없어야 함
- 가설을 수정하고, 클릭 한번 하면 바로 결과를 볼 수 있게 한다.
- 전체 그림을 생각하기 전에 작은 가설들을 빠르게 쌓아나가자.
실험
관측
분석
가설
탐지대상의 회피가 어려운지 고려
• 어뷰저들은 매우 적응적(adaptive)
• 사고실험: “탐지대상이 탐지모델을 완전히 알아냈을 때, 탐지를
회피하는 것이 어려운가?”
• 그렇게 만들수 있는 요소
1. Cost 절감을 위해서 필수적인 요소. (예: 미끼매물의 매력적인 가격)
2. 그룹화된 행동 (lockstep)
채팅에서“카톡”이라고 쓰면탐지되네.
“ㅋㅏ톡”, “ㅋㅋ톡"으로 쓰자
특정IP대역,device를반복적으로사용하면탐
지가되네.
IP,device를바꾸자.
두아이디로계속,빠르게사고파니탐지되네.
천천히거래하고,다른유저와도거래를하자.
쉽게 회피 가능
비용이 늘어난다
정상 유저가 되었다
27
Copyright ⓒ 2021, S2W Inc.
Lessons learned
탐지근거를 제시할 수 있는(explainable) 모델이 좋다.
• 잘못된 탐지는 서비스에 대한 평판을 저하
• 다각도의 근거를 쌓아서 탐지하는 형태가 좋다. 예를 들어, IP,
graph model, 언어적 패턴 등의 조합.
확률과 위험도를 고려한 점수를 제공하는 것이 좋다.
• AI에서 말하는 expected utility maximization: 확률과 효과를 고려
• 점수에 따라서 대응 우선순위를 다르게 할 수 있는 시스템이 되어야
실제 업무에서 받아들이기 시작한다.
• Actionable 한 하나의 숫자를 통한 가이드 제시.
FraudRiskScore에따른가이드(예시)
Score 대응
6
자동/즉시 차단
5
4
운영팀 검수
3
2
모니터링
1
0
28
Copyright ⓒ 2021, S2W Inc.
Lessons learned
잘 정리된 데이터가 있는 경우는 드물다. 그래프 분석 엔진은 자체구현도 검토해야 한다.
• 고객은 대체로 급격히 고객과 거래량을 늘리면서 성장하는 플랫폼
기업: 빠르게 서비스를 개발하고 배포를 반복하고 있음.
• 데이터가 깨끗하지 않고, 정규화가 잘 되어 있지 않다.
• 로그가 충분히 쌓여있지 않다.
• 문서화가 잘 안되어있다.
• Abuser 분류체계가 없을 가능성이 매우 높다.
• 탐지대상 분류 및 로그축적부터 시작해야 할 가능성도 꽤 있다.
• 그리고 고객사의 담당 개발파트는 다른 일로 바빠서 지원이 많지
않다.
잘 정리된 Kaggle의 dataset
대부분의 현실
“DB 접속 계정 만들어드렸습니다. 이
파일 참고하시고, 궁금한 점은 메일 주
세요”
[첨부] 1년전에 작성된 DB 스키마.xls
• 구조화된 데이터를 저장하는 Relational DB나, 텍스트를 처리하는
검색엔진, 데이터 시각화툴 등에 비해 그래프 분석, 시각화 엔진은
기능적, 성능적으로 부족함
• 상당부분 자체 개발함으로써 원하는 기능과 성능을 얻어내고 있다.
보안, 마케팅 문제와 함께 이해해야 할 필요성이 있다.
• 조직적 거래사기의 경우
- 대포통장, 대포폰 사용등 보이스 피싱과 유사성이 발견됨.
- phishing과 함께 사용되는 경우도 많음.
• 프로모션의 부수효과로 abuser가 생겨나는 경우가 많음. 그리고
이런 abuser를 정상유저와 명확히 나누는 것도 어렵다. 마케팅
효과와 어뷰징 방어 사이의 적절한 트레이드오프가 필요.
29
Copyright ⓒ 2021, S2W Inc.
결론
혁신적이고 가치있는 서비스와 플랫폼을 지키기 위해 필요한 것은
데이터분석과 탐지 알고리즘, 모델링이다.
About
S2W
S2W is a big data intelligence company
specialized in hidden channels and
cryptocurrencies.
The information contained in this document is proprietary and confidential.
If you are not the intended recipient, please note that any use or circulation of this document may be cause for legal action.
Contact info@s2w.inc
S2W captures massive amount
of data from various channels and
conducts analysis with the unique AI
based multi-domain analytics engine.
S2W Offers a threat intelligence
solution S2-XARVIS,
cryptocurrency anti-money
laundering solution S2-EYEZ,
digital fraud detection system
S2-TRUZ.
For any queries, please contact www.s2w.inc
Copyright ⓒ 2021, S2W Inc.

More Related Content

Similar to 안전한 사이버 세상을 위한 데이터 애널리틱스

스타트업의 전략적 사고
스타트업의 전략적 사고스타트업의 전략적 사고
스타트업의 전략적 사고Hyunjong Wi
 
한양대 사업계획서 슬라이드_최종
한양대 사업계획서 슬라이드_최종한양대 사업계획서 슬라이드_최종
한양대 사업계획서 슬라이드_최종동익 박
 
User Stories Applied
User Stories AppliedUser Stories Applied
User Stories AppliedJungHyuk Kwon
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다승화 양
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질Sun Young Kim
 
라이브리 활용사례 2013_11월호
라이브리 활용사례 2013_11월호라이브리 활용사례 2013_11월호
라이브리 활용사례 2013_11월호CIZION
 
개인화타겟팅, 빅데이터와 크로스디바이스
개인화타겟팅, 빅데이터와 크로스디바이스개인화타겟팅, 빅데이터와 크로스디바이스
개인화타겟팅, 빅데이터와 크로스디바이스David Geosung Yun
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드kosena
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례Geunhee Cho
 
언론사에서 개발자는 무슨 일을 하나요?
언론사에서 개발자는 무슨 일을 하나요?언론사에서 개발자는 무슨 일을 하나요?
언론사에서 개발자는 무슨 일을 하나요?슬 김
 
Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3uEngine Solutions
 
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료오윤 권
 
리셀러앱 MEESHO service analysis
리셀러앱 MEESHO service analysis리셀러앱 MEESHO service analysis
리셀러앱 MEESHO service analysismixnfixme
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기수보 김
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Eunyoung Kim
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입Hoon Park
 
MongoDB 도입을 위한 제언
MongoDB 도입을 위한 제언MongoDB 도입을 위한 제언
MongoDB 도입을 위한 제언DongHan Kim
 
MongoDB 도입을 위한 제언 @krmug
MongoDB 도입을 위한 제언 @krmug MongoDB 도입을 위한 제언 @krmug
MongoDB 도입을 위한 제언 @krmug Ha-Yang(White) Moon
 

Similar to 안전한 사이버 세상을 위한 데이터 애널리틱스 (20)

02.모의해킹전문가되기
02.모의해킹전문가되기02.모의해킹전문가되기
02.모의해킹전문가되기
 
스타트업의 전략적 사고
스타트업의 전략적 사고스타트업의 전략적 사고
스타트업의 전략적 사고
 
한양대 사업계획서 슬라이드_최종
한양대 사업계획서 슬라이드_최종한양대 사업계획서 슬라이드_최종
한양대 사업계획서 슬라이드_최종
 
Beyond Big Data MEGA MART_V0.9
Beyond Big Data MEGA MART_V0.9Beyond Big Data MEGA MART_V0.9
Beyond Big Data MEGA MART_V0.9
 
User Stories Applied
User Stories AppliedUser Stories Applied
User Stories Applied
 
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
실전 스타트업 데이터분석: 소셜데이팅 이음은 이렇게 한다
 
분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질분석 현장에서 요구되는 데이터과학자의 역량과 자질
분석 현장에서 요구되는 데이터과학자의 역량과 자질
 
라이브리 활용사례 2013_11월호
라이브리 활용사례 2013_11월호라이브리 활용사례 2013_11월호
라이브리 활용사례 2013_11월호
 
개인화타겟팅, 빅데이터와 크로스디바이스
개인화타겟팅, 빅데이터와 크로스디바이스개인화타겟팅, 빅데이터와 크로스디바이스
개인화타겟팅, 빅데이터와 크로스디바이스
 
[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드[코세나, kosena] 빅데이터 구축 및 제안 가이드
[코세나, kosena] 빅데이터 구축 및 제안 가이드
 
유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례유사 이미지 검색 기술 동향 - Pinterest 사례
유사 이미지 검색 기술 동향 - Pinterest 사례
 
언론사에서 개발자는 무슨 일을 하나요?
언론사에서 개발자는 무슨 일을 하나요?언론사에서 개발자는 무슨 일을 하나요?
언론사에서 개발자는 무슨 일을 하나요?
 
Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3Event storming based msa training commerce example add_handson_v3
Event storming based msa training commerce example add_handson_v3
 
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료
[한국 IBM 권오윤] H2O.ai DriverlessAI 소개자료
 
리셀러앱 MEESHO service analysis
리셀러앱 MEESHO service analysis리셀러앱 MEESHO service analysis
리셀러앱 MEESHO service analysis
 
예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기예비 개발자를 위한 소프트웨어 세상 이야기
예비 개발자를 위한 소프트웨어 세상 이야기
 
Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9Web analytics 2.0 study ch.9
Web analytics 2.0 study ch.9
 
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
[NDC 2011] 게임 개발자를 위한 데이터분석의 도입
 
MongoDB 도입을 위한 제언
MongoDB 도입을 위한 제언MongoDB 도입을 위한 제언
MongoDB 도입을 위한 제언
 
MongoDB 도입을 위한 제언 @krmug
MongoDB 도입을 위한 제언 @krmug MongoDB 도입을 위한 제언 @krmug
MongoDB 도입을 위한 제언 @krmug
 

안전한 사이버 세상을 위한 데이터 애널리틱스

  • 1. 황인욱 Head of Intelligence Division, S2W 안전한 사이버 세상을 위한 데이터 애널리틱스 최신기법과 적용사례 2021년 11월
  • 2. 2 Copyright ⓒ 2021, S2W Inc. 소개 [학위] 서울대학교 컴퓨터공학 학사/석사 [주요경력] (현) S2W 인텔리전스 그룹 리더 Atto Research 기술연구소 삼성전자 생산기술연구소 티맥스소프트 R&D center 데이터 인텔리전스 기반 CTI 전문 기업 [솔루션] 다크웹, 랜섬웨어 등 위협 대응 솔루션 이상거래, 악성유저 탐지 솔루션 암호화폐 자금추적, 거래분석 솔루션 주요 고객사 발표자
  • 3. 3 Copyright ⓒ 2021, S2W Inc. 사이버 세상의 위협 Hacking, ransomware - 시스템 유지가 어려울 정도의 피해와 혼란을 주는 것이 목적 - 해킹 또는 데이터를 탈취를 통해 상대방 협박 - 가상화폐를 받아서 세탁 Dark web N****사 서버 관리자 계정 판매글 Internet market fraud - 플랫폼, 시스템을 최대한 이용하면서 다른 사용자나 플랫 폼의 이익을 조금씩 빼앗음 (기생) - Fake news, fake review, shopping scam, social spam - 경제활동의 많은 부분이 온라인, 모바일 플랫폼으로 옮겨 가면서 급증 암호화폐
  • 4. 4 Copyright ⓒ 2021, S2W Inc. 사이버 세상의 위협 Hacking, ransomware Dark web N****사 서버 관리자 계정 판매글 Internet market fraud 암호화폐 - 플랫폼, 시스템을 최대한 이용하면서 다른 사용자나 플랫 폼의 이익을 조금씩 빼앗음 (기생) - Fake news, fake review, shopping scam, social spam - 경제활동의 많은 부분이 온라인, 모바일 플랫폼으로 옮겨 가면서 급증 - 시스템 유지가 어려울 정도의 피해와 혼란을 주는 것이 목적 - 해킹 또는 데이터를 탈취를 통해 상대방 협박 - 가상화폐를 받아서 세탁 이 발표의 주제 플랫폼의 이익과 신뢰도를 갉아먹 는 위협에 대응하기
  • 5. 5 Copyright ⓒ 2021, S2W Inc. 순서 사이버 세상의 fraud와 abusing Fraud/abusing 탐지 방법 시장에서 배운 것들 결론
  • 6. 6 Copyright ⓒ 2021, S2W Inc. 자전거래, 시세조작 $16 내고 피자 받음 (친구 주소) $24 받고 피자 보냄 주요대상 • 리셀(resell)플랫폼 • 가상자산거래소 • 오픈마켓 배경 • 플랫폼간의치열한고객유치경쟁으로가격인하경쟁. • 리셀플랫폼,가상자산등은기존의규제가아직닿지않는영역 • 프로그램을통해반복적으로 차익거래가가능한구조 유형 • 다수의계정을동원한반복적인자전거래 • 이벤트지원금수취,시세조작목적
  • 7. 7 Copyright ⓒ 2021, S2W Inc. Fake review, news 주요대상 • 리뷰플랫폼 • 배달앱 • SNS 배경 • 온라인리뷰의영향력이매우커짐 • 이제는물건을사도,밥을먹어도,택시를타도소비자가평가를 남긴다. • Seller는평판을유지해야할강한유인을가짐 유형 • 랭킹,평판조작:댓글,별점알바 • 경쟁업체악성리뷰달기 • SNSfollower늘리기 • 사람들의관심을끌기위한가짜뉴스
  • 8. 8 Copyright ⓒ 2021, S2W Inc. 위조상품, 브랜드 도용 주요대상 • 유명브랜드 • 연예인굿즈 • 대중에게알려진경제전문가및투자자 배경 • K-culture열풍 • 전문가/유명인과대중사이소통채널이급증 유형 • 유명브랜드에대한가품,위조품 • 캐릭터,연예인이미지를 도용 • 유명인프로필로SNS계정을사칭하여경제적이익편취 • DM으로팬에게접근하여2차피해발생 (S2W 엔진으로 찾은) 해외 도박사이트의 한국 아티스트 사진 도용 사례
  • 9. 9 Copyright ⓒ 2021, S2W Inc. 개인간 거래사기 주요대상 • 중고거래플랫폼 • 게임아이템거래플랫폼 배경 • 개인간거래의특수성:유일한판매물건.매수자마음이급함 • 대포폰,대포통장등추적회피할수있는blackmarket존재 유형 • 중고거래사기 • 매우싼가격,외부채널(카카오톡)유도,에스크로회피 • 조직화된그룹이존재. • 게임아이템거래사기 • 허위매물 구매가능합니다. 지역이어디신가요? 안녕하세요 아이패드팔렸나요? 노원구입니다. 여기는포항이라직거래는어 렵겠네요. 계좌이체가능하신가요? XX페이는안되나요? 제가돈이급한데정산이늦어 서사용하지않습니다ㅠ 구매가능합니다. 네이버페이가능합니다. 안녕하세요 아이패드팔렸나요? 네이버페이가되나요? 아래링크따라서구매진행하 고계좌이체해주세요. pay.naver11.com/?pd=12345
  • 10. 10 Copyright ⓒ 2021, S2W Inc. 앱내 결제후 환불 어뷰징 주요대상 • 게임앱 • 인앱결제를포함한앱 배경 • 현실에서거래되는높은가격을가지는사이버공간의아이템등장 • 인앱결제이후,아이템을사용하거나앱내거래하더라도앱스토어 환불가능 • 앱개발사는환불내역을바로파악하는것이어려움 유형 • 큰금액을결제-현금화한후,결제취소 • 비지니스화:결제/환불과정컨설팅업체존재 • 지속적인계정확보-환불 3. 환불 1. 결제 2. 아이템 판매 환불신청 대행업체
  • 11. 11 Copyright ⓒ 2021, S2W Inc. 순서 사이버 세상의 fraud와 abusing Fraud/abusing 탐지 방법 시장에서 배운 것들 결론
  • 12. 12 Copyright ⓒ 2021, S2W Inc. 빈대(기생충)를 잡는 방법 집에 불을 지른다 집을 계속 지으면서, 빈대가 보이면 잡는다 접근제어는 대부분의 정상유저를 괴롭힌다. 모니터링과 분석으로 지킨다.
  • 13. 13 Copyright ⓒ 2021, S2W Inc. 업무로직, 어뷰징 로직 파악 직접 어뷰징하고, 어뷰저 찾아보기. 내부 시스템 사용해보기. 담당자 인터뷰 데이터베이스 스키마 파악 정보간 관계 분석을 통해 숨겨진 위협 요인 파악 검증된 가설을 이용하고 조합하여 모델 구축 모델별로 데이터에 적용하여 실시간 탐지 모델링 결과에 대한 고객의 피드백 반영 기존 시스템 연동 관리자 인터페이스 고도화 Data를 분석하여 Intelligence를 뽑아내자. 통계 시뮬레이션 패턴/연결성 분석 데이터 인텔리전스 업무, 시스템 분석 데이터 분석 가설 수립과 검증 모델구축 시스템 구축/연동 이제부터 할 얘기
  • 14. 14 Copyright ⓒ 2021, S2W Inc. 데이터 분석: 가설수립과 검증
  • 15. 15 Copyright ⓒ 2021, S2W Inc. Detection method, models User Behavior Analysis • 위치정보 • 클릭, 액션 정보 • 거래내역, 거래타이밍 • 사용한 언어: 채팅, 게시글 Identity Inference • 접속정보 기반의 유사도 측정: 접속 IP 정보, 접속 장비, 접속 타이밍 • 결제/배송 정보의 유사성 • 각종 사용자 인증정보 Graph-based Modeling Other Features • 이미지 분석: 이미지 수집과 학습은 탐지에 필수적인 기술 • 이미지와 텍스트를 결합하여 분석 • 자연어 sentiment analysis • Social media 상의 관계를 graph로 모델링 • User/product를 node로, 평가/거래를 edge로 표현한 graph를 구축하여 분석
  • 16. 16 Copyright ⓒ 2021, S2W Inc. 1. Understand normal behavior 2. Find suspicious user behavior 3. Distinguish the two User behavior modeling 다음과 같은 순서로.
  • 17. 17 Copyright ⓒ 2021, S2W Inc. User behavior, location • SNS 상에서 정상유저그룹, 비정상 유저그룹의 transition model을 만들어보면 확실히 다르다. • 유저가 리뷰를 남긴 시간, 위치를 이용하여 여러가지 값을 측정 - 최대이동속도 - 일별 최대 리뷰 수 - 다른 유저와의 차이 - 유저간 리뷰대상일치도 • 극단적인 아웃라이어 탐지 • Spammer는 rating의 분포와 시간간격이 다름 “You are How You Click: Clickstream Analysis for sybil Detection (2013)”
  • 18. 18 Copyright ⓒ 2021, S2W Inc. User behavior, location • SNS 상에서 정상유저그룹, 비정상 유저그룹의 transition model을 만들어보면 확실히 다르다. • 리뷰어가 부여한 score의 average와 variance를 측정 • 리뷰 개수 • 리뷰를 남긴 위치/시간을 이용한 속도 • 유저 위치의 Entropy가 지나치게 높은 경우
  • 19. 19 Copyright ⓒ 2021, S2W Inc. 거래패턴, 언어사용 패턴 • 자산의 가격 변화의 위험에 노출되지 않으려는 목적을 가지고 있을 때 나타나는 패턴. • 이벤트 지원금 수취, 거래량 늘리기, 시세조작)을 달성하고자 하면서 나타나는 패턴 • 두 유저 사이의 거래가 잦으며, 다른 유저와의 거래는 거의 없음. • 두 유저간의 거래는 체결에 걸리는 시간이 짧은 현상이 나타남. • 확률적인 모델링이 가능. 텍스트패턴 사기 정상 ㅠ혹시번개페이 21 0 폰확인어렵네여~ 18 0 ●●●문●의●●주●세●요●●● 8 0 튝으로남겨주세요 7 0 • 특정 키워드는 거래사기 사용자에게 반복적으로 나타남 • 조직적 사기그룹의 존재 또는 사기꾼이 여러 개 계정을 사용함으로써 생기는 문제로 보임 • 단어별 위험도 스코어링 • 𝑅 𝑊 = 𝑃 𝑊 𝑛𝑜𝑟𝑚𝑎𝑙) 𝑃 𝑊 𝑓𝑟𝑎𝑢𝑑) • 𝑃 𝑓𝑟𝑎𝑢𝑑 𝑊) = 𝑃 𝑊 𝑓𝑟𝑎𝑢𝑑) 𝑃 𝑓𝑟𝑎𝑢𝑑 / 𝑃 𝑊 • 𝑃 𝑛𝑜𝑟𝑚𝑎𝑙 𝑊) = 𝑃 𝑊 𝑛𝑜𝑟𝑚𝑎𝑙) 𝑃 𝑛𝑜𝑟𝑚𝑎𝑙 / 𝑃(𝑊)
  • 20. 20 Copyright ⓒ 2021, S2W Inc. Identity 분석 접속패턴 분석 IP 주소 고유도와 접속패턴을 고려한 유사도 평가 Login History 고정 IP 통신사 IP 대역 공공장소 IP USER B USER A • 유사한 IP로 지속적으로 접속하는 두 유저 • A접속/로그아웃하고 B접속/로그아웃이 반복되는 경우, A와 B는 같은 소유주의 계정일 확률이 높음 유저 정보 기반 그룹화
  • 21. 21 Copyright ⓒ 2021, S2W Inc. • User: Normal or Fraud • Product quality: good or bad • Markov random field를 이용한 모델링 - 확률적으로 가장 그럴듯(maximum likelihood)한 설명(normal/fraud/good/bad 태깅)을 찾는 것 Graph model: opinion-based model Prior belief of node i Compatibility between node I and j User-product 간의 bipartite review graph 생성 “Opinion fraud detection in online reviews by network effects (2013)” 긍정평가 Product User Good Bad Normal 1-e e Fraud 2e 1-2e 부정평가 Product User Good Bad Normal e 1-e Fraud 1-2e 2e
  • 22. 22 Copyright ⓒ 2021, S2W Inc. Graph model: user clustering 조직적인 fraud/abusing xxx.xxx.xxx.xxx yyy.yyy.yyy.yyy xxx.yyy.xxx.yyy zzz.zzz.zzz.zzz zzz.zzz.zz.xxx aaa.aa.aaa.aaa Device IP Address 수행 인력 상품소개 텍스트 패턴 … 도용 이미지 수법 조직적 운영 도용된 명의로 게시글 및 사기 작업 수행 Facebook 사진 업로드 인스타그램 following “Uncovering large groups of active malicious accounts in online social networks (2014)” • 집단적, 조직적으로 fraud, abusing이 이루어지는 경우, 특정시기에 공통의 자원과 방법을 사용하여 유사도 높은 클러스터가 나게 됨. • 그래프 기반으로 그런 클러스터를 탐지하면, 개별 유저의 행동만 봤을 때보다 많은 것을 알수 있게 됨. • 유저간 유사도(similarity)와 클러스터의 위험도를 잘 정의해야 함.
  • 23. 23 Copyright ⓒ 2021, S2W Inc. Graph model: user clustering User-user graph UID 1 UID 2 UID 3 UID 4 UID 1 UID 2 UID 3 UID 4 Edge pruning/clustering Measuring cluster risk UID 1 UID 2 IP, device 접속시간/패턴 거래내역 Similarity를 정의 Cluster risk를 정의 유저간 유사도로 edge의 weight 계산 Cluster: relatively dense subgraph
  • 24. 24 Copyright ⓒ 2021, S2W Inc. Image Processing • SNS/웹페이지 수집과 연동 • 텍스트 – 이미지 기반의 유사로고 탐지: 보통 deep learning 기반 • 담당자 확인후 서비스/상품 take-down 이미지 분석을 통한 brand protection Fake Image 판별 • Twitter에서 #friends, #followers, tweet length, #words 등 25개 feature로 fake image 탐지 Result “Faking sandy: characterizing and identifying fake images on twitter during hurricane sandy."
  • 25. 25 Copyright ⓒ 2021, S2W Inc. 순서 사이버 세상의 fraud와 abusing Fraud 탐지 방법 시장에서 배운 것들 결론
  • 26. 26 Copyright ⓒ 2021, S2W Inc. Lessons learned 데이터에 대한 가설수립/검증, 모델링은 탐색적으로 하자. • 초기 단계에서는 구축을 고려하지 않고 아이디어를 내고 테스트. - 현재 구축된 시스템을 보면 가설 탐색 범위가 제한된다. - 아이디어와 인사이트(insight)가 우선, 기법과 구현은 그 다음. • 가설 수립/검증, 모델수립/확인의 단계는 매우 짧아야 한다. • 새로운 가설이나 모델을 테스트하는 데에 심적인 부담이 없어야 함 - 가설을 수정하고, 클릭 한번 하면 바로 결과를 볼 수 있게 한다. - 전체 그림을 생각하기 전에 작은 가설들을 빠르게 쌓아나가자. 실험 관측 분석 가설 탐지대상의 회피가 어려운지 고려 • 어뷰저들은 매우 적응적(adaptive) • 사고실험: “탐지대상이 탐지모델을 완전히 알아냈을 때, 탐지를 회피하는 것이 어려운가?” • 그렇게 만들수 있는 요소 1. Cost 절감을 위해서 필수적인 요소. (예: 미끼매물의 매력적인 가격) 2. 그룹화된 행동 (lockstep) 채팅에서“카톡”이라고 쓰면탐지되네. “ㅋㅏ톡”, “ㅋㅋ톡"으로 쓰자 특정IP대역,device를반복적으로사용하면탐 지가되네. IP,device를바꾸자. 두아이디로계속,빠르게사고파니탐지되네. 천천히거래하고,다른유저와도거래를하자. 쉽게 회피 가능 비용이 늘어난다 정상 유저가 되었다
  • 27. 27 Copyright ⓒ 2021, S2W Inc. Lessons learned 탐지근거를 제시할 수 있는(explainable) 모델이 좋다. • 잘못된 탐지는 서비스에 대한 평판을 저하 • 다각도의 근거를 쌓아서 탐지하는 형태가 좋다. 예를 들어, IP, graph model, 언어적 패턴 등의 조합. 확률과 위험도를 고려한 점수를 제공하는 것이 좋다. • AI에서 말하는 expected utility maximization: 확률과 효과를 고려 • 점수에 따라서 대응 우선순위를 다르게 할 수 있는 시스템이 되어야 실제 업무에서 받아들이기 시작한다. • Actionable 한 하나의 숫자를 통한 가이드 제시. FraudRiskScore에따른가이드(예시) Score 대응 6 자동/즉시 차단 5 4 운영팀 검수 3 2 모니터링 1 0
  • 28. 28 Copyright ⓒ 2021, S2W Inc. Lessons learned 잘 정리된 데이터가 있는 경우는 드물다. 그래프 분석 엔진은 자체구현도 검토해야 한다. • 고객은 대체로 급격히 고객과 거래량을 늘리면서 성장하는 플랫폼 기업: 빠르게 서비스를 개발하고 배포를 반복하고 있음. • 데이터가 깨끗하지 않고, 정규화가 잘 되어 있지 않다. • 로그가 충분히 쌓여있지 않다. • 문서화가 잘 안되어있다. • Abuser 분류체계가 없을 가능성이 매우 높다. • 탐지대상 분류 및 로그축적부터 시작해야 할 가능성도 꽤 있다. • 그리고 고객사의 담당 개발파트는 다른 일로 바빠서 지원이 많지 않다. 잘 정리된 Kaggle의 dataset 대부분의 현실 “DB 접속 계정 만들어드렸습니다. 이 파일 참고하시고, 궁금한 점은 메일 주 세요” [첨부] 1년전에 작성된 DB 스키마.xls • 구조화된 데이터를 저장하는 Relational DB나, 텍스트를 처리하는 검색엔진, 데이터 시각화툴 등에 비해 그래프 분석, 시각화 엔진은 기능적, 성능적으로 부족함 • 상당부분 자체 개발함으로써 원하는 기능과 성능을 얻어내고 있다. 보안, 마케팅 문제와 함께 이해해야 할 필요성이 있다. • 조직적 거래사기의 경우 - 대포통장, 대포폰 사용등 보이스 피싱과 유사성이 발견됨. - phishing과 함께 사용되는 경우도 많음. • 프로모션의 부수효과로 abuser가 생겨나는 경우가 많음. 그리고 이런 abuser를 정상유저와 명확히 나누는 것도 어렵다. 마케팅 효과와 어뷰징 방어 사이의 적절한 트레이드오프가 필요.
  • 29. 29 Copyright ⓒ 2021, S2W Inc. 결론 혁신적이고 가치있는 서비스와 플랫폼을 지키기 위해 필요한 것은 데이터분석과 탐지 알고리즘, 모델링이다.
  • 30. About S2W S2W is a big data intelligence company specialized in hidden channels and cryptocurrencies. The information contained in this document is proprietary and confidential. If you are not the intended recipient, please note that any use or circulation of this document may be cause for legal action. Contact info@s2w.inc S2W captures massive amount of data from various channels and conducts analysis with the unique AI based multi-domain analytics engine. S2W Offers a threat intelligence solution S2-XARVIS, cryptocurrency anti-money laundering solution S2-EYEZ, digital fraud detection system S2-TRUZ. For any queries, please contact www.s2w.inc Copyright ⓒ 2021, S2W Inc.