1. 위치 기반 서비스에서 정보 보호를 지원하는
새로운 근사 K-최근접점 질의처리 알고리즘
A NEW APPROXIMATE K-NN QUERY PROCESSING
ALGORITHM SUPPORTING PRIVACY PROTECTION IN
LOCATION-BASED SERVICES
장미영 | 젂북대학교 컴퓨터공학과
brilliant@jbnu.ac.kr
2. 위치 기반 서비스?
• Location based services(LBS)
무선 인터넷 사용자에게, 사용자의 변경되는 위치에 따르는 특정
정보(POI : points of Interest)를 제공하는 무선 콘텐츠 서비스
Business search
Route finder applications
Automotive traffic monitoring E-marketing
Social networking
2011-10-17
3. 위치 기반 서비스?
• Location based services(LBS)
위치좌표(x, y), 질의 q
질의 결과
질의 요청자
위치기반 서버
“현재 위치에서 가장 가까운 현금 출입기의 위치는?”
“나의 이동 경로 중에 핛인 중인 주유소가 있는지 검색하라.”
“내 친구가 등록핚 맛집 중 현재 가장 가까운 곳 3곳을 찾아라.”
“나의 상점 근방 200m에 진입핚 고객에게 핛인 쿠폰을 젂송하라.”
“내 친구로 등록된 사람 중 지금 근처에 있는 사람들을 알려달라.”
2011-10-17
4. 위치 기반 서비스?
1999 2000 2002 2005 2008 2010 2011
현재
KTF,
최초 로밍
최초의 소비자
NATE, LBS 서비스
LBS 모델 발표 Facebook,
친구 찾기 발표
“Palm Ⅶ” “Places”
: 우편번호 기반 서비스 시작
운영 개시
지역의 날씨
및 교통정보
제공
Google map
본격적으로 서비스 시작
콘텐츠 제공을
목적으로 하는
다양핚 서비스 등장
SNS기반 LBS
“Foursquare”
서비스 개시
2011-10-17
5. LBS, 얼마나 성장할 것인가?
출처 : 이노사이트 그룹
2011-10-17 출처 : 데이코 산업 연구소
6. 위치 기반 서비스?
• 개인 정보 유출 문제점
위치좌표(x, y), 질의 q
“현재 위치에서 가장 가까운 주유소는
어디인가?”
질의 요청자 질의 결과
위치기반 서버
“○○주유소”
실시간 위치 정보,
연속적인 방문 장소 등
개인정보 유출
2011-10-17
7. 위치 기반 서비스?
• 개인 정보 유출 문제점
함께 Bar에서 만남을 가지는 중
Hi ! Hi !
Alice Bob
Charlie Dan
우리가 함께 있다는 것을 아무에게도 알리지 말라!!!
Posts :
Posts : “Bob, 이제 약속해서 만나자!”
“Alice 갂만에 우연히 만났네~” 10:30 p.m., ABC bar
10:30 p.m., ABC bar
으읭?!!!!!
그렇구만~
Bob‟s jealous wife
Alice, Bob 너희 같이 있니??
2011-10-17
8. 위치 기반 서비스?
• 개인 정보 유출 문제점
여보~ 나 오늘 좀 늦어요 !
사랑해 ♡
Bob Bob‟s jealous wife
• 그 큰 사무실에서 혼자 일하다니ㅜㅜ
• 에이, 설마 딴 짓 하는 건 아니겠지?
• 같은 위치 기반 데이트 서비스 접속…
그이의 사무실 주소로 접속핚 사람 발견 !!!
사무실에서 위치 기반 데이트
서비스 로그인 중…. (id: macho)
2011-10-17
10. 그렇다면, “무엇”을 보호 할 것인가?
Identity
Privacy
Privacy
Location
Privacy
• 사용자의 정확핚 위치 인식
• 사용자 id가 변형된 형태
• 제 3의 정보를 이용, 위치 정보와
Join하여 사용자 예측 가능 • LBS 서비스에 log-in 상태로 서비스 제공
• 사용자 id는 유지, 위치 정보 보호
• 현재 제공되는 LBS에 적용하기 적합
2011-10-17
11. 사용자 위치 정보 보호 기법
사용자 위치 좌표를 확장하여
질의 영역을 생성
POI 및 사용자 위치 공갂을
사용자 preference를
다른 형태로 변형하여
질의 수행하는 기법
Query 만족하는 정보 보호 기법
e.g., Hilber curve 기반 변홖 Enlargement 질의 영역 기반
Transformatio 질의 처리 알고리즘 필요
암호화 기반 n-based Technique
질의 결과 후보 셋 탐색
질의 처리 기법
e.g. Private Information Technique = Cloaking
위핚 오버헤드 증가
Retrieval(PIR)
Location Dummy- Dummy 위치 데이터 생성
False 위치 정보 이용 based
Obstruction 사용자 위치 정보화 함께
반복 질의 수행을 통핚 Technique Dummy 데이터 젂송
점진적 접근 방식
생성된 데이터 노출 확률 큼
질의 처리 비용 증가
2011-10-17
12. 사용자 위치 정보 보호 기법
• Cloaking 영역 생성 기법
사용자의 위치 좌표를 사용자가 요구하는 Privacy profile (i.e., K-anonymity,
L-diversity 등)을 만족하는 질의 영역으로 확장하는 기법
K-anonymity = 3
서비스 이용자
질의 요청자
질의 요청자의 위치가 드러날 확률은
Cloaking Area 1/3 로 감소 !!
2011-10-17
13. 사용자 위치 정보 보호 기법
• Cloaking 영역 기반 질의 처리 알고리즘
사용자 질의 영역을 기반으로 질의를 처리, 질의 영역 내 임의의
모든 점에 대핚 질의 결과 후보 집합 탐색
“현재 위치에서 가장 가까운
3개의 레스토랑을 찾아라”
Cloaking Area
2011-10-17
14. 문제점
• POI 정보 보호를 지원하지 못함
– 인접 POI 밀도가 높은 경우, 사용자 정보 보호 요구 수준이 높은
경우(e.g., Cloaking 영역의 크기가 큰 경우) 많은 양의 결과 후보
집합 젂송
Cloaking 영역 및 질의 젂송
예) “가장 가까운 2개의 커피 젂문점을
탐색하라”
질의 요청자 질의 결과 후보집합
정확도 보장하는 위치기반 서버
최소의 질의결과 수신 반환되는
POI 수 제한 요구
질의 결과 수에 따른 서비스 젂송 청구
프로모션 할인 쿠폰 요금
서비스 이용자
POI (i.e. 커피 젂문점)
2011-10-17
15. 관련 연구
• Cloaking 영역 기반 근사 최근접점 질의 처리 알고리즘
– Gabriel Ghinita et al. 의 연구 (SSTD 2009)
– 사용자 위치정보 보호와 POI 정보 보호를 동시에 고려핚 연구
사용자 위치 정보 보호
Cloaking 영역 기반 질의 처리
PIR 프로토콜을 사용핚 질의 결과 요청과 POI 정보 수싞
※ PIR 프로토콜
데이터 집합 X={X1, X2, ..., Xn} 에 대해 Xi번째 데이터를 i 에 대핚 정보를 노출하지 않고 탐색핛 수 있도록 하는
암호화 기반 질의 처리 기법, 높은 수준의 정보 보호를 지원하나 많은 질의 처리 비용과 통싞 비용을 지닌다.
POI 데이터 보호
질의 영역 내 POI 인덱스를 생성, 반홖되는 POI 수 제핚
2011-10-17
16. 관련 연구
• 질의 처리 알고리즘
a. 질의 요청 시, 사용자는 Cloaking 영역을 생성, 질의와 함께 젂송
b. 질의 처리 서버는 질의 영역에 대핚 POI 인덱스 생성
c. 질의 결과 후보 노드 집합 젂송
d. 사용자는 실제 자싞이 위치핚 영역의 id를 젂송하여 PIR 프로토콜
로 POI 정보 수싞
노드붂핛 임계치 F=3
Root
R1 R2
●●●
R2 R3
●●● ●●●
2011-10-17
17. 관련 연구의 한계
• 영역 붂핛 시 붂핛 축에 인접핚 POI를 탐색하지 못하여
결과 정확도 감소
• 근사 최근접점 질의 만을 지원하며 K-최근접점 질의 미
지원
붂핛노드 1 붂핛노드 2
q, 질의 요청자
탐색 POI
q q
P2 P1
실제 최근접점 탐색 결과 : P2 기졲연구 최근접점 질의 결과 : P1
2011-10-17
18. 연구 동기
• 사용자 정보 보호 및 POI 정보 보호를 고려핚 그리드 기
반 근사 K-최근접점 질의 처리 알고리즘을 제안
질의 결과 정확도 향상 K-최근접점 탐색 지원
영역 중첩 인덱싱 기법 POI 밀집도 기반 영역 확장 기법
: 노드 갂 POI 중복 저장 허용 : Cloaking 영역 외부 POI 탐색
2011-10-17
19. 제안 기법 1
• 영역 중첩 인덱싱 기법
– 확장된 질의 영역 붂핛 시 붂핛 노드 갂 POI 중복 허용
• 노드 붂핛 임계 값 (F)으로 반홖 되는 POI 수 제핚
• 영역 중첩 파라미터(α) 만큼 붂핛 축을 이동하여 POI를 중복 저장
– 반홖되는 POI의 수는 최대 (2F-1) + α (중복 저장 POI 수)
붂핛노드 1 붂핛노드 2 붂핛노드 1 붂핛노드 2 P1 P6
P5
P2 P4
q q P3 P7
P2
P1 P1
P1 P6
중복 저장 P5
영역
기졲연구 노드 붂핛 방식 영역 중첩 노드 붂핛 방식 P2
P4 P3 P4
P3 P7
붂핛노드 1 붂핛노드 2
2011-10-17
20. 제안 기법 2
• POI 밀집도 기반 질의 영역 확장 기법
– K-최근 접점 탐색을 위핚 영역 확장 시 POI 밀집도 고려
• 질의 영역의 인접 POI 밀집도에 따라 확장 영역의 크기 조젃
• Cloaking 영역과 교차하는 Grid 셀 및 POI 수를 기반으로 POI의 밀집도
(density) 계산
number of POIs
density (d )
number of cells
– Grid 셀 기반의 POI 탐색 및 확장
• 빠른 확장 및 POI 탐색 시갂 지원
2011-10-17
21. 질의 처리 시나리오
질의영역
② 질의 영역
, 질의(q) 그리드 셀 탐색
(E(x),E(y)), key
① 질의 젂송
그리드 기반 젂체 데이터 영역
질의 요청자
위치 기반 서버 ③ POI 밀집도 기반, k-최근접점 탐색 영역 확장
⑤ 분할 노드 정보 젂송 ④확장된 영역에 대한 영역 중첩 인덱스 생성
id(R1): E(x)E(y) ∈R1
id(R2): E(x)E(y) ∈R2 R0
⑥ 자신이 위치한 노드 정보 요청
PIR (id(R1)) R1 U R2
⑦ 질의 결과 POI 젂송
중복 저장 영역
2011-10-17
22. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
수행단계 1. Cloaking 영역과 교차하는
그리드 셀 탐색 및 POI 밀집도 계산
질의영역
확장단계 수행단계 2. 탐색 영역의 POI 밀집도 기반
질의 영역 확장
수행단계 3. 노드 붂핛 POI 임계 값 기반
영역 중첩 확장 영역 붂핛
인덱스
생성 단계 수행단계 4. 영역 중첩 인덱스 생성
2011-10-17
23. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
수행단계 1. Cloaking 영역과 교차하는 그리드 셀 탐색
및 POI 밀집도 계산
1) 질의 영역과 교차하는 그리드 셀 탐색
2) 탐색핚 그리드 셀의 수, POI 수를 기반으로 POI 밀집도 계산
1 2 3 4 5
number of POIs
P
density (P )
P 1 d 2
3
P 4
6 7 8
number of10cells
9
P7
P5 P6 P8
density (d )
11 12 13 14 15 number of POIs 4
P10 1
P9 P11 P12 number of cells 4
16 17 18 19 20
P17
P13 P14 P16
P15
Cloaking area
21 22 23 24 P 25
20
P18 P19 P22
P21
2011-10-17
24. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
수행단계 2. 탐색 영역의 탐색 영역의 POI 밀집도 기반
질의 영역 확장
1) Cloaking 영역의 에지 별 교차 셀의 수 저장
• 교차 셀의 수가 큰 에지부터 확장 수행, 확장 영역 최소화
2) POI 밀집도 기반으로 에지 별 확장 셀의 수 계산 및 영역 확장
• 각 에지별로 Cloaking 영역 외부확장만 수행하므로 1/2을 곱해서 계산
k 1
# of expanding cells
d 2
3) 확장 영역 내 POI를 모두 포함하는 MBR 반홖
2011-10-17
25. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
• POI 밀집도 기반 영역 확장 단계의 예제
1) 에지 별 교차 셀 수 탐색
2) 확장 셀 수 계산 및 영역 확장 및 MBR 반홖
1 2 3 4 5
1) Cloaking 영역의 모든
P3
P1 P2 P4 에지 별 교차 셀의 수 : 2개
임의의 방향 확장 수행
6 7 8 9 10
P7
P5 P6 P8 2) 확장 셀 수 계산
Final expanded area
# of expanding cells
11 12 13 14 15
P10 k 1 3 1 3
P9 P11 P12 1.5
d 2 1 2 2
16 17 18 19 20
P17 최소 1.5개의 셀이 포함되도록 확장
P13 P14 P16
P15
21 22 23 24 P 25
20
P18 P19 P22
P21
2011-10-17
26. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
수행단계 3. 노드 붂핛 POI 임계 값 기반 확장 영역 붂핛
1) X축, Y축의 방향 별 POI 붂핛 및 MBR의 둘레 계산
2) 최소 둘레 면적을 포함하는 붂핛 축을 선택하여 붂핛
예) 노드붂핛임계값(F) = 5일 때 P7
P8
P6
P12
X 축 붂핛 P9 P10 P11
P16 P17
P14 P15
P20
P19 P21 P22
왼쪽 정렬 시 둘레 : 10 둘레 : 25 합 : 35
오른쪽 정렬 시 둘레 : 30 둘레 : 12 합 : 42
2011-10-17
27. 그리드 기반 근사 k-최근접점 질의처리 알고리즘
수행단계 4. 영역 중첩 인덱스 생성
1) 선택핚 붂핛 축을 기준으로 붂핛 노드 갂 영역 중첩
2) 중첩 영역 내 POI 정보 저장
분할영역1 분할영역2
중복 P8
저장된 POI
POI P7 P7
P6 분할영역3
붂핛영역1 P6, P9, P14, P15, P19 P7
P7, P8, P10, P11, P12, P16 P9 P10 P11 P12
붂핛영역2 P15
, P17, P20, P21, P22
붂핛영역3 P7, P8, P10, P11, P12 P16 P16
P17
붂핛영역4 P16, P17, P20, P21, P22 P10 P14 P15 P15
분할영역4
P20
P19 P21 P22
2011-10-17
28. 질의 처리 시나리오
질의영역
② 질의 영역
, 질의(q) 그리드 셀 탐색
(E(x),E(y)), key
① 질의 젂송
그리드 기반 젂체 데이터 영역
질의 요청자
위치 기반 서버 ③ POI 밀집도 기반, k-최근접점 탐색 영역 확장
⑤ 분할 노드 정보 젂송 ④확장된 영역에 대한 영역 중첩 인덱스 생성
id(R1): E(x)E(y) ∈R1
id(R2): E(x)E(y) ∈R2 R0
⑥ 자신이 위치한 노드 정보 요청
PIR (id(R1)) R1 U R2
⑦ 질의 결과 POI 젂송
중복 저장 영역
2011-10-17
29. 성능 평가
• 성능평가 홖경
– 성능평가 데이터
• 균일(uniform), 정규(mean 0.5, variance 0.1), 비대칭(skewedness 1)
의 데이터 붂포를 가지는 100,00개의 POI(Point Of Interest)
• 미국 북동부 지역의 postal address를 지닌 실제 데이터 집합 119898
개의 POI
Uniform 붂포 Gaussian 붂포 Skewed 붂포 실제 데이터 집합
2011-10-17
30. 성능 평가
• 성능평가 항목
– 최근접점 탐색 성능 평가(K=1) : 노드 붂핛 임계 값에 따른 질의
처리 시갂 및 질의 결과 정확도, 영역 중첩도 변화에 따른 질의
결과 정확도
– K-최근접점 탐색 성능 평가 : K-최근접 POI 탐색 수에 따른 질의
처리 시갂 및 질의 결과 정확도, 영역 중첩도 변화에 따른 질의
결과 정확도 (K=10)
• 성능 평가 대상
– 기졲연구 : Ghinita et al. 의 연구
– 그리드 기반 근사 K-최근접점 질의 처리 알고리즘
• Proposed 1 : 512*512 그리드 붂핛 영역
• Proposed 2 : 1024*1024 그리드 붂핛 영역
• Proposed 3 : 2048*2048 그리드 붂핛 영역
2011-10-17
31. 성능 평가
• 성능평가 변수
Parameter Range Default
1%, 2%, 5%, 10%
Cloaking area size 5%
of the whole data area
Grid size 512*512, 1024*1024, 2048*2048 -
K (이하 K)
10, 20, 40, 60, 80 10
(K-최근접 POI 탐색 수)
노드 붂핛 임계값 (이하 F) varies from k -
영역 중첩 정도(이하 α) 5%, 10%, 15%, 20% 10%
2011-10-17
32. 성능 평가
• K-최근접 POI 탐색 수에 따른 질의 처리 시갂
– 각 붂포 별 평균 1.5배, 최대 3배 성능 향상
– 제안하는 기법의 그리드 사이즈 2048*2048에서 가장 우수핚 성
능
2011-10-17
33. 성능 평가
• K-최근접 POI 탐색 수에 따른 질의 결과 정확도
– 각 붂포에서 평균 10%, 최대 20% 성능 개선
– 제안하는 기법의 그리드 사이즈 512*512에서 가장 좋은 성능
2011-10-17
34. 성능 평가
• 영역 중첩도 변화에 따른 질의 결과 정확도(K=10)
– 중첩 영역 크기에 비례하여 성능 향상(5%20% 평균 0.3% 개선)
– 중첩 영역 5%20% 확장 시 평균 3% 개선
2011-10-17
35. 결론
• 그리드 기반 근사 k-최근접점 질의처리 알고리즘 제안
– 사용자의 위치 정보와 POI 정보 보호를 동시에 고려핚 질의 처
리 기법
– POI 밀집도 기반 Cloaking 영역 확장 기법
• 질의 영역 확장으로 K-최근접점 탐색 지원
– 영역 중첩 인덱싱 기법
• 붂핛 경계의 POI 중복 저장을 통해 질의 처리의 정확도 증가
• 질의 결과로 반홖되는 POI 수 제핚 최대 (2K-1)+α 개 반홖
– 성능평가를 통해 제안하는 기법이 우수함을 입증
• 질의 처리 시갂 : 평균 2배 성능 향상
• 질의 결과 정확도 : 평균 20% 성능 향상
2011-10-17
36. 향후 연구 방향
• 위치 정보 보호 지원 Exact K-최근접점 질의 처리 알고
리즘 연구 및 다양핚 질의 타입 지원
• Cloud 및 Outsourced 홖경에서 위치 데이터 보호를 위
핚 암호화 기법 및 질의 처리 알고리즘 연구
• 연속 질의 처리를 위핚 정보 보호 기법 연구
• 사용자의 궤적 정보 보호를 위핚 기법 연구
• 사용자의 위치 정보 보호 및 질의 결과에 대핚
preference를 고려하는 질의 처리 기법
• 개인 정보 보호를 지원하는 LBS 어플리케이션 개발
2011-10-17
40. 참고 문헌
[LK03] 이준석, 김서균, "위치기반서비스(LBS)의 기술 동향 및 국내외 산업 동향 붂석", 정보통싞
연구진흥 5권 2호 (통권 16호), 2003
[UCIA06] USA Central Intelligence Agency, https:// www.cia.gov/ library/publications/the-world-
fact book/rankorder /2153rank.html, 2006
[ITU] International Telecommunication Union (ITU) http://www.itu.int/
[FOX04] Foxs News. Man Accused of Stalking Ex-Girlfriend With GPS,
http://www.foxnews.com/story/0,2933, 131487,00.html,2004
[UTN02] USA TODAY News, GPS System used to stalk woman, http://www.usatoday.com/tech/
news/2002-12-30-gps-stalker_x.htm, 2002
[HL10] 이혜미 기자, “연인추적 아이폰 어플 „오빠믿지?‟등장에 „논란 홗홗‟”,
http://biz.heraldm.com/common /Detail.jsp?newsMLId=20101019000402, 헤럴드경제,
2010
[GKS07] G. Ghinita, P. Kalnis and S. Skiadopoulos, "PRIVE: Anonymous Location-Based Queries
in Distributed Mobile Systems," In Proc of World Wide Web, May 2007
[GKS07] G. Ghinita, P. Kalnis and S. Skiadopoulos, “MobiHide: A Mobilea Peer-to-Peer System
for Anonymous Location-Based Queries,” In Proc. of International Symposium on Spatial
and Temporal Databases, vol.4605/2007, pp. 221-238, November 2007
[KGMP07] P. Kalnis, G. Ghinita, K. Mouratidis and D. Papadias, "Preventing Location-Based
Identity Inference in Anonymous Spatial Queries," In Proc. of Transactions on Knowledge and
Data Engineering, February 2007.
2011-10-17
41. 참고 문헌
[KCZ09] W. Ku, Y. Chen and R. Zimmermann, “Privacy Protected Spatial Query Processing for
Advanced LBSs” Wireless Personal Communications 2009 Volume 51, Number 1, 2009.
[MCA06] M. Mokbel, C. Chow, and W. Aref, "The New Casper:Query Processing for Location
Services without Compromising Privacy," In Proc. of the International Conference on Very Large
Data Bases, pp. 763–774, September 2006.
[CML06] C. Y. Chow, M. F. Mokbel, and X. Liu. A, “Peer-to-Peer Spatial Cloaking Algorithm for
Anonymous Location-based Services,” In Proc. of the ACM International Symposium on
Advances in Geographic Information Systems, pp. 171–178, November 2006.
[BL07] B. Bamba and L. Liu, "PRIVACYGRID: Supporting Anonymous Location Queries in
Mobile Environments" Research report in National Technical Information Service, 2007.
[KO97] E.Kushilevitz, R. Ostrovsky: Replication is NOT Needed: SINGLE Database,
Computationally- Private Information Retrieval. In: FOCS, 1997
[GKKST08]G. Ghinita, P. Kalnis, A. Khoshgozaran, C. Shahabi and K. L. Tan, “Private Queries in
Location Based Services: Anonymizers are not Necessary” In Proc. of ACM SIGMOD
international conference on Management of data, 2008.
[GKKB09]G. Ghinita, P. Kalnis, M. Kantarcioglu, and E. Bertino, "A Hybrid Technique for Private
Location-Based Queries with Database Protection" In Proc. of SSTD, 2009.
[Pa99] Paillier, P.: Public-key cryptosystems based on composite degree residuosity classes. In:
Stern, J. (ed.) EUROCRYPT 1999. LNCS, vol. 1592, pp. 223–238. Springer, Heidelberg, 1999
[TSN99] Yannis Theodoridis, Jefferson R. O. Silva, and Mario A. Nascimento, “On the Generation
of Spatiotemporal Datasets”, In Proc. of SSTD, Vol. 1651, 1999, pp.147-164.
2011-10-17