SlideShare a Scribd company logo
1 of 30
Download to read offline
BIG DATA PARA GEOSERVICIOS
Ingeniería en Geoinformación y Geomática
PRIVACIDAD DE UBICACIÓN EN BIG DATA
Sobre la protección de los datos de geolocalización en entornos masivos y servicios
basados en la ubicación (LBS). Enfoques, métodos y algoritmos.
Autor: Valentín Sastre Calvi
Profesor: Juan Carlos González González
Curso: 2019-2020 Q1
Privacidad de ubicación en contextos Big Data 1
ÍNDICE
1 Introducción ................................................................................................................ 2
1.1 Geolocalización en Big Data................................................................................... 2
2 Conceptos generales .................................................................................................. 3
2.1 Obtención de datos de ubicación. Tipos de fuentes de datos. ................................ 3
2.2 Location-Based Services ........................................................................................ 3
2.3 Daily Geotags ......................................................................................................... 4
2.4 Place of Activity ...................................................................................................... 4
2.5 Entropía de ubicación ............................................................................................. 5
3 Privacidad y protección de datos............................................................................... 6
3.1 Métodos y algoritmos.............................................................................................. 7
3.1.1 K-Anonimidad .................................................................................................. 7
3.1.2 Privacidad diferencial....................................................................................... 8
3.1.3 Dummy-based ................................................................................................. 9
3.2 Soluciones .............................................................................................................. 9
3.2.1 Basadas en K-anonimidad............................................................................... 9
3.2.1.1 Clique Cloak ............................................................................................. 9
3.2.1.2 Center Cloak........................................................................................... 10
3.2.1.3 Casper.................................................................................................... 11
3.2.1.4 Interval Cloak.......................................................................................... 12
3.2.1.5 Hilbert Cloak ........................................................................................... 13
3.2.2 Basadas en privacidad diferencial.................................................................. 13
3.2.2.1 Geo-indistinguibilidad.............................................................................. 13
3.2.2.2 Correlación temporal............................................................................... 16
3.2.3 Algoritmos de generación de Dummies.......................................................... 18
3.2.3.1 Moving in a Neighborhood ...................................................................... 20
3.2.3.2 Moving in a Limited Neighborhood.......................................................... 20
3.2.4 Esquemas híbridos ........................................................................................ 21
3.2.4.1 Sistemas peer-to-peer. MobiHide............................................................ 21
3.2.4.2 Algoritmo diff-anonym............................................................................. 22
4 Conclusión................................................................................................................. 24
Índice de figuras ............................................................................................................... 25
Índice de tablas................................................................................................................. 26
Bibliografía........................................................................................................................ 27
2 Privacidad de ubicación en contextos Big Data
1 Introducción
La geolocalización o la información de ubicación es generada actualmente en grandes
cantidades como consecuencia de un entorno altamente sensorizado, debido a los avances
tecnológicos y a la aparición de conceptos como el internet de las cosas (IoT). Esta
geoinformación toma un papel notable en el fenómeno del Big Data.
Esto suscita una problemática en lo que respecta a la privacidad en todas las fases: desde la
detección, la identificación, el almacenamiento, el procesamiento, el intercambio y el uso de
esta información en contextos técnicos, sociales y legales.
La cuestión de la protección de datos ha adquirido gran relevancia en los últimos tiempos no
solo en lo que se refiere a la ubicación, sino que abarca todo dato, por pequeño que sea, que
cualquier organismo público o privado obtenga de las personas.
Este trabajo pretende abordar la problemática de la privacidad de la información de ubicación
en este contexto big data, presentando los diferentes enfoques y conceptos a partir de los
cuales se encara.
Diversos métodos se han propuesto para lograr solventar este objetivo. Estos pueden ser
clasificados en diversas maneras. En [1] se dividen en anonimización espacial, ofuscación y
métodos de recuperación privados. Por otro lado, en [2] se establece una clasificación desde
otro punto de vista entre “dummy-based”, K-anonimidad, privacidad diferencial y métodos
basados en criptografía. Independientemente de su clasificación, todos tienen un objetivo
común: proteger la privacidad de la ubicación del usuario y, al mismo tiempo, que éste se
beneficie de las ventajas de los servicios derivados.
1.1 Geolocalización en Big Data
La información masiva de ubicación, o Big Data Location (BDL), es uno de los temas sujetos
a un amplio (y útil) análisis y uso hoy en día en el campo de las ciencias de la computación.
La Big Data Location contiene en sí los recursos necesarios para obtener información general
sobre la vida humana y analizar la actividad comunitaria.
La BDL depende de las condiciones geográficas para analizar y observar los movimientos de
las personas y sus actividades. Por ello, puede ser vista como una combinación de una gran
cantidad de información social humana y datos geográficos que incluyen la identificación de
ubicaciones de individuos y de tiempos específicos, lo que a su vez podría, mediante analítica,
generar nuevos datos.
La privacidad de las ubicaciones es una prioridad en lo que respecta a los problemas de
emergencia actuales que enfrenta la sociedad. Cada día la gente, de forma consciente o
inconsciente, pierde más y más en lo que respecta a la privacidad de su ubicación y sus
movimientos. Muchas organizaciones se centran en usar estas ubicaciones para rastrear a
sus clientes y proporcionarles información sobre diversos productos.
En el ámbito Big Data, esta “explotación” va desde los servicios de ubicación, el comercio
electrónico, los videojuegos online, los servicios de publicidad, etc. [3]
3 Privacidad de ubicación en contextos Big Data
2 Conceptos generales
2.1 Obtención de datos de ubicación. Tipos de fuentes de datos.
La información de la “location data” proviene de múltiples fuentes, a continuación se
presentan algunas de las más importantes [4]:
- El bidstream: Información sobre el usuario que ve un bloque de anuncios en una
aplicación. Estos datos provienen de aplicaciones y “publishers” que participan en una
subasta en tiempo real. El bidstream luego transmite datos básicos sobre el bloque
de anuncios (ad unit). Por ejemplo, verá la URL, la ubicación, el tipo de dispositivo y
la dirección IP. También puede contener datos demográficos de la audiencia. Y aún
más, plataformas que se especializan en las huellas digitales de los usuarios afirman
que analizan hasta 50 atributos por usuario. [5]
- Telecomunicaciones: Las torres de redes móviles o celulares permiten la obtención
de la ubicación del dispositivo mediante la técnica de triangulación. Este tipo de
ubicación proviene directamente de las empresas de comunicaciones que, por lo
general, tienen además algunos datos demográficos asociados. De manera similar a
los datos bidstream, esta fuente de información resulta atractiva gracias al amplio
alcance, ya que en muchos países pocas empresas sirven a toda la población.
- SDKs de ubicación: Un kit de desarrollo de software (SDK) es un conjunto de
herramientas que los editores de aplicaciones pueden agregar a sus aplicaciones para
proporcionar funcionalidades de terceros. Pueden utilizar el GPS incorporado en el
dispositivo para “colocar” (ubicar aproximadamente) el dispositivo y luego, utilizando
la intensidad de la señal Bluetooth de balizas (beacons), verifican y ajustan la
localización del dispositivo con precisiones métricas.
2.2 Location-Based Services
Los servicios basados en la ubicación son una serie de servicios accesibles a través de
dispositivos móviles que adaptan su funcionalidad a las posiciones o trayectorias actuales de
usuarios o vehículos. El fundamento de los Location-Based Services (LBS) proviene de
enormes conjuntos de datos espaciales y temporales proporcionados por una gran cantidad
de dispositivos móviles a través de GPS y diversas redes de comunicación, como las redes
móviles celulares o el Wi-Fi. Las grandes cantidades y los múltiples tipos de big data espacial
y temporal dan a los LBS el potencial de proporcionar servicios altamente personalizados y
acordes al contexto, lo que sin duda impacta positivamente la vida de los ciudadanos e
impulsa las posibilidades de las soluciones para ciudades inteligentes, las smart cities.
Por ejemplo, los LBS más básicos pueden ofrecer servicios de navegación y búsqueda,
mientras que otras aplicaciones derivadas pueden ayudar al usuario a encontrar atracciones,
amigos, el lugar de aparcamiento disponible más cercano o elaborar una planificación
inteligente de carreteras, entre otros.
Sin embargo, como sucede típicamente en las soluciones big data, la cuota de mercado de
un servicio basado en la ubicación depende de qué tan bien pueda protegerse la privacidad
del ciudadano, ya que necesita “sacrificar” información personal para obtenerlo. Por ejemplo,
la búsqueda de puntos de interés (POIs) puede ofrecer a un servidor LBS la identidad,
ubicación y el contenido de las consultas de un usuario. Esta información es muy sensible
porque el patrón de comportamiento, las preferencias, los hábitos y los intereses del usuario
se pueden inferir fácilmente de ellos. [6]
4 Privacidad de ubicación en contextos Big Data
En la siguiente (Tabla 1. Ejemplos de LBSs.), se muestran ejemplos típicos de LBSs, por
categorías, funciones, aplicaciones existentes de ejemplo y los elementos susceptibles en
cuanto a su privacidad.
Tabla 1. Ejemplos de LBSs.
2.3 Daily Geotags
Se define como Daily Geotags (etiquetas geográficas diarias) a la secuencia de ubicaciones
espacio-temporales utilizadas para representar el movimiento de un usuario durante un día.
2.4 Place of Activity
Las personas siempre pasamos nuestro tiempo en unos pocos sitios importantes para
diversas actividades en grupo durante intervalos de tiempo determinados. Ejemplos de estas
actividades son dormir por la noche con nuestra familia en casa o trabajar en la oficina durante
el día con los compañeros de trabajo.
Inferir dichos lugares es importante, no solo para propósitos de aspecto comercial, como la
publicidad, sino también desde la perspectiva de la seguridad pública, por ejemplo, mediante
la identificación de aglomeraciones, que puede contribuir en tareas antiterrorista.
Sin embargo, supone un reto el paso de “big location data” a la identificación de lugares de
actividad, debido al volumen y complejidad intrínsecos al big data, sumado a las restricciones
de privacidad. [7]
5 Privacidad de ubicación en contextos Big Data
El lugar de actividad (Place of Activity) es un conjunto de puntos geográficos significativos
que se usan para representar la actividad realizada por un grupo de individuos durante un
lapso de tiempo específico. El PoA puede ser representado tanto como por un polígono
espacial como por el punto geométrico central de éste. [7]
2.5 Entropía de ubicación
La entropía de ubicación o LE (Location Entropy) es un indicador o métrica popular para medir
la popularidad de diversas ubicaciones (por ejemplo, puntos de interés). A diferencia de otras
métricas computadas únicamente a partir del número de visitas únicas a una ubicación, es
decir, la frecuencia; la location entropy captura también la diversidad de las visitas de los
usuarios y, por lo tanto, resulta más precisa que otras métricas.
Las actuales soluciones computacionales para la obtención de este indicador requieren el
acceso total a las visitas anteriores de los usuarios a localizaciones, lo que plantea amenazas
a la privacidad. [8]
6 Privacidad de ubicación en contextos Big Data
3 Privacidad y protección de datos
Según la Directiva 95/46, de la Agencia Española de Protección de Datos [9], se establece
que, para determinar si una persona era identificable, era necesario considerar el conjunto de
los medios que pudieran ser razonablemente utilizados para identificarla. Así, dejan de ser
aplicables los principios de protección de datos en los casos en los que el conjunto de datos
fuera hecho “anónimo” o disociados de manera tal que ya no fuera posible identificar al
interesado.
Por otro lado, según el RGPD (Reglamento General de Protección de Datos) se señala que
datos personales “seudonimizados” constituyen información sobre una persona física a partir
de la cual es posible llevar a cabo su identificación dentro de una probabilidad razonable,
considerando los medios y factores objetivo, además de los costes, el tiempo y la tecnología
necesarios para ello.
Estas dos normativas mencionadas se diferencian en los términos utilizados: desde una
limitada “anonimización” a una materialización de ésta en el concepto de “seudonimización”,
donde se pone de manifiesto la dificultad de conseguir, hoy en día, una anonimización
perfecta que garantice, en términos absolutos, el enmascaramiento de la identidad de las
personas.
El tratamiento masivo de datos procedentes de los ciudadanos mediante el uso de técnicas
basadas en Big Data, Inteligencia Artificial o Machine Learning obliga a la implementación de
mecanismos para preservar la privacidad y el derecho a la protección de datos de carácter
personal.
Las fuentes de datos empleadas para dichos tratamientos contienen datos personales que se
catalogan como “identificadores” ya que, por sí solos, están asociados de forma unívoca a un
sujeto, como son el DNI, el nombre completo, el pasaporte o el número de la seguridad social.
El proceso básico de anonimización consiste en disociar de los identificadores el resto de los
datos más genéricos asociados a un sujeto (como el género, la fecha de nacimiento, el
municipio de residencia, etc.). El conjunto de datos preservados serán aquellos preservados
serán aquellos necesarios para cumplir con el objetivo del tratamiento y, mediante su
conservación y enriquecimiento, explotarlo para extraer información adicional.
Sin embargo, aunque la realización de dicho proceso de anonimización aparentemente
permite mantener el anonimato, dichos datos convenientemente agrupados y cruzados con
otras fuentes de información, pueden llegar a identificar a un individuo. Por lo tanto, al
conjunto de datos que no son “identificadores” pero que podrían llegar a señalar de forma
unívoca a un individuo se los denomina “pseudo-identificadores”, “cuasi-identificadores” o
identificadores indirectos. Consecuentemente, existe un riesgo de que, una vez se ha
anonimizado un dataset, se pueda realizar un proceso de desanonimización de los mismos.
Esto hace necesario tener una estimación objetiva de cuál es la probabilidad de
reidentificación a partir del conjunto de cuasi-identificadores y así cuantificar este riesgo.
Para administrar esta problemática y evitar (o dificultar) la desanonimización de un conjunto
de información existen las técnicas SDC (Statistical Disclosure Control o Control de
Revelación Estadística), que tienen por objeto el estudio de la realización de un tratamiento
adicional sobre la información de los sujetos de datos de forma óptima, maximizando el grado
de privacidad, pero manteniendo los objetivos de la aplicación o servicio que explota la
información. A grandes rasgos, estas técnicas pueden clasificarse entre perturbativas o no
perturbativas, según si introducen o no ruido en la fuente de datos.
7 Privacidad de ubicación en contextos Big Data
3.1 Métodos y algoritmos
3.1.1 K-Anonimidad
La K-Anonimización es una de las principales técnicas SDC, propuesta por Sweeney en 2002
[10]. La K-Anonimidad (K-Anonymity en inglés) es un indicador de la información anonimizada
que cuantifica el grado de preservación de la anonimidad de los individuos presentes en un
dataset en el que se han removido los “identificadores”. Supone, por tanto, un medidor del
riesgo de que agentes externos sean capaces de obtener datos personales a partir de
información anonimizada.
Se dice que un sujeto o individuo es k-anónimo dentro del dataset si, y únicamente si, para
cualquier combinación de atributos de tipo cuasi-identificadores, existen al menos otros K-1
individuos que comparten con él los mismos valores para esos mismos atributos. Por lo tanto,
la probabilidad de identificar a un sujeto concreto a partir de los cuasi-identificadores es, como
máximo, de 1/K. En la fase de diseño de un proceso de disociación de datos o anonimización
se debe garantizar un valor mínimo para K, para minimizar el riesgo de reidentificación [11].
En el siguiente ejemplo, propuesto por la AEPD [9], se presenta un conjunto de datos en el
que se pueden distinguir dos atributos “cuasi-identificadores”: el código postal y la edad; que
se asocian a un atributo sensible relacionado con datos de salud. A la izquierda se muestra
la tabla 1, que está 2-anonimizada. La tabla de la derecha, 2, no lo está:
Tabla 2. Ejemplo de datos 2-anonimizados.
Tabla 3. Ejemplo de datos no anonimizados.
La (Tabla 2. Ejemplo de datos 2-anonimizados.) está 2-anonimizada, ya que cada
combinación de valores de atributos cuasi-identificadores existe en como mínimo un par de
filas. Por otro lado, decimos que la (Tabla 3. Ejemplo de datos no anonimizados.) no está k-
anonimizada (o está 1-anonimizada), debido a que no existe para cada uno de los registros
otro que contenga idénticos valores para los atributos mencionados.
Consecuentemente, cabe afirmar que: es preferible obtener valores altos de K para que,
encontrado un individuo existente en diversas fuentes de información y al que se le asocian
determinados atributos, sea improbable encontrar a cuál de ellos exactamente se
8 Privacidad de ubicación en contextos Big Data
corresponde otro dato de interés asociado. Se dice que un individuo es perfectamente
identificable en el caso en que el dataset en el que se encuentra tiene un valor de K=1, es
decir, con 1-anonimidad.
Basados en el concepto de K-Anonymity se han desarrollado múltiples métodos y estrategias
de privacidad en lo que respecta a los LBS (servicios basados en la localización). Estos se
fundamentan en el concepto de cloaking (agregación/agrupación) y se clasifican según si se
aplica sobre los datos o sobre la ubicación espacial (Figura 1. Clasificación general de
métodos de k-anonimidad.). Más adelante, se describen las principales soluciones: clique
cloaking, center cloaking, Casper, interval cloak y Hilbert Cloaking [12].
Figura 1. Clasificación general de métodos de k-anonimidad.
3.1.2 Privacidad diferencial
Si bien el enfoque de K-anonimidad es considerado un método no perturbador, el otro
principal método de anonimización, la privacidad diferencial (differential-privacy en inglés), es
una solución de tipo perturbador.
La privacidad diferencial provee garantías de protección mayores que modelos como K-
anonymity. Implica la publicación de los resultados de una query con modificaciones añadidas
a las mismas, imposibilitando la identificación unívoca de un individuo.
Sin embargo, este “approach” presenta algunos inconvenientes. El primer impedimento
importante es que la privacidad diferencial no garantiza la vinculación del conjunto de datos
y el atributo en los datos. Generalmente, este modelo resulta más adecuado en casos en que
el resultado de las consultas de congruencia es pequeño y con baja sensibilidad. Así, este
método es el mejor en clases de consultas restringidas.
Este método fue propuesto inicialmente por Cythia Dwork en 2008 [13]. Finalmente, la
privacidad diferencial como uno de los modelos más importantes para proporcionar
privacidad, tiene como objetivo dividir los datos en pequeñas partes al tiempo que agrega
ruido a las consultas para garantizar que no afectará al análisis ni cuestionará la privacidad
del individuo.
Existen múltiples propuestas para añadir dicho ruido en los datos. En lo que respecta al caso
de los datos de ubicación, surgen conceptos como la “geo-indistinguibilidad” [14] o la
correlación temporal [15], que dan lugar a diversas soluciones concretas, tal como se explica
en el punto 3.
9 Privacidad de ubicación en contextos Big Data
3.1.3 Dummy-based
Los modelos “dummy-based” son una de las soluciones más populares en el campo de la
protección de privacidad. Para cada petición asociada a una localización o ubicación
específica del usuario, este método genera un grupo de “dummies” (falsas ubicaciones)
alrededor de la ubicación real. Todas ellas se transmiten como respuesta a la petición. De
esta manera, el proveedor del servicio LBS (basado en localización) no puede identificar la
posición verdadera del usuario. Comparado con otros métodos como la K-anonimidad, la
privacidad diferencial o los basados en criptografía, esta metodología presenta algunas
ventajas como las siguientes: no depende de un tercero, provee resultados precisos a las
queries y no comparte una “key” entre el usuario y el proveedor del servicio [2].
En casos reales de aplicación, un usuario puede hacer un uso constante de servicios LBS.
Por ejemplo, viajando en coche, puede consultar la estación de servicio más cercana
continuamente. Otro ejemplo es, que mientras conduce hacia el aeropuerto, compruebe
frecuentemente el estado del tráfico cercano en la carretera. Bajo estas circunstancias, los
conjuntos de ubicaciones enviados como respuesta a dichas peticiones o consultas siempre
incluyen una similar correlación espacio-temporal. El proveedor del servicio, por tanto, puede
utilizar el alcance temporal, la similaridad direccional y los grados de entrada y salida para
analizar la correlación espacio-temporal, lo que puede permitirle identificar algunos
“dummies” con alta confianza, o incluso obtener la localización real del usuario directamente
[16].
Por ello, no se puede decir que los sistemas “dummy-based” puedan proteger completamente
la privacidad de la ubicación del usuario en servicios basados en la ubicación, especialmente
en casos en los que se realicen múltiples peticiones a dicho servicio [17] [18].
3.2 Soluciones
3.2.1 Basadas en K-anonimidad
Las soluciones fundamentadas en la K-anonimidad protegen la privacidad de ubicación del
usuario utilizando la localización actual (en lugar del historial de localizaciones recopiladas)
de cada usuario en el sistema. Operan en servicios basados en localización que requieren
una transmisión de ubicación única por parte del solicitante del servicio para ser
proporcionado con éxito (por ejemplo, buscadores de tiendas, buscadores de amigos, etc.),
en lugar de la comunicación de ubicaciones múltiples.
Las diferentes técnicas de cloaking (ocultamiento) que se han desarrollado para proporcionar
K-anonimidad se presentan en la (Figura 1. Clasificación general de métodos de k-
anonimidad.). Seguidamente, se desarrollan las concreciones más populares del enfoque.
3.2.1.1 Clique Cloak
Clique Cloak es un enfoque basado en grafos o regiones que anonimiza mutuamente
múltiples peticiones entrantes en LBSs. Para cada consulta que se recibe para dar el servicio,
el algoritmo genera un rectángulo centrado en la ubicación del peticionario, con sus lados
paralelos a los considerados ejes X y Z, respectivamente con una extensión de ∆x y ∆y
determinados. La nueva “query” se marca entonces como un nodo en un grafo mientras
espera a su anonimización. Dos vértices (queries) en el grafo se conectan entre ellas si los
usuarios correspondientes “caen” en los rectángulos cada uno del otro. Un borde del grafo
10 Privacidad de ubicación en contextos Big Data
demuestra que el peticionario de cada una de las dos peticiones puede ser incluido en el set
de anonimidad computada del otro. Así, cada “K-clique” (conjunto de K individuos con
rectángulos superpuestos y, por tanto, indiferenciables) del grafo muestra que las
correspondientes K peticiones pueden ser anonimizadas juntamente, ofreciendo K-
anonimidad a los K usuarios que participan en el “K-clique”.
Finalmente, junto con cada petición hay un intervalo de tiempo ∆t que define el máximo tiempo
que la petición puede ser retenida por el sistema para su anonimización. Si un K-clique no
puede ser encontrado en el determinado ∆t, la petición se considera inservible y no se
considera.
La (Figura 2. Esquema del algoritmo Clique Cloak.) muestra la operación en un escenario en
que tres peticiones al servicio (U1, U2 y U3) son enviadas simultáneamente (es decir, dentro
del intervalo ∆t). Asumiendo un valor de K=2, los rectángulos generados para U1 y U2 caen
uno dentro del otro, formando un 2-clique. Como resultado el “envoltorio” que comprende
ambos rectángulos se considera la región espacial de anonimización (ASR, Anonymity Spatial
Region), donde 2-anonimidad se ofrece a los usuarios. Por otro lado, la petición realizada por
U3 tiene que esperar a que una nueva petición “cercana” llegue; si en el plazo límite de ∆t
esto no ocurre, se descartará.
Figura 2. Esquema del algoritmo Clique Cloak.
3.2.1.2 Center Cloak
Center Cloak es una implementación basada en distancias que provee una solución
relativamente sencilla a la K-anonimidad en servicios basados en ubicación. En este
escenario, los K-1 vecinos más cercanos (nearest neighbors) del solicitante son considerados
y la ASR (región de anonimidad espacial) se computa como la región que cubre los K
usuarios. Por construcción, Center Cloak sufre lo que se conoce como el ataque de “centro
del ASR”; la identidad del solicitante puede ser “adivinada” fácilmente con una probabilidad
mucho mayor que 1/K, al considerarse que lo esperado es que esté cerca del centro de la
región ASR.
Este ataque de “centro del ASR” es una concreción de un problema más general que cabe
mencionar. Los algoritmos de cloaking suelen estar disponibles públicamente, lo que posibilita
11 Privacidad de ubicación en contextos Big Data
que un potencial “atacante” pueda explotar cualquier decisión de implementación con
respecto a la ubicación del solicitante respecto al ASR. Consecuentemente, varias de las
soluciones aquí planteadas sufren de tipos similares de ataques.
Una variante “randomizada” (aleatorizada) de Center Cloak que ofrece una mayor incerteza
respecto a la ubicación del “requester” en el ASR generado se denomina Nearest Neighbor
Cloak (NN-Cloak). En el algoritmo NN-Cloak la región de anonimidad espacial se genera de
la siguiente manera: dada una petición del usuario de un LBS, NN-Cloak primero recupera
los K-1 vecinos más próximos del peticionario. Seguidamente, selecciona aleatoriamente uno
de los K usuarios e identifica su K-1 vecinos más próximos. Finalmente, el K-ASR se
construye como la región que comprende el segundo de los ASR aumentado, si es necesario,
para incluir al usuario que realizó la petición.
La (Figura 3. Esquema del algoritmo Center Cloak.) presenta un escenario en el que 3-
anonimidad es ofrecida a un usuario U1 mediante la técnica NN-Cloak. Primero, la petición
de U1 da lugar a un primer ASR (que contiene U1, U2 y U3). Luego, entre ellos NN-Cloak
aleatoriamente selecciona U3, generando un segundo ASR (que contiene U3, U4 y U5).
Finalmente, este se amplía para recoger al peticionario U1, quedando como ASR “final”, la
región que comprende a U1, U3, U4 y U5. De esta manera, se evita la exposición al ataque
del “centro del ASR”.
Figura 3. Esquema del algoritmo Center Cloak.
3.2.1.3 Casper
Casper es la denominación que recibe la metodología más frecuente de K-anonimidad de
ubicación de tipo rejilla (grid). En Casper, el área completa que cubre el anonimizador se
divide en una cuadrícula y se organiza en una estructura de tipo piramidal, de manera similar
a un “quadtree”. La capa superior de la pirámide contiene el área completa, mientras que el
nivel más bajo representa la granularidad más fina del particionado. Cada celda en este nivel
inferior tiene un tamaño mínimo que se corresponde con la resolución de anonimidad. Cuando
el servidor recibe una nueva petición al LBS, Casper ubica el nivel más bajo de la pirámide
que contiene al peticionario y examina si dicha celda contiene además otros K-1 usuarios. Si
la celda contiene suficientes usuarios, esta se convierte en la región de anonimidad espacial
12 Privacidad de ubicación en contextos Big Data
(K-ASR). Si por el contrario no se cumple la condición, Casper rastrea los vecinos horizontales
y verticales de la celda para identificar si el número de usuarios en dichas celdas vecinas,
combinado con los contenidos en la celda del solicitante, suman K usuarios. Si esto se
cumple, la unión de estas celdas se toma como región K-ASR. Si no se satisface la condición,
Casper sube un nivel en la pirámide, identifica la celda que contiene al usuario que realiza la
petición y repite el mismo proceso, hasta que consigue delimitar la región que contiene K
usuarios.
La (Figura 4. Esquema del algoritmo Casper.) muestra un ejemplo de aplicación del algoritmo.
En el escenario el que una petición proviene de la celda ((0, 2), (1, 3)) (donde (0, 2) son las
coordenadas de la esquina inferior izquierda y (1, 3) de la esquina superior derecha de la
celda) con un requerimiento de anonimidad de K=2, la ASR resultante es la propia celda. En
el evento que, con la misma restricción de anonimidad, una query provenga de la celda ((1,
2), (2, 3)), la ASR obtenida sería la unión de las celdas ((1, 2), (2, 3)) y ((1, 3), (2, 4)).
Figura 4. Esquema del algoritmo Casper.
3.2.1.4 Interval Cloak
El algoritmo de Interval Cloak es similar a Casper, ya que también particiona el área total
cubierta por el servidor en cuadrantes equivalentes (cuadrados de idénticas dimensiones) y
los organiza en una estructura de quadtree. Sin embargo, Interval Cloak no considera las
celdas vecinas en el mismo nivel para generar la ASR, sino que directamente asciende de
nivel en la estructura piramidal.
A modo de ejemplo, la (Figura 4. Esquema del algoritmo Casper.) muestra que una petición
proveniente de U3 o U4 generará una región de anonimidad ((0, 2), (2, 4)), en lugar del ((1,
2), (2, 4)) que obtendría Casper. Comparativamente, Casper resulta más eficiente al generar
ASRs más compactos. Sin embargo, ambas soluciones son únicamente adecuadas para
distribuciones de información uniformes.
13 Privacidad de ubicación en contextos Big Data
3.2.1.5 Hilbert Cloak
El método Hilbert Cloak no sufre esta limitación, ya que genera el mismo K-ASR
independientemente de cuál de los “participantes” del conjunto de anonimidad haya realizado
la petición al servicio. Esta propuesta se basa en el concepto de “K-bucket cloaking”; de
manera dinámica, organiza los usuarios en grupos de K componentes y computa la región de
anonimidad espacial como la “envoltura” que contiene los K usuarios que componen el grupo
del solicitante. Hilbert Cloak crea un mapeo unidimensional de la posición de cada uno de los
usuarios. En el mapeo propuesto, ubicaciones cercanas entre sí en el plano bidimensional se
espera que también sean próximas en la transformación unidimensonal. Para cada request
con un requerimiento de K-anonimidad, Hilbert Cloak particiona cada K usuarios en el sistema
en un “bucket”. Seguidamente, se consideran los K-1 usuarios que se encuentran en el mismo
grupo que el requester y se formula la K-ASR como su envoltura.
Un ejemplo de aplicación se muestra en la (Figura 5. Esquema del algoritmo Hilbert Cloak.),
donde se consideran 10 usuarios cuyos IDs se ordenan de forma ascendente. Dada una
query al LBS del usuario U3 con un requerimiento de anonimidad de K=3, Hilbert Cloak utiliza
el rango del usuario (en este caso, 3) para dinámicamente identificar el “bucket” o grupo en
el que dicho usuario es particionado (en este caso, el primer grupo). Posteriormente, recupera
todos los usuarios que integran dicho grupo (U1, U2 y U3) y genera la 3-ASR correspondiente
(sombreado en el gráfico). Nótese que cualquier petición (con K=3) proveniente de U1, U2 o
U3 generaría exactamente la misma 3-ASR.
Figura 5. Esquema del algoritmo Hilbert Cloak.
3.2.2 Basadas en privacidad diferencial
3.2.2.1 Geo-indistinguibilidad
Esta propuesta basada en el concepto de privacidad diferencial funciona primeramente
mediante la adición de ruido controlado a la localización del usuario con el objetivo de obtener
una versión aproximada de esta, para luego enviar dicha ubicación aproximada al LBS
(servicio basado en la ubicación). El tipo de privacidad que intenta proporcionar este
mecanismo se podría definir como “cuasi-indistinguibilidad dentro de una cierta área”, que se
denominará de ahora en adelante más brevemente como “geo-indistinguibilidad” [14].
14 Privacidad de ubicación en contextos Big Data
Intuitivamente, lo que esto significa es que, desde el punto de vista del proveedor del servicio,
el usuario puede estar en cualquier lugar; o de manera más precisa, con casi las mismas
probabilidades de estar en cualquier sitio; dentro de un radio r especificado por el usuario,
que también determina el nivel de discrepancia l (ele) que puede tolerar entre la probabilidad
de varios puntos en el área (que son ubicaciones candidatas para el servidor). Estos dos
valores representan el nivel de garantía de privacidad del usuario.
Como es lógico, un mayor nivel de privacidad de ubicación supone un sacrificio en el nivel de
detalle (y, al fin y al cabo, en su utilidad) del servicio LBS. Por ejemplo, si el usuario quiere
saber qué restaurantes tiene a una distancia a la que pueda llegar caminando, el valor de r
debería ser no mayor de, por determinar un máximo, 1 kilómetro. Por tanto, estos parámetros
no deben ser determinados arbitrariamente. Por otro lado, cabe destacar que ambos
parámetros están relacionados, en el sentido en que cuanto mayor sea el área requerida de
protección r, mayor discrepancia se puede tolerar entre la probabilidad de varios puntos, con
tal de mantener el mismo grado de utilidad del servicio, sin dejar de proteger la ubicación
exacta. En general, con este método, cuando se especifica un par (l, r) se obtiene un
mecanismo que provee geo-indistinguibilidad para todos los pares (l’, r’) tal que l’/r’=l/r.
La noción de geo-indistinguibilidad puede ser interpretada como el requerimiento de que, en
un radio r, la ubicación aproximada comunicada por el usuario no debería dar muchas “pistas”
al servidor sobre la ubicación real, donde el “muchas” se cuantifica por l. La geo-
indistinguibilidad puede ser vista como una generalización de la popular noción de privacidad
diferencial. Por último, cabe destacar que este enfoque es independiente de cualquier otra
información relativa al usuario, así como tampoco considera ningún conocimiento
probabilístico previo sobre la ubicación real.
En lo que respecta a la materialización de esta propuesta, la inspiración proviene de una de
las aplicaciones principales utilizadas en la privacidad diferencial, que consiste en la
generación de ruido a partir de la distribución de Laplace. Esta distribución, sin embargo, es
lineal, cuando en este caso se necesita un mecanismo planar. La distribución laplaciana
puede ser extendida de forma natural en el plano continuo y es sencillo probar que dicha
extensión provee las garantías de privacidad requeridas.
Gracias a una transformación a coordenadas polares, es posible idear un método simple y
eficiente para “dibujar” puntos. Por otro lado, las aplicaciones comunes usualmente suponen
una representación finita de las coordenadas, mientras que en este caso es necesario
discretizar la distribución, una operación que genera un potencial riesgo en lo que se refiere
a un posible “incumplimiento” de la geo-indistinguibilidad. No obstante, se prueba que esta
propiedad se preserva, aún con una pequeña degradación del nivel de privacidad.
Este enfoque se demuestra satisfactorio en casos de LBS (location-based services) y en
escenarios de “location-data mining”. En el primero se comprueba que, mediante el
“intercambio” (trading) entre privacidad y uso de ancho de banda, la geo-indistinguibilidad
puede ser obtenida sin degradar la utilidad de la información provista por el servicio basado
en ubicación. En el segundo caso, se concluye que dotar de geo-indistinguibilidad a todos los
usuarios de un conjunto de datos no reduce significativamente la calidad de los datos (siendo
el grado de reducción de calidad inversamente proporcional a los parámetros l y r de la
garantía de privacidad).
Cabe destacar también la compatibilidad de esta solución tanto con sistemas a tiempo real
(como servicios de smartphone, que requieren esta propiedad) como con sistemas offline
(como la publicación de información estadística de un gran número de usuarios).
15 Privacidad de ubicación en contextos Big Data
Modelo probabilístico
Habiendo definido el concepto como una definición de la privacidad que expresa el
requerimiento del usuario de proteger su ubicación exacta al utilizar un LBS, el proceso
“delega” en el propio usuario la determinación del nivel de privacidad en su localización,
acorde con el inversamente proporcional nivel de detalle en la respuesta que espera del
servicio.
Determinando r como el radio de la circunferencia centrada en el usuario, se puede decir que
éste tiene una l-privacidad dentro de r si, al observar z (un punto aleatorio), la habilidad del
servidor de detectar la ubicación real del usuario de entre todos los puntos dentro del radio r
no incrementa más de un factor dependiendo de l. La idea es que l es la inversa del nivel de
privacidad del usuario para dicho radio, cuanto menor sea l, más fuerte es la privacidad del
mismo.
La aplicación parte de un modelo probabilístico, que ahora se explica brevemente. Se
comienza a partir de un X conjunto de puntos de interés, típicamente las posibles ubicaciones
del usuario. Además, se llama Z a un conjunto de posibles valores reportados, que en general
pueden ser arbitrarios, pero que para la necesidad del caso se considera que son también
puntos espaciales. En este sistema operacional, el usuario se asume localizado en algún
punto x dentro de X. Posteriormente se selecciona un punto z perteneciente a Z, que se hace
disponible al atacante (agente que intenta obtener la posición real, como un proveedor de
servicio no confiable).
Las probabilidades aparecen en dos sentidos. Primero, el atacante puede tener información
adicional sobre la ubicación del usuario sabiendo, por ejemplo, que es posible que se
encuentre visitando la Torre Eiffel, mientras que es improbable que se encuentre nadando en
el río Sena. Si H es la variable aleatoria dada la ubicación del usuario (dentro del conjunto X),
la información auxiliar del atacante puede ser modelada por la distribución a priori Px para H,
donde Px(x) es la probabilidad asignada a la localización x. Segundo, la selección de un punto
de Z es en sí mismo probabilística; por tanto, z puede ser obtenido mediante la adición de
ruido aleatorio a la localización real x. La función probabilística para seleccionar un valor
reportado basado en la ubicación real se denomina “mecanismo”. Si J es la variable aleatoria
dado un punto reportado, un mecanismo K para seleccionar z es una función que asigna a
cada ubicación x de X una distribución de probabilidad para J, donde K(x)(S) es la
probabilidad de que el punto reportado pertenezca al conjunto S contenido en Z, donde la
ubicación real es x.
Juntas, Px y K inducen una distribución de probabilidad conjunta P para H, J, al
P(x,S)=Px(x)K(x)(S). Nótese que, por construcción, P(x)=Px(x) y P(S|x)=K(x)(S). El desarrollo
completo está disponible en [19].
En resumen, la propuesta del concepto de geo-indistinguibilidad es una noción formal de
privacidad en la ubicación que se basa en el concepto de privacidad diferencial para diseñar
un mecanismo centrado en la posición del usuario que preserva su privacidad. Para garantizar
esta seguridad sin perder la utilidad del servicio, los usuarios reportan versiones ofuscadas
de su posición real, generadas a partir de la distribución de Laplace, garantizándose que
estas son indistinguibles entre sí dentro del radio especificado. Lo que destaca de esta
propuesta es que contempla la información previa que se pueda tener de la posición del
usuario, para generar posiciones “falsas” que sean verosímiles, como se observa en la (Figura
6. Ejemplo básico de método de geo-indistinguibilidad.).
16 Privacidad de ubicación en contextos Big Data
Figura 6. Ejemplo básico de método de geo-indistinguibilidad.
3.2.2.2 Correlación temporal
La motivación de esta propuesta frente a las soluciones expuestas anteriormente, como las
basadas en el concepto de K-anonimidad, es la consideración de la correlación temporal entre
las posiciones de un usuario en movimiento. Muchos de los enfoques anteriores se centran
en escenarios estáticos y funcionan mediante la perturbación de la ubicación en “timestamps”
únicos sin tener en cuenta dicha correlación temporal, lo cual implica una vulnerabilidad en la
privacidad [15].
En este caso, se considera un usuario en movimiento con un flujo de ubicaciones sensibles
que necesita en un momento dado compartir esta ubicación a un host de aplicación no
confiable. El objetivo es que la ubicación real del usuario solo sea conocida por el usuario.
Las ubicaciones “saneadas” que son resultado del mecanismo de privacidad son observables
por los proveedores del servicio.
Primero, se propone una privacidad basada en el llamado “δ-location set” (conjunto de δ
ubicaciones) para proteger la ubicación verdadera en cada “timestamp” o momento concreto.
Se define también el concepto de “neighboring databases” (bases de datos vecinas), que en
privacidad diferencial estándar son cualesquiera dos bases de datos bajo una misma
operación: añadir o eliminar un registro (o un usuario). Sin embargo, esto no es aplicable en
este entorno, lo que da lugar a nuevas nociones como “δ-neighborhood” o la privacidad
diferencial a nivel de evento. En este problema, los cambios de ubicación en dos timestamps
consecutivos se determinan por las correlaciones temporales modeladas a través de una
cadena de Markov [20]. Acordemente, se propone un conjunto de δ-ubicaciones para incluir
todas las ubicaciones probables del usuario. Intuitivamente, para proteger la posición real, es
solo necesario “esconderla” en el “δ-location set”, donde cualquier par de ubicaciones es
indistinguible.
Segundo, se muestra que la conocida L1-norm (least absolute deviations o mínimas
desviaciones absolutas) en la privacidad diferencial estándar no consigue capturar la
sensibilidad geométrica en el espacio multidimensional. Por ello, se propone una nueva
noción, la “sensitivity hull”, para capturar el significado geométrico de la sensibilidad. Esta
“sensitivity hull” determina también el límite inferior del error.
Tercero, se presenta un mecanismo eficiente de perturbación de ubicación llamado PIM
(mecanismo isotrópico planar), que consigue la privacidad diferencial basada en el conjunto
de δ-ubicaciones.
17 Privacidad de ubicación en contextos Big Data
Como rasgos generales de la materialización cabe destacar el uso de dos sistemas de
coordenadas (Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal.):
las “state-coordinate” y las “map-coordinate”; para representar la ubicación en el modelo de
Markov y para el modelo de mapa respectivamente.
Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal.
Por otro lado, se establece un modelo de movilidad y de interferencias. El uso de la cadena
de Markov para modelar las correlaciones temporales entre las ubicaciones del usuario
captura restricciones como la red de viales sobre los que se puede mover el usuario. Sin
embargo, este modelo, así como otros modelos de movilidad, puede tener limitaciones en
términos de la previsibilidad. En el setting del problema, las ubicaciones verdaderas del
usuario son inobservables. Solo lo son las ubicaciones “saneadas” resultantes del mecanismo
perturbador. A partir de este escenario se diferencian diversas probabilidades:
· Probabilidad de transición: Denota las probabilidades de que un usuario se mueva entre una
ubicación y otra.
· Probabilidad de emisión: Dada la ubicación real ut*, el mecanismo perturbador devuelve una
ubicación perturbada zt, entonces la probabilidad Pr(zt|ut* = si) se llama “probabilidad de
emisión”, siendo si una celda en el mapa particionado.
· Inferencia y evolución: Denota las probabilidades previa y posterior de la ubicación del
usuario antes y después de observar la resultante zt perturbada respectivamente. Esto se
computa mediante inferencia Bayesiana.
Grosso modo, el enfoque de la correlación temporal se fundamenta en el concepto de
privacidad diferencial y en el mecanismo de Laplace, construido en la sensibilidad L1-norm.
El propuesto “sensitivity hull” se basa en el concepto básico de geometría computacional de
“convex hull”.
18 Privacidad de ubicación en contextos Big Data
Figura 8. Convex hull, sensitivity hull y transformación isotrópica
En la (Figura 8. Convex hull, sensitivity hull y transformación isotrópica) se ejemplifican
gráficamente los conceptos de “convex hull” (a), “sensitivity hull” K (b) y la transformación de
K a la posición isotrópica Kl, con punto de ejemplo z’ (c).
3.2.3 Algoritmos de generación de Dummies
Esta tipología de soluciones, al ser de tipo perturbador, propone una técnica de comunicación
anónima para LBSs en la cual el usuario envía su posición al proveedor del servicio
incluyendo ruido. Este ruido consiste en un conjunto de datos de posición falsos que, desde
ahora, se denominarán “dummies”. En la (Figura 9. Funcionamiento básico de los algoritmos
de generación de dummies.) se muestra un esquema genérico de la solución propuesta [18].
Figura 9. Funcionamiento básico de los algoritmos de generación de dummies.
La técnica que se propone en [18] parte de la definición de tres funciones basadas en el
“Anonymity Set” [21], que evalúa la anonimidad de la posición. Para testear la técnica, se
implementa un sistema de simulación que comprueba la efectividad en la privacidad de
ubicación en aplicaciones LBS.
El procedimiento general del servicio consta de las siguientes fases:
· Un usuario de servicio basado en la ubicación obtiene su propia información de posición r
gracias a un dispositivo como los GPS.
· Se generan dummies (posiciones falsas) en las posiciones 1 y 2.
· El usuario crea un mensaje de request al servicio (S) que incluye la información de posición
en r, 1 y 2; y envía S al proveedor del servicio.
19 Privacidad de ubicación en contextos Big Data
· El proveedor crea un mensaje de respuesta de servicio (R) que responde a todas las
posiciones recibidas; y envía R al usuario.
· El usuario recibe R y elige únicamente la información necesaria de R.
Así, el usuario conoce la geolocalización real, pero el “service provider” no. El proveedor no
puede distinguir cuál de las posiciones recibidas es la real, garantizando la anonimidad
completa.
Para solventar la exposición a que mecanismos de correlación espaciotemporal puedan
detectar la posición real del usuario a partir del movimiento que este realiza, esta solución, el
algoritmo genera o simula un movimiento desplazado a partir de los dummies generados,
como se muestra en la (Figura 10. Generación de dummies en movimiento.).
Figura 10. Generación de dummies en movimiento.
Esta generación de dummies no puede ser totalmente aleatoria. Si esto fuera así, sería fácil
de encontrar las diferencias entre la posición real y los dummies en LBSs que necesitan
información de posición continuamente, como los servicios de navegación. Para evitar esto,
los dummies no pueden comportarse de manera totalmente diferente a la posición real. Se
presentan, pues, dos algoritmos de generación de dummies que previenen que el proveedor
de un servicio encuentre la posición real del usuario (Figura 11. Algoritmos de generación
de dummies.).
Figura 11. Algoritmos de generación de dummies.
20 Privacidad de ubicación en contextos Big Data
3.2.3.1 Moving in a Neighborhood
En este algoritmo, la siguiente posición del dummy se decide en la vecindad de la posición
actual del dummy. El dispositivo de comunicación del usuario “memoriza” la posición previa
de cada dummy. Luego, genera dummies alrededor.
A continuación, se muestra en la (Tabla 4. Algoritmo Moving in a Neighborhood (MN).) el
código con la función que ejecuta el algoritmo [18].
Tabla 4. Algoritmo Moving in a Neighborhood (MN).
3.2.3.2 Moving in a Limited Neighborhood
En este algoritmo, la posición siguiente del dummy también se decide en la vecindad de la
posición actual de éste. Sin embargo, la siguiente ubicación está limitada por la densidad de
la región. Este algoritmo es adaptable en casos donde el dispositivo de comunicación del
usuario puede obtener la información de posición de otro(s) usuario(s). Primero, el dispositivo
obtiene la ubicación del otro usuario. Luego, genera dummies alrededor de la misma manera
que el algoritmo MN (Moving in a Neighborhood). Después, si hay muchos usuarios en la
región generada, el dispositivo genera el dummy de nuevo. El proceso es iterativo.
A continuación, se muestra en la (Tabla 5. Algoritmo Moving in a Limited Neighborhood
(MLN).) el código de la función que ejecuta el algoritmo [18].
21 Privacidad de ubicación en contextos Big Data
Tabla 5. Algoritmo Moving in a Limited Neighborhood (MLN).
3.2.4 Esquemas híbridos
3.2.4.1 Sistemas peer-to-peer. MobiHide.
MobiHide [22] es una propuesta de algoritmo basada en un sistema peer-to-peer (de igual a
igual). En MobiHide, los dispositivos móviles participantes forman una tabla hash de
distribución jerárquica, fundamentada en la arquitectura Chord P2P [23], que indexa las
ubicaciones de todos los usuarios. Para mapear las localizaciones 2D de todos los usuarios
en un espacio Chord unidimensional, se emplea la curva de Hilbert [24]. Los K-ASRs se
ensamblan de manera colaborativa entre pares (peers) de manera distribuida, mediante la
elección de grupos aleatorios de K usuarios (incluyendo el peticionario) que son consecutivos
en el espacio 1D (Figura 12. Arquitectura del sistema MobiHide y petición anonimizada.). Se
prueba que, para una distribución uniforme de peticiones, MobiHide garantiza la privacidad,
demostrando experimentalmente que incluso para distribuciones sesgadas, la probabilidad
de identificar al usuario que realiza la consulta está muy cerca del límite teórico.
Figura 12. Arquitectura del sistema MobiHide y petición anonimizada.
22 Privacidad de ubicación en contextos Big Data
3.2.4.2 Algoritmo diff-anonym
El algoritmo diff-anonym [11] es una solución que combina los dos principales enfoques
respecto a la privacidad: K-anonimidad y privacidad diferencial. Esta aplicación, propuesta
inicialmente para la protección de datos sin componente espacial, se ha adaptado para
garantizar la privacidad de ubicación en el trabajo [3].
Su sucesión de fases fundamental y general es la siguiente:
· Input: Conjunto de datos de cualquier volumen sobre el cual se quiere incluir privacidad.
· Paso 1: Carga de los datos al framework (marco de trabajo).
· Paso 2: Selección de los campos de atributos a organizar en nuevas tablas temporales.
· Paso 3: Detección de “cuasi-identificadores” en las tablas temporales.
· Paso 4: División de las tablas en “mini-tablas”.
· Paso 5: Aplicación de k-anonimidad a las mini-tablas temporales.
· Paso 6: Detección de atributos iguales en los resultados.
· Paso 7: Extender los resultados de aplicar k-anonimidad.
· Paso 8: Adición de ruido a la información que ya contiene atributos iguales en los resultados.
· Paso 9: Recombinación de los resultados en el big dataset.
Para ejemplificar la metodología, los investigadores I.A. Hassoon, N. Tapus y A.C. Jasim [3]
plantean como caso de estudio el conjunto de datos de las ubicaciones de todas las
direcciones postales de la ciudad de Bucarest, Rumanía. El área abarca 228 kilómetros
cuadrados y supone la cantidad de 124802 ubicaciones almacenadas.
La aplicación del algoritmo diff-anonym, que combina los métodos de k-anonimidad y
privacidad diferencial, se aplica en tres niveles, siendo el primero aquél que lee la información
y la separa en multi grupos. En este nivel, se implementa el algoritmo al dataset de 124802
registros, y mediante el uso de multi tests se dividen los datos en pequeños grupos (registros
totales, la mitad, de 10000, 5000, 1000). En el último test, se divide el conjunto completo en
grupos de 1000, que se comprobó como el mejor resultado en términos de tiempo de
ejecución.
Esta implementación de primer nivel se ilustra en la siguiente (Figura 13. Implementación de
Diff-Anonym en el primer nivel.). Se observa que la ubicación se trata desde el punto de vista
alfanumérico, siendo los campos de coordenadas tratados como información sensible a
anonimizar. En el aspecto de la k-anonimidad, se determinó un valor de K=3. La columna
derecha recoge el número de elementos de ruido introducidos para el id determinado.
23 Privacidad de ubicación en contextos Big Data
Figura 13. Implementación de Diff-Anonym en el primer nivel.
El segundo nivel de aplicación del algoritmo Diff-Anonym se implementa la k-anonimidad en
los grupos de datos resultantes del primer nivel, que incluía campos de movimientos de los
clientes (longitud y latitud) con un rango de K entre 1 y 9. El test devolvió un resultado que
permitió concluir que los valores de K<5 son los más beneficiosos en la preservación de la
privacidad de los registros. En la (Figura 14. Implementación de Diff-Anonym en el segundo
nivel.) se presentan los resultados de este nivel de implementación, con K=3. Nuevamente,
la columna de la derecha recoge la cantidad de elementos de ruido introducidos para el id
seleccionado. En este caso se observa que el registro de identificador 15075 aparece repetido
55 veces, fruto de la aplicación de la privacidad diferencial. La aplicación de la k-anonimidad
se aprecia en la generalización de los valores de las coordenadas (por ejemplo, 26.033*****).
Figura 14. Implementación de Diff-Anonym en el segundo nivel.
El tercer nivel de aplicación consiste en la re-lectura del resultado, en la identificación de los
registros con similaridad entre si y la implementación de métodos diferenciales en aquellas
parejas de tuplas con valores similares.
24 Privacidad de ubicación en contextos Big Data
4 Conclusión
En el presente trabajo de documentación se plantea la problemática de la privacidad y la
protección de datos respecto a la ubicación de los usuarios de servicios, aplicaciones o
estudios. En rasgos generales, se identifican tres enfoques distintos a partir de los cuales se
han desarrollado mecanismos para proteger la privacidad en la ubicación del usuario en
sistemas basados en localización: los fundamentados en la k-anonimidad, aquellos basados
en el concepto de privacidad diferencial, y los enfoques llamados “dummy-based”, centrados
en la adición de ruido o datos erróneos en las peticiones que el usuario realiza al servicio.
Con el fin de materializar mecanismos basados en la k-anonimidad, se desarrollan los
algoritmos conocidos como “cloaking” o agrupación. En este documento se detallan las bases
teóricas de concreciones como el Clique Cloak, Center Cloak, Casper, Interval Cloak y Hilbert
Cloak.
En el amplio espectro de las aplicaciones de la privacidad diferencial, se profundiza en las
propuestas de geo-indistinguibilidad y en los enfoques que toman en consideración la
protección frente a la correlación temporal.
Existen múltiples algoritmos dummy-based, pero en esta recopilación se hace referencia a
los dos mecanismos básicos que rigen su esencia: Moving in a Neighborhood y Moving in a
Limited Neighborhood.
Cabe remarcar, finalmente, que existen otros enfoques para abordar la problemática de la
privacidad de la ubicación, como son las soluciones mixtas, como MobiHide o Diff-Anonym,
o aquellas basadas en la criptografía.
25 Privacidad de ubicación en contextos Big Data
Índice de figuras
Figura 1. Clasificación general de métodos de k-anonimidad................................................ 8
Figura 2. Esquema del algoritmo Clique Cloak.................................................................... 10
Figura 3. Esquema del algoritmo Center Cloak................................................................... 11
Figura 4. Esquema del algoritmo Casper. ........................................................................... 12
Figura 5. Esquema del algoritmo Hilbert Cloak. .................................................................. 13
Figura 6. Ejemplo básico de método de geo-indistinguibilidad. ........................................... 16
Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal...................... 17
Figura 8. Convex hull, sensitivity hull y transformación isotrópica ....................................... 18
Figura 9. Funcionamiento básico de los algoritmos de generación de dummies. ................ 18
Figura 10. Generación de dummies en movimiento. ........................................................... 19
Figura 11. Algoritmos de generación de dummies. ............................................................. 19
Figura 12. Arquitectura del sistema MobiHide y petición anonimizada. ............................... 21
Figura 13. Implementación de Diff-Anonym en el primer nivel............................................. 23
Figura 14. Implementación de Diff-Anonym en el segundo nivel. ........................................ 23
26 Privacidad de ubicación en contextos Big Data
Índice de tablas
Tabla 1. Ejemplos de LBSs................................................................................................... 4
Tabla 2. Ejemplo de datos 2-anonimizados........................................................................... 7
Tabla 3. Ejemplo de datos no anonimizados......................................................................... 7
Tabla 4. Algoritmo Moving in a Neighborhood (MN)............................................................ 20
Tabla 5. Algoritmo Moving in a Limited Neighborhood (MLN).............................................. 21
27 Privacidad de ubicación en contextos Big Data
Bibliografía
[1] S. Yu, "Big Privacy: Challenges and Opportunities of Privacy Study in the Age of Big
Data," IEEE Access, vol. 4, pp. 2751-2763, 6 Junio 2016.
[2] H. Liu, X. Li, H. Li, J. Ma and X. Ma, "Spatiotemporal correlation-aware dummy-based
privacy protection scheme for location-based services," in IEEE INFOCOM 2017 -
IEEE Conference on Computer Communications, Atlanta, GA, USA, 2017.
[3] I. A. Hasson, N. Tapus and A. C. Jasim, "Privacy of Clients' Locations in Big Data and
Cloud Computing," in IEEE 12th International Symposyum on Applied Computational
Intelligence and Informatics (SACI), Timisoara, RO, 2018.
[4] J. Ewen, "Best Guide To Location Data 2020 - All You Need To Know," Tamoco
Magazine, 2019.
[5] A. Liulko, "7 Essential Answers About Marketers' Bidstream Data Questions," Target
Marketing Magazine, 2019.
[6] S. Wang, Q. Hu, Y. Sun and J. Huang, "Privacy Preservation in Location-Based
Services," IEEE Communications Magazine, vol. 56, no. 3, pp. 134-140, 15 Marzo
2018.
[7] S. Wang, R. Sinnott and S. Nepal, "Privacy-protected place of activity mining on big
location data," in IEEE International Conference on Big Data, Boston, MA, USA, 2017.
[8] H. To, K. Nguyen and C. Shahabi, "Differentialy private publication of location entropy,"
in SIGSPACIAL '16: Proceedings of the 24th ACM SIGSPACIAL International
Conference on Advances in Geographic Information Systems, New York, NY, USA,
2016.
[9] Unidad de Evaluación y Estudios Tecnológicos, Agencia Española de Protección de
Datos, "La K-Anonimidad como medida de la privacidad," [Online]. Available:
https://www.aepd.es/sites/default/files/2019-09/nota-tecnica-kanonimidad.pdf.
[10] L. Sweeney, "k-Anonymity: A Model for Protecting Privacy," International Journal of
Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no. 5, pp. 557-570,
2002.
[11] I. A. Hassoon, N. Tapus and A. C. Jasim, "Enhance privacy in big data and cloud via
diff-anonym algorithm," in 16th RoEduNet Conference: Networking in Education and
Research (RoEduNet), Targu Mures, RO, 2017.
[12] A. Gkoulalas-Divanis, P. Kalnis and V. Verykios, "Providing K-Anonymity in Location
Based Services," ACM SIGKDD Explorations, vol. 12, no. 1, 2010.
[13] C. Dwork and A. Roth, "The Algorithmic Foundations of Differential Privacy,"
Foundations and Trends in Theoretical Computer Science, vol. 9, no. 3-4, pp. 211-407,
2014.
[14] M. Andrés, N. Bordenabe, K. Chatzikokolakis and C. Palamidessi, "Geo-
indistinguishability: differential privacy for location-based systems," in CCS '13:
Proceedings of the 2013 ACM SIGSAC conference on Computer & communications
security, 2013.
[15] Y. Xiao and L. Xiong, "Protecting Locations with Differential Privacy under Temporal
Correlations," in Proceedings of the 22nd ACM SIGSAC Conference on Computer and
Communications Security, 2015.
[16] H. Kido, Y. Yanagisawa and T. Satoh, "An anonymous communication technique using
dummies for location-based services," in ICPS '05. Proceedings. International
Conference on Pervasive Services., Santorini, GR, 2005.
[17] C. Bettini, S. Jajodia, P. Samarati and S. Wang, Privacy in Location-Based
Applications: Research Issues and Emerging Trends, 2009, pp. 45-50.
28 Privacidad de ubicación en contextos Big Data
[18] H. Kido, Y. Yanagisawa and T. Satoh, "Protection of Location Privacy using Dummies
for Location-based Services," in 21st International Conference on Data Engineering
Workshops (ICDEW'05), Tokyo, JP, 2005.
[19] S. Oya, C. Troncoso and F. Pérez-González, "Is Geo-Indistinguishability What You Are
Looking For?," in WPES 2017 - Proceedings of the 2017 Workshop on Privacy in the
Electronic Society, 2017.
[20] R. Shokri, G. Theodorakopoulos, J.-Y. Le Boudec and J.-P. Hubaux, "Quantifying
Location Privacy," in 2011 IEEE Symposium on Security and Privacy, Berkeley, CA,
US, 2011.
[21] A. Pfitzmann and M. Köhntopp, "Anonymity, Unobservability, and Pseudonymity - A
Proposal for Terminology," in International workshop on Designing privacy enhancing
technologies, Springer-Verlag New York, Inc., 2001, pp. 1-9.
[22] G. Ghinita, P. Kalnis and S. Skiadopoulos, "MobiHide: A Mobile Peer-To-Peer System
for Anonymous Location-Based Queries," in Proceedings of the 10th international
conference on Advances in spatial and temporal databases, 2007.
[23] I. Stoica, R. Morris and D. Liben-Nowell, "Chord: a Scalable Peer-to-Peer Lookup
Protocol for Internet Applications," in IEEE/ACM Transactions on Networking 11, 2003.
[24] D. Liben-Nowell, H. Balakrishnan and D. R. Karger, "Observations on the Dynamic
Evolution of Peer-to-Peer Networks," in Revised Papers from the First International
Workshop on Peer-to-Peer Systems, 2002.

More Related Content

Similar to Privacidad de ubicación en big data: protección de datos de geolocalización

Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1cGaston Liberman
 
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04Rafael Puppi Junchaya
 
Nt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeriaNt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeriaValeria Castro
 
Sig completa
Sig completaSig completa
Sig completaESAP
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataAlfredo Vela Zancada
 
Caso de estudio sistema gps de monitoreo de transporte pesado
Caso de estudio sistema gps de monitoreo de transporte pesadoCaso de estudio sistema gps de monitoreo de transporte pesado
Caso de estudio sistema gps de monitoreo de transporte pesadoEddy Cifuentes Posadas
 
Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Juliio Core
 
Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Juliio Core
 
Aplicación movil gps
Aplicación movil gpsAplicación movil gps
Aplicación movil gpsomaira_06
 
Seguridad.Juridica.Vs.Geoinformatica.pdf
Seguridad.Juridica.Vs.Geoinformatica.pdfSeguridad.Juridica.Vs.Geoinformatica.pdf
Seguridad.Juridica.Vs.Geoinformatica.pdfJaimeRojasLandivar1
 
Bad data e_show_barcelona15
Bad data e_show_barcelona15Bad data e_show_barcelona15
Bad data e_show_barcelona15DataCentric
 

Similar to Privacidad de ubicación en big data: protección de datos de geolocalización (20)

Poggi analytics - intro - 1c
Poggi   analytics - intro - 1cPoggi   analytics - intro - 1c
Poggi analytics - intro - 1c
 
Libro2
Libro2Libro2
Libro2
 
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04
Proyecto de Investigación e Innovación Tecnológica - Diapositivas 04
 
Proyecto big data
Proyecto big dataProyecto big data
Proyecto big data
 
Trabajo de bigadata
Trabajo de bigadataTrabajo de bigadata
Trabajo de bigadata
 
Nt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeriaNt_c2_2015_a9_castro_valeria
Nt_c2_2015_a9_castro_valeria
 
Sig completa
Sig completaSig completa
Sig completa
 
Sig completa
Sig completaSig completa
Sig completa
 
Mineria datos vallejos
Mineria datos vallejosMineria datos vallejos
Mineria datos vallejos
 
Mineria datos vallejos
Mineria datos vallejosMineria datos vallejos
Mineria datos vallejos
 
Código de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big DataCódigo de buenas prácticas en protección de datos para proyectos Big Data
Código de buenas prácticas en protección de datos para proyectos Big Data
 
Caso de estudio sistema gps de monitoreo de transporte pesado
Caso de estudio sistema gps de monitoreo de transporte pesadoCaso de estudio sistema gps de monitoreo de transporte pesado
Caso de estudio sistema gps de monitoreo de transporte pesado
 
Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.
 
Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.Tecnologías emergentes en el marketing.
Tecnologías emergentes en el marketing.
 
Aplicación movil gps
Aplicación movil gpsAplicación movil gps
Aplicación movil gps
 
Seguridad.Juridica.Vs.Geoinformatica.pdf
Seguridad.Juridica.Vs.Geoinformatica.pdfSeguridad.Juridica.Vs.Geoinformatica.pdf
Seguridad.Juridica.Vs.Geoinformatica.pdf
 
BIG DATA
BIG DATABIG DATA
BIG DATA
 
Fundamentos.pptx
Fundamentos.pptxFundamentos.pptx
Fundamentos.pptx
 
Bigdata
BigdataBigdata
Bigdata
 
Bad data e_show_barcelona15
Bad data e_show_barcelona15Bad data e_show_barcelona15
Bad data e_show_barcelona15
 

Recently uploaded

El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)estebancitoherrera
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciaferg6120
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria deCalet Cáceres Vergara
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...israel garcia
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfJC Díaz Herrera
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfJC Díaz Herrera
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfluisccollana
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfIrapuatoCmovamos
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicaciónJonathanAntonioMaldo
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfEDUARDO MAMANI MAMANI
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechojuliosabino1
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalIngrid459352
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfRodrigoBenitez38
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfGEINER22
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresamerca6
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfIrapuatoCmovamos
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,juberrodasflores
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosssuser948499
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitariachayananazcosimeon
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaSilvia García
 

Recently uploaded (20)

El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)El Teatro musical (qué es, cuál es su historia y trayectoria...)
El Teatro musical (qué es, cuál es su historia y trayectoria...)
 
triptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescenciatriptico-de-las-drogas en la adolescencia
triptico-de-las-drogas en la adolescencia
 
bases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria debases-cye-2024(2) una sola descarga en base de feria de
bases-cye-2024(2) una sola descarga en base de feria de
 
Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...Cuáles son las características biológicas que están marcadas en tu individual...
Cuáles son las características biológicas que están marcadas en tu individual...
 
Las mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdfLas mujeres más ricas del mundo (2024).pdf
Las mujeres más ricas del mundo (2024).pdf
 
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdfLos artistas mexicanos con más ventas de discos en la historia (2024).pdf
Los artistas mexicanos con más ventas de discos en la historia (2024).pdf
 
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdfPREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
PREGRADO-PRESENCIAL-FASE-C-202401 (1).pdf
 
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdfREPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
REPORTE-HEMEROGRÁFICO-MARZO-2024-IRAPUATO-¿CÓMO VAMOS?.pdf
 
tipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicacióntipos de organización y sus objetivos y aplicación
tipos de organización y sus objetivos y aplicación
 
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdfCUESTIONARIO A ADICCION A REDES SOCIALES.pdf
CUESTIONARIO A ADICCION A REDES SOCIALES.pdf
 
LA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derechoLA LEY DE LAS XII TABLAS en el curso de derecho
LA LEY DE LAS XII TABLAS en el curso de derecho
 
Técnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dentalTécnica palatina baja, anestesiología dental
Técnica palatina baja, anestesiología dental
 
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdfCritica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
Critica 1 Grupo 10 RodrigoBenitez_GinaGadea_AlexisGonzález.pdf
 
HABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdfHABILESASAMBLEA Para negocios independientes.pdf
HABILESASAMBLEA Para negocios independientes.pdf
 
La importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresaLa importancia de las pruebas de producto para tu empresa
La importancia de las pruebas de producto para tu empresa
 
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdfREPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
REPORTE DE INCIDENCIA DELICTIVA MARZO 2024.pdf
 
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
Ivu- taller de diseño arquitectonico l , adicion y sustraccion de cubos,
 
Data Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datosData Warehouse.gestion de bases de datos
Data Warehouse.gestion de bases de datos
 
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior UniversitariaSUNEDU - Superintendencia Nacional de Educación superior Universitaria
SUNEDU - Superintendencia Nacional de Educación superior Universitaria
 
Unidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y químicaUnidad 3 Elementos y compuestos. Física y química
Unidad 3 Elementos y compuestos. Física y química
 

Privacidad de ubicación en big data: protección de datos de geolocalización

  • 1. BIG DATA PARA GEOSERVICIOS Ingeniería en Geoinformación y Geomática PRIVACIDAD DE UBICACIÓN EN BIG DATA Sobre la protección de los datos de geolocalización en entornos masivos y servicios basados en la ubicación (LBS). Enfoques, métodos y algoritmos. Autor: Valentín Sastre Calvi Profesor: Juan Carlos González González Curso: 2019-2020 Q1
  • 2.
  • 3. Privacidad de ubicación en contextos Big Data 1 ÍNDICE 1 Introducción ................................................................................................................ 2 1.1 Geolocalización en Big Data................................................................................... 2 2 Conceptos generales .................................................................................................. 3 2.1 Obtención de datos de ubicación. Tipos de fuentes de datos. ................................ 3 2.2 Location-Based Services ........................................................................................ 3 2.3 Daily Geotags ......................................................................................................... 4 2.4 Place of Activity ...................................................................................................... 4 2.5 Entropía de ubicación ............................................................................................. 5 3 Privacidad y protección de datos............................................................................... 6 3.1 Métodos y algoritmos.............................................................................................. 7 3.1.1 K-Anonimidad .................................................................................................. 7 3.1.2 Privacidad diferencial....................................................................................... 8 3.1.3 Dummy-based ................................................................................................. 9 3.2 Soluciones .............................................................................................................. 9 3.2.1 Basadas en K-anonimidad............................................................................... 9 3.2.1.1 Clique Cloak ............................................................................................. 9 3.2.1.2 Center Cloak........................................................................................... 10 3.2.1.3 Casper.................................................................................................... 11 3.2.1.4 Interval Cloak.......................................................................................... 12 3.2.1.5 Hilbert Cloak ........................................................................................... 13 3.2.2 Basadas en privacidad diferencial.................................................................. 13 3.2.2.1 Geo-indistinguibilidad.............................................................................. 13 3.2.2.2 Correlación temporal............................................................................... 16 3.2.3 Algoritmos de generación de Dummies.......................................................... 18 3.2.3.1 Moving in a Neighborhood ...................................................................... 20 3.2.3.2 Moving in a Limited Neighborhood.......................................................... 20 3.2.4 Esquemas híbridos ........................................................................................ 21 3.2.4.1 Sistemas peer-to-peer. MobiHide............................................................ 21 3.2.4.2 Algoritmo diff-anonym............................................................................. 22 4 Conclusión................................................................................................................. 24 Índice de figuras ............................................................................................................... 25 Índice de tablas................................................................................................................. 26 Bibliografía........................................................................................................................ 27
  • 4. 2 Privacidad de ubicación en contextos Big Data 1 Introducción La geolocalización o la información de ubicación es generada actualmente en grandes cantidades como consecuencia de un entorno altamente sensorizado, debido a los avances tecnológicos y a la aparición de conceptos como el internet de las cosas (IoT). Esta geoinformación toma un papel notable en el fenómeno del Big Data. Esto suscita una problemática en lo que respecta a la privacidad en todas las fases: desde la detección, la identificación, el almacenamiento, el procesamiento, el intercambio y el uso de esta información en contextos técnicos, sociales y legales. La cuestión de la protección de datos ha adquirido gran relevancia en los últimos tiempos no solo en lo que se refiere a la ubicación, sino que abarca todo dato, por pequeño que sea, que cualquier organismo público o privado obtenga de las personas. Este trabajo pretende abordar la problemática de la privacidad de la información de ubicación en este contexto big data, presentando los diferentes enfoques y conceptos a partir de los cuales se encara. Diversos métodos se han propuesto para lograr solventar este objetivo. Estos pueden ser clasificados en diversas maneras. En [1] se dividen en anonimización espacial, ofuscación y métodos de recuperación privados. Por otro lado, en [2] se establece una clasificación desde otro punto de vista entre “dummy-based”, K-anonimidad, privacidad diferencial y métodos basados en criptografía. Independientemente de su clasificación, todos tienen un objetivo común: proteger la privacidad de la ubicación del usuario y, al mismo tiempo, que éste se beneficie de las ventajas de los servicios derivados. 1.1 Geolocalización en Big Data La información masiva de ubicación, o Big Data Location (BDL), es uno de los temas sujetos a un amplio (y útil) análisis y uso hoy en día en el campo de las ciencias de la computación. La Big Data Location contiene en sí los recursos necesarios para obtener información general sobre la vida humana y analizar la actividad comunitaria. La BDL depende de las condiciones geográficas para analizar y observar los movimientos de las personas y sus actividades. Por ello, puede ser vista como una combinación de una gran cantidad de información social humana y datos geográficos que incluyen la identificación de ubicaciones de individuos y de tiempos específicos, lo que a su vez podría, mediante analítica, generar nuevos datos. La privacidad de las ubicaciones es una prioridad en lo que respecta a los problemas de emergencia actuales que enfrenta la sociedad. Cada día la gente, de forma consciente o inconsciente, pierde más y más en lo que respecta a la privacidad de su ubicación y sus movimientos. Muchas organizaciones se centran en usar estas ubicaciones para rastrear a sus clientes y proporcionarles información sobre diversos productos. En el ámbito Big Data, esta “explotación” va desde los servicios de ubicación, el comercio electrónico, los videojuegos online, los servicios de publicidad, etc. [3]
  • 5. 3 Privacidad de ubicación en contextos Big Data 2 Conceptos generales 2.1 Obtención de datos de ubicación. Tipos de fuentes de datos. La información de la “location data” proviene de múltiples fuentes, a continuación se presentan algunas de las más importantes [4]: - El bidstream: Información sobre el usuario que ve un bloque de anuncios en una aplicación. Estos datos provienen de aplicaciones y “publishers” que participan en una subasta en tiempo real. El bidstream luego transmite datos básicos sobre el bloque de anuncios (ad unit). Por ejemplo, verá la URL, la ubicación, el tipo de dispositivo y la dirección IP. También puede contener datos demográficos de la audiencia. Y aún más, plataformas que se especializan en las huellas digitales de los usuarios afirman que analizan hasta 50 atributos por usuario. [5] - Telecomunicaciones: Las torres de redes móviles o celulares permiten la obtención de la ubicación del dispositivo mediante la técnica de triangulación. Este tipo de ubicación proviene directamente de las empresas de comunicaciones que, por lo general, tienen además algunos datos demográficos asociados. De manera similar a los datos bidstream, esta fuente de información resulta atractiva gracias al amplio alcance, ya que en muchos países pocas empresas sirven a toda la población. - SDKs de ubicación: Un kit de desarrollo de software (SDK) es un conjunto de herramientas que los editores de aplicaciones pueden agregar a sus aplicaciones para proporcionar funcionalidades de terceros. Pueden utilizar el GPS incorporado en el dispositivo para “colocar” (ubicar aproximadamente) el dispositivo y luego, utilizando la intensidad de la señal Bluetooth de balizas (beacons), verifican y ajustan la localización del dispositivo con precisiones métricas. 2.2 Location-Based Services Los servicios basados en la ubicación son una serie de servicios accesibles a través de dispositivos móviles que adaptan su funcionalidad a las posiciones o trayectorias actuales de usuarios o vehículos. El fundamento de los Location-Based Services (LBS) proviene de enormes conjuntos de datos espaciales y temporales proporcionados por una gran cantidad de dispositivos móviles a través de GPS y diversas redes de comunicación, como las redes móviles celulares o el Wi-Fi. Las grandes cantidades y los múltiples tipos de big data espacial y temporal dan a los LBS el potencial de proporcionar servicios altamente personalizados y acordes al contexto, lo que sin duda impacta positivamente la vida de los ciudadanos e impulsa las posibilidades de las soluciones para ciudades inteligentes, las smart cities. Por ejemplo, los LBS más básicos pueden ofrecer servicios de navegación y búsqueda, mientras que otras aplicaciones derivadas pueden ayudar al usuario a encontrar atracciones, amigos, el lugar de aparcamiento disponible más cercano o elaborar una planificación inteligente de carreteras, entre otros. Sin embargo, como sucede típicamente en las soluciones big data, la cuota de mercado de un servicio basado en la ubicación depende de qué tan bien pueda protegerse la privacidad del ciudadano, ya que necesita “sacrificar” información personal para obtenerlo. Por ejemplo, la búsqueda de puntos de interés (POIs) puede ofrecer a un servidor LBS la identidad, ubicación y el contenido de las consultas de un usuario. Esta información es muy sensible porque el patrón de comportamiento, las preferencias, los hábitos y los intereses del usuario se pueden inferir fácilmente de ellos. [6]
  • 6. 4 Privacidad de ubicación en contextos Big Data En la siguiente (Tabla 1. Ejemplos de LBSs.), se muestran ejemplos típicos de LBSs, por categorías, funciones, aplicaciones existentes de ejemplo y los elementos susceptibles en cuanto a su privacidad. Tabla 1. Ejemplos de LBSs. 2.3 Daily Geotags Se define como Daily Geotags (etiquetas geográficas diarias) a la secuencia de ubicaciones espacio-temporales utilizadas para representar el movimiento de un usuario durante un día. 2.4 Place of Activity Las personas siempre pasamos nuestro tiempo en unos pocos sitios importantes para diversas actividades en grupo durante intervalos de tiempo determinados. Ejemplos de estas actividades son dormir por la noche con nuestra familia en casa o trabajar en la oficina durante el día con los compañeros de trabajo. Inferir dichos lugares es importante, no solo para propósitos de aspecto comercial, como la publicidad, sino también desde la perspectiva de la seguridad pública, por ejemplo, mediante la identificación de aglomeraciones, que puede contribuir en tareas antiterrorista. Sin embargo, supone un reto el paso de “big location data” a la identificación de lugares de actividad, debido al volumen y complejidad intrínsecos al big data, sumado a las restricciones de privacidad. [7]
  • 7. 5 Privacidad de ubicación en contextos Big Data El lugar de actividad (Place of Activity) es un conjunto de puntos geográficos significativos que se usan para representar la actividad realizada por un grupo de individuos durante un lapso de tiempo específico. El PoA puede ser representado tanto como por un polígono espacial como por el punto geométrico central de éste. [7] 2.5 Entropía de ubicación La entropía de ubicación o LE (Location Entropy) es un indicador o métrica popular para medir la popularidad de diversas ubicaciones (por ejemplo, puntos de interés). A diferencia de otras métricas computadas únicamente a partir del número de visitas únicas a una ubicación, es decir, la frecuencia; la location entropy captura también la diversidad de las visitas de los usuarios y, por lo tanto, resulta más precisa que otras métricas. Las actuales soluciones computacionales para la obtención de este indicador requieren el acceso total a las visitas anteriores de los usuarios a localizaciones, lo que plantea amenazas a la privacidad. [8]
  • 8. 6 Privacidad de ubicación en contextos Big Data 3 Privacidad y protección de datos Según la Directiva 95/46, de la Agencia Española de Protección de Datos [9], se establece que, para determinar si una persona era identificable, era necesario considerar el conjunto de los medios que pudieran ser razonablemente utilizados para identificarla. Así, dejan de ser aplicables los principios de protección de datos en los casos en los que el conjunto de datos fuera hecho “anónimo” o disociados de manera tal que ya no fuera posible identificar al interesado. Por otro lado, según el RGPD (Reglamento General de Protección de Datos) se señala que datos personales “seudonimizados” constituyen información sobre una persona física a partir de la cual es posible llevar a cabo su identificación dentro de una probabilidad razonable, considerando los medios y factores objetivo, además de los costes, el tiempo y la tecnología necesarios para ello. Estas dos normativas mencionadas se diferencian en los términos utilizados: desde una limitada “anonimización” a una materialización de ésta en el concepto de “seudonimización”, donde se pone de manifiesto la dificultad de conseguir, hoy en día, una anonimización perfecta que garantice, en términos absolutos, el enmascaramiento de la identidad de las personas. El tratamiento masivo de datos procedentes de los ciudadanos mediante el uso de técnicas basadas en Big Data, Inteligencia Artificial o Machine Learning obliga a la implementación de mecanismos para preservar la privacidad y el derecho a la protección de datos de carácter personal. Las fuentes de datos empleadas para dichos tratamientos contienen datos personales que se catalogan como “identificadores” ya que, por sí solos, están asociados de forma unívoca a un sujeto, como son el DNI, el nombre completo, el pasaporte o el número de la seguridad social. El proceso básico de anonimización consiste en disociar de los identificadores el resto de los datos más genéricos asociados a un sujeto (como el género, la fecha de nacimiento, el municipio de residencia, etc.). El conjunto de datos preservados serán aquellos preservados serán aquellos necesarios para cumplir con el objetivo del tratamiento y, mediante su conservación y enriquecimiento, explotarlo para extraer información adicional. Sin embargo, aunque la realización de dicho proceso de anonimización aparentemente permite mantener el anonimato, dichos datos convenientemente agrupados y cruzados con otras fuentes de información, pueden llegar a identificar a un individuo. Por lo tanto, al conjunto de datos que no son “identificadores” pero que podrían llegar a señalar de forma unívoca a un individuo se los denomina “pseudo-identificadores”, “cuasi-identificadores” o identificadores indirectos. Consecuentemente, existe un riesgo de que, una vez se ha anonimizado un dataset, se pueda realizar un proceso de desanonimización de los mismos. Esto hace necesario tener una estimación objetiva de cuál es la probabilidad de reidentificación a partir del conjunto de cuasi-identificadores y así cuantificar este riesgo. Para administrar esta problemática y evitar (o dificultar) la desanonimización de un conjunto de información existen las técnicas SDC (Statistical Disclosure Control o Control de Revelación Estadística), que tienen por objeto el estudio de la realización de un tratamiento adicional sobre la información de los sujetos de datos de forma óptima, maximizando el grado de privacidad, pero manteniendo los objetivos de la aplicación o servicio que explota la información. A grandes rasgos, estas técnicas pueden clasificarse entre perturbativas o no perturbativas, según si introducen o no ruido en la fuente de datos.
  • 9. 7 Privacidad de ubicación en contextos Big Data 3.1 Métodos y algoritmos 3.1.1 K-Anonimidad La K-Anonimización es una de las principales técnicas SDC, propuesta por Sweeney en 2002 [10]. La K-Anonimidad (K-Anonymity en inglés) es un indicador de la información anonimizada que cuantifica el grado de preservación de la anonimidad de los individuos presentes en un dataset en el que se han removido los “identificadores”. Supone, por tanto, un medidor del riesgo de que agentes externos sean capaces de obtener datos personales a partir de información anonimizada. Se dice que un sujeto o individuo es k-anónimo dentro del dataset si, y únicamente si, para cualquier combinación de atributos de tipo cuasi-identificadores, existen al menos otros K-1 individuos que comparten con él los mismos valores para esos mismos atributos. Por lo tanto, la probabilidad de identificar a un sujeto concreto a partir de los cuasi-identificadores es, como máximo, de 1/K. En la fase de diseño de un proceso de disociación de datos o anonimización se debe garantizar un valor mínimo para K, para minimizar el riesgo de reidentificación [11]. En el siguiente ejemplo, propuesto por la AEPD [9], se presenta un conjunto de datos en el que se pueden distinguir dos atributos “cuasi-identificadores”: el código postal y la edad; que se asocian a un atributo sensible relacionado con datos de salud. A la izquierda se muestra la tabla 1, que está 2-anonimizada. La tabla de la derecha, 2, no lo está: Tabla 2. Ejemplo de datos 2-anonimizados. Tabla 3. Ejemplo de datos no anonimizados. La (Tabla 2. Ejemplo de datos 2-anonimizados.) está 2-anonimizada, ya que cada combinación de valores de atributos cuasi-identificadores existe en como mínimo un par de filas. Por otro lado, decimos que la (Tabla 3. Ejemplo de datos no anonimizados.) no está k- anonimizada (o está 1-anonimizada), debido a que no existe para cada uno de los registros otro que contenga idénticos valores para los atributos mencionados. Consecuentemente, cabe afirmar que: es preferible obtener valores altos de K para que, encontrado un individuo existente en diversas fuentes de información y al que se le asocian determinados atributos, sea improbable encontrar a cuál de ellos exactamente se
  • 10. 8 Privacidad de ubicación en contextos Big Data corresponde otro dato de interés asociado. Se dice que un individuo es perfectamente identificable en el caso en que el dataset en el que se encuentra tiene un valor de K=1, es decir, con 1-anonimidad. Basados en el concepto de K-Anonymity se han desarrollado múltiples métodos y estrategias de privacidad en lo que respecta a los LBS (servicios basados en la localización). Estos se fundamentan en el concepto de cloaking (agregación/agrupación) y se clasifican según si se aplica sobre los datos o sobre la ubicación espacial (Figura 1. Clasificación general de métodos de k-anonimidad.). Más adelante, se describen las principales soluciones: clique cloaking, center cloaking, Casper, interval cloak y Hilbert Cloaking [12]. Figura 1. Clasificación general de métodos de k-anonimidad. 3.1.2 Privacidad diferencial Si bien el enfoque de K-anonimidad es considerado un método no perturbador, el otro principal método de anonimización, la privacidad diferencial (differential-privacy en inglés), es una solución de tipo perturbador. La privacidad diferencial provee garantías de protección mayores que modelos como K- anonymity. Implica la publicación de los resultados de una query con modificaciones añadidas a las mismas, imposibilitando la identificación unívoca de un individuo. Sin embargo, este “approach” presenta algunos inconvenientes. El primer impedimento importante es que la privacidad diferencial no garantiza la vinculación del conjunto de datos y el atributo en los datos. Generalmente, este modelo resulta más adecuado en casos en que el resultado de las consultas de congruencia es pequeño y con baja sensibilidad. Así, este método es el mejor en clases de consultas restringidas. Este método fue propuesto inicialmente por Cythia Dwork en 2008 [13]. Finalmente, la privacidad diferencial como uno de los modelos más importantes para proporcionar privacidad, tiene como objetivo dividir los datos en pequeñas partes al tiempo que agrega ruido a las consultas para garantizar que no afectará al análisis ni cuestionará la privacidad del individuo. Existen múltiples propuestas para añadir dicho ruido en los datos. En lo que respecta al caso de los datos de ubicación, surgen conceptos como la “geo-indistinguibilidad” [14] o la correlación temporal [15], que dan lugar a diversas soluciones concretas, tal como se explica en el punto 3.
  • 11. 9 Privacidad de ubicación en contextos Big Data 3.1.3 Dummy-based Los modelos “dummy-based” son una de las soluciones más populares en el campo de la protección de privacidad. Para cada petición asociada a una localización o ubicación específica del usuario, este método genera un grupo de “dummies” (falsas ubicaciones) alrededor de la ubicación real. Todas ellas se transmiten como respuesta a la petición. De esta manera, el proveedor del servicio LBS (basado en localización) no puede identificar la posición verdadera del usuario. Comparado con otros métodos como la K-anonimidad, la privacidad diferencial o los basados en criptografía, esta metodología presenta algunas ventajas como las siguientes: no depende de un tercero, provee resultados precisos a las queries y no comparte una “key” entre el usuario y el proveedor del servicio [2]. En casos reales de aplicación, un usuario puede hacer un uso constante de servicios LBS. Por ejemplo, viajando en coche, puede consultar la estación de servicio más cercana continuamente. Otro ejemplo es, que mientras conduce hacia el aeropuerto, compruebe frecuentemente el estado del tráfico cercano en la carretera. Bajo estas circunstancias, los conjuntos de ubicaciones enviados como respuesta a dichas peticiones o consultas siempre incluyen una similar correlación espacio-temporal. El proveedor del servicio, por tanto, puede utilizar el alcance temporal, la similaridad direccional y los grados de entrada y salida para analizar la correlación espacio-temporal, lo que puede permitirle identificar algunos “dummies” con alta confianza, o incluso obtener la localización real del usuario directamente [16]. Por ello, no se puede decir que los sistemas “dummy-based” puedan proteger completamente la privacidad de la ubicación del usuario en servicios basados en la ubicación, especialmente en casos en los que se realicen múltiples peticiones a dicho servicio [17] [18]. 3.2 Soluciones 3.2.1 Basadas en K-anonimidad Las soluciones fundamentadas en la K-anonimidad protegen la privacidad de ubicación del usuario utilizando la localización actual (en lugar del historial de localizaciones recopiladas) de cada usuario en el sistema. Operan en servicios basados en localización que requieren una transmisión de ubicación única por parte del solicitante del servicio para ser proporcionado con éxito (por ejemplo, buscadores de tiendas, buscadores de amigos, etc.), en lugar de la comunicación de ubicaciones múltiples. Las diferentes técnicas de cloaking (ocultamiento) que se han desarrollado para proporcionar K-anonimidad se presentan en la (Figura 1. Clasificación general de métodos de k- anonimidad.). Seguidamente, se desarrollan las concreciones más populares del enfoque. 3.2.1.1 Clique Cloak Clique Cloak es un enfoque basado en grafos o regiones que anonimiza mutuamente múltiples peticiones entrantes en LBSs. Para cada consulta que se recibe para dar el servicio, el algoritmo genera un rectángulo centrado en la ubicación del peticionario, con sus lados paralelos a los considerados ejes X y Z, respectivamente con una extensión de ∆x y ∆y determinados. La nueva “query” se marca entonces como un nodo en un grafo mientras espera a su anonimización. Dos vértices (queries) en el grafo se conectan entre ellas si los usuarios correspondientes “caen” en los rectángulos cada uno del otro. Un borde del grafo
  • 12. 10 Privacidad de ubicación en contextos Big Data demuestra que el peticionario de cada una de las dos peticiones puede ser incluido en el set de anonimidad computada del otro. Así, cada “K-clique” (conjunto de K individuos con rectángulos superpuestos y, por tanto, indiferenciables) del grafo muestra que las correspondientes K peticiones pueden ser anonimizadas juntamente, ofreciendo K- anonimidad a los K usuarios que participan en el “K-clique”. Finalmente, junto con cada petición hay un intervalo de tiempo ∆t que define el máximo tiempo que la petición puede ser retenida por el sistema para su anonimización. Si un K-clique no puede ser encontrado en el determinado ∆t, la petición se considera inservible y no se considera. La (Figura 2. Esquema del algoritmo Clique Cloak.) muestra la operación en un escenario en que tres peticiones al servicio (U1, U2 y U3) son enviadas simultáneamente (es decir, dentro del intervalo ∆t). Asumiendo un valor de K=2, los rectángulos generados para U1 y U2 caen uno dentro del otro, formando un 2-clique. Como resultado el “envoltorio” que comprende ambos rectángulos se considera la región espacial de anonimización (ASR, Anonymity Spatial Region), donde 2-anonimidad se ofrece a los usuarios. Por otro lado, la petición realizada por U3 tiene que esperar a que una nueva petición “cercana” llegue; si en el plazo límite de ∆t esto no ocurre, se descartará. Figura 2. Esquema del algoritmo Clique Cloak. 3.2.1.2 Center Cloak Center Cloak es una implementación basada en distancias que provee una solución relativamente sencilla a la K-anonimidad en servicios basados en ubicación. En este escenario, los K-1 vecinos más cercanos (nearest neighbors) del solicitante son considerados y la ASR (región de anonimidad espacial) se computa como la región que cubre los K usuarios. Por construcción, Center Cloak sufre lo que se conoce como el ataque de “centro del ASR”; la identidad del solicitante puede ser “adivinada” fácilmente con una probabilidad mucho mayor que 1/K, al considerarse que lo esperado es que esté cerca del centro de la región ASR. Este ataque de “centro del ASR” es una concreción de un problema más general que cabe mencionar. Los algoritmos de cloaking suelen estar disponibles públicamente, lo que posibilita
  • 13. 11 Privacidad de ubicación en contextos Big Data que un potencial “atacante” pueda explotar cualquier decisión de implementación con respecto a la ubicación del solicitante respecto al ASR. Consecuentemente, varias de las soluciones aquí planteadas sufren de tipos similares de ataques. Una variante “randomizada” (aleatorizada) de Center Cloak que ofrece una mayor incerteza respecto a la ubicación del “requester” en el ASR generado se denomina Nearest Neighbor Cloak (NN-Cloak). En el algoritmo NN-Cloak la región de anonimidad espacial se genera de la siguiente manera: dada una petición del usuario de un LBS, NN-Cloak primero recupera los K-1 vecinos más próximos del peticionario. Seguidamente, selecciona aleatoriamente uno de los K usuarios e identifica su K-1 vecinos más próximos. Finalmente, el K-ASR se construye como la región que comprende el segundo de los ASR aumentado, si es necesario, para incluir al usuario que realizó la petición. La (Figura 3. Esquema del algoritmo Center Cloak.) presenta un escenario en el que 3- anonimidad es ofrecida a un usuario U1 mediante la técnica NN-Cloak. Primero, la petición de U1 da lugar a un primer ASR (que contiene U1, U2 y U3). Luego, entre ellos NN-Cloak aleatoriamente selecciona U3, generando un segundo ASR (que contiene U3, U4 y U5). Finalmente, este se amplía para recoger al peticionario U1, quedando como ASR “final”, la región que comprende a U1, U3, U4 y U5. De esta manera, se evita la exposición al ataque del “centro del ASR”. Figura 3. Esquema del algoritmo Center Cloak. 3.2.1.3 Casper Casper es la denominación que recibe la metodología más frecuente de K-anonimidad de ubicación de tipo rejilla (grid). En Casper, el área completa que cubre el anonimizador se divide en una cuadrícula y se organiza en una estructura de tipo piramidal, de manera similar a un “quadtree”. La capa superior de la pirámide contiene el área completa, mientras que el nivel más bajo representa la granularidad más fina del particionado. Cada celda en este nivel inferior tiene un tamaño mínimo que se corresponde con la resolución de anonimidad. Cuando el servidor recibe una nueva petición al LBS, Casper ubica el nivel más bajo de la pirámide que contiene al peticionario y examina si dicha celda contiene además otros K-1 usuarios. Si la celda contiene suficientes usuarios, esta se convierte en la región de anonimidad espacial
  • 14. 12 Privacidad de ubicación en contextos Big Data (K-ASR). Si por el contrario no se cumple la condición, Casper rastrea los vecinos horizontales y verticales de la celda para identificar si el número de usuarios en dichas celdas vecinas, combinado con los contenidos en la celda del solicitante, suman K usuarios. Si esto se cumple, la unión de estas celdas se toma como región K-ASR. Si no se satisface la condición, Casper sube un nivel en la pirámide, identifica la celda que contiene al usuario que realiza la petición y repite el mismo proceso, hasta que consigue delimitar la región que contiene K usuarios. La (Figura 4. Esquema del algoritmo Casper.) muestra un ejemplo de aplicación del algoritmo. En el escenario el que una petición proviene de la celda ((0, 2), (1, 3)) (donde (0, 2) son las coordenadas de la esquina inferior izquierda y (1, 3) de la esquina superior derecha de la celda) con un requerimiento de anonimidad de K=2, la ASR resultante es la propia celda. En el evento que, con la misma restricción de anonimidad, una query provenga de la celda ((1, 2), (2, 3)), la ASR obtenida sería la unión de las celdas ((1, 2), (2, 3)) y ((1, 3), (2, 4)). Figura 4. Esquema del algoritmo Casper. 3.2.1.4 Interval Cloak El algoritmo de Interval Cloak es similar a Casper, ya que también particiona el área total cubierta por el servidor en cuadrantes equivalentes (cuadrados de idénticas dimensiones) y los organiza en una estructura de quadtree. Sin embargo, Interval Cloak no considera las celdas vecinas en el mismo nivel para generar la ASR, sino que directamente asciende de nivel en la estructura piramidal. A modo de ejemplo, la (Figura 4. Esquema del algoritmo Casper.) muestra que una petición proveniente de U3 o U4 generará una región de anonimidad ((0, 2), (2, 4)), en lugar del ((1, 2), (2, 4)) que obtendría Casper. Comparativamente, Casper resulta más eficiente al generar ASRs más compactos. Sin embargo, ambas soluciones son únicamente adecuadas para distribuciones de información uniformes.
  • 15. 13 Privacidad de ubicación en contextos Big Data 3.2.1.5 Hilbert Cloak El método Hilbert Cloak no sufre esta limitación, ya que genera el mismo K-ASR independientemente de cuál de los “participantes” del conjunto de anonimidad haya realizado la petición al servicio. Esta propuesta se basa en el concepto de “K-bucket cloaking”; de manera dinámica, organiza los usuarios en grupos de K componentes y computa la región de anonimidad espacial como la “envoltura” que contiene los K usuarios que componen el grupo del solicitante. Hilbert Cloak crea un mapeo unidimensional de la posición de cada uno de los usuarios. En el mapeo propuesto, ubicaciones cercanas entre sí en el plano bidimensional se espera que también sean próximas en la transformación unidimensonal. Para cada request con un requerimiento de K-anonimidad, Hilbert Cloak particiona cada K usuarios en el sistema en un “bucket”. Seguidamente, se consideran los K-1 usuarios que se encuentran en el mismo grupo que el requester y se formula la K-ASR como su envoltura. Un ejemplo de aplicación se muestra en la (Figura 5. Esquema del algoritmo Hilbert Cloak.), donde se consideran 10 usuarios cuyos IDs se ordenan de forma ascendente. Dada una query al LBS del usuario U3 con un requerimiento de anonimidad de K=3, Hilbert Cloak utiliza el rango del usuario (en este caso, 3) para dinámicamente identificar el “bucket” o grupo en el que dicho usuario es particionado (en este caso, el primer grupo). Posteriormente, recupera todos los usuarios que integran dicho grupo (U1, U2 y U3) y genera la 3-ASR correspondiente (sombreado en el gráfico). Nótese que cualquier petición (con K=3) proveniente de U1, U2 o U3 generaría exactamente la misma 3-ASR. Figura 5. Esquema del algoritmo Hilbert Cloak. 3.2.2 Basadas en privacidad diferencial 3.2.2.1 Geo-indistinguibilidad Esta propuesta basada en el concepto de privacidad diferencial funciona primeramente mediante la adición de ruido controlado a la localización del usuario con el objetivo de obtener una versión aproximada de esta, para luego enviar dicha ubicación aproximada al LBS (servicio basado en la ubicación). El tipo de privacidad que intenta proporcionar este mecanismo se podría definir como “cuasi-indistinguibilidad dentro de una cierta área”, que se denominará de ahora en adelante más brevemente como “geo-indistinguibilidad” [14].
  • 16. 14 Privacidad de ubicación en contextos Big Data Intuitivamente, lo que esto significa es que, desde el punto de vista del proveedor del servicio, el usuario puede estar en cualquier lugar; o de manera más precisa, con casi las mismas probabilidades de estar en cualquier sitio; dentro de un radio r especificado por el usuario, que también determina el nivel de discrepancia l (ele) que puede tolerar entre la probabilidad de varios puntos en el área (que son ubicaciones candidatas para el servidor). Estos dos valores representan el nivel de garantía de privacidad del usuario. Como es lógico, un mayor nivel de privacidad de ubicación supone un sacrificio en el nivel de detalle (y, al fin y al cabo, en su utilidad) del servicio LBS. Por ejemplo, si el usuario quiere saber qué restaurantes tiene a una distancia a la que pueda llegar caminando, el valor de r debería ser no mayor de, por determinar un máximo, 1 kilómetro. Por tanto, estos parámetros no deben ser determinados arbitrariamente. Por otro lado, cabe destacar que ambos parámetros están relacionados, en el sentido en que cuanto mayor sea el área requerida de protección r, mayor discrepancia se puede tolerar entre la probabilidad de varios puntos, con tal de mantener el mismo grado de utilidad del servicio, sin dejar de proteger la ubicación exacta. En general, con este método, cuando se especifica un par (l, r) se obtiene un mecanismo que provee geo-indistinguibilidad para todos los pares (l’, r’) tal que l’/r’=l/r. La noción de geo-indistinguibilidad puede ser interpretada como el requerimiento de que, en un radio r, la ubicación aproximada comunicada por el usuario no debería dar muchas “pistas” al servidor sobre la ubicación real, donde el “muchas” se cuantifica por l. La geo- indistinguibilidad puede ser vista como una generalización de la popular noción de privacidad diferencial. Por último, cabe destacar que este enfoque es independiente de cualquier otra información relativa al usuario, así como tampoco considera ningún conocimiento probabilístico previo sobre la ubicación real. En lo que respecta a la materialización de esta propuesta, la inspiración proviene de una de las aplicaciones principales utilizadas en la privacidad diferencial, que consiste en la generación de ruido a partir de la distribución de Laplace. Esta distribución, sin embargo, es lineal, cuando en este caso se necesita un mecanismo planar. La distribución laplaciana puede ser extendida de forma natural en el plano continuo y es sencillo probar que dicha extensión provee las garantías de privacidad requeridas. Gracias a una transformación a coordenadas polares, es posible idear un método simple y eficiente para “dibujar” puntos. Por otro lado, las aplicaciones comunes usualmente suponen una representación finita de las coordenadas, mientras que en este caso es necesario discretizar la distribución, una operación que genera un potencial riesgo en lo que se refiere a un posible “incumplimiento” de la geo-indistinguibilidad. No obstante, se prueba que esta propiedad se preserva, aún con una pequeña degradación del nivel de privacidad. Este enfoque se demuestra satisfactorio en casos de LBS (location-based services) y en escenarios de “location-data mining”. En el primero se comprueba que, mediante el “intercambio” (trading) entre privacidad y uso de ancho de banda, la geo-indistinguibilidad puede ser obtenida sin degradar la utilidad de la información provista por el servicio basado en ubicación. En el segundo caso, se concluye que dotar de geo-indistinguibilidad a todos los usuarios de un conjunto de datos no reduce significativamente la calidad de los datos (siendo el grado de reducción de calidad inversamente proporcional a los parámetros l y r de la garantía de privacidad). Cabe destacar también la compatibilidad de esta solución tanto con sistemas a tiempo real (como servicios de smartphone, que requieren esta propiedad) como con sistemas offline (como la publicación de información estadística de un gran número de usuarios).
  • 17. 15 Privacidad de ubicación en contextos Big Data Modelo probabilístico Habiendo definido el concepto como una definición de la privacidad que expresa el requerimiento del usuario de proteger su ubicación exacta al utilizar un LBS, el proceso “delega” en el propio usuario la determinación del nivel de privacidad en su localización, acorde con el inversamente proporcional nivel de detalle en la respuesta que espera del servicio. Determinando r como el radio de la circunferencia centrada en el usuario, se puede decir que éste tiene una l-privacidad dentro de r si, al observar z (un punto aleatorio), la habilidad del servidor de detectar la ubicación real del usuario de entre todos los puntos dentro del radio r no incrementa más de un factor dependiendo de l. La idea es que l es la inversa del nivel de privacidad del usuario para dicho radio, cuanto menor sea l, más fuerte es la privacidad del mismo. La aplicación parte de un modelo probabilístico, que ahora se explica brevemente. Se comienza a partir de un X conjunto de puntos de interés, típicamente las posibles ubicaciones del usuario. Además, se llama Z a un conjunto de posibles valores reportados, que en general pueden ser arbitrarios, pero que para la necesidad del caso se considera que son también puntos espaciales. En este sistema operacional, el usuario se asume localizado en algún punto x dentro de X. Posteriormente se selecciona un punto z perteneciente a Z, que se hace disponible al atacante (agente que intenta obtener la posición real, como un proveedor de servicio no confiable). Las probabilidades aparecen en dos sentidos. Primero, el atacante puede tener información adicional sobre la ubicación del usuario sabiendo, por ejemplo, que es posible que se encuentre visitando la Torre Eiffel, mientras que es improbable que se encuentre nadando en el río Sena. Si H es la variable aleatoria dada la ubicación del usuario (dentro del conjunto X), la información auxiliar del atacante puede ser modelada por la distribución a priori Px para H, donde Px(x) es la probabilidad asignada a la localización x. Segundo, la selección de un punto de Z es en sí mismo probabilística; por tanto, z puede ser obtenido mediante la adición de ruido aleatorio a la localización real x. La función probabilística para seleccionar un valor reportado basado en la ubicación real se denomina “mecanismo”. Si J es la variable aleatoria dado un punto reportado, un mecanismo K para seleccionar z es una función que asigna a cada ubicación x de X una distribución de probabilidad para J, donde K(x)(S) es la probabilidad de que el punto reportado pertenezca al conjunto S contenido en Z, donde la ubicación real es x. Juntas, Px y K inducen una distribución de probabilidad conjunta P para H, J, al P(x,S)=Px(x)K(x)(S). Nótese que, por construcción, P(x)=Px(x) y P(S|x)=K(x)(S). El desarrollo completo está disponible en [19]. En resumen, la propuesta del concepto de geo-indistinguibilidad es una noción formal de privacidad en la ubicación que se basa en el concepto de privacidad diferencial para diseñar un mecanismo centrado en la posición del usuario que preserva su privacidad. Para garantizar esta seguridad sin perder la utilidad del servicio, los usuarios reportan versiones ofuscadas de su posición real, generadas a partir de la distribución de Laplace, garantizándose que estas son indistinguibles entre sí dentro del radio especificado. Lo que destaca de esta propuesta es que contempla la información previa que se pueda tener de la posición del usuario, para generar posiciones “falsas” que sean verosímiles, como se observa en la (Figura 6. Ejemplo básico de método de geo-indistinguibilidad.).
  • 18. 16 Privacidad de ubicación en contextos Big Data Figura 6. Ejemplo básico de método de geo-indistinguibilidad. 3.2.2.2 Correlación temporal La motivación de esta propuesta frente a las soluciones expuestas anteriormente, como las basadas en el concepto de K-anonimidad, es la consideración de la correlación temporal entre las posiciones de un usuario en movimiento. Muchos de los enfoques anteriores se centran en escenarios estáticos y funcionan mediante la perturbación de la ubicación en “timestamps” únicos sin tener en cuenta dicha correlación temporal, lo cual implica una vulnerabilidad en la privacidad [15]. En este caso, se considera un usuario en movimiento con un flujo de ubicaciones sensibles que necesita en un momento dado compartir esta ubicación a un host de aplicación no confiable. El objetivo es que la ubicación real del usuario solo sea conocida por el usuario. Las ubicaciones “saneadas” que son resultado del mecanismo de privacidad son observables por los proveedores del servicio. Primero, se propone una privacidad basada en el llamado “δ-location set” (conjunto de δ ubicaciones) para proteger la ubicación verdadera en cada “timestamp” o momento concreto. Se define también el concepto de “neighboring databases” (bases de datos vecinas), que en privacidad diferencial estándar son cualesquiera dos bases de datos bajo una misma operación: añadir o eliminar un registro (o un usuario). Sin embargo, esto no es aplicable en este entorno, lo que da lugar a nuevas nociones como “δ-neighborhood” o la privacidad diferencial a nivel de evento. En este problema, los cambios de ubicación en dos timestamps consecutivos se determinan por las correlaciones temporales modeladas a través de una cadena de Markov [20]. Acordemente, se propone un conjunto de δ-ubicaciones para incluir todas las ubicaciones probables del usuario. Intuitivamente, para proteger la posición real, es solo necesario “esconderla” en el “δ-location set”, donde cualquier par de ubicaciones es indistinguible. Segundo, se muestra que la conocida L1-norm (least absolute deviations o mínimas desviaciones absolutas) en la privacidad diferencial estándar no consigue capturar la sensibilidad geométrica en el espacio multidimensional. Por ello, se propone una nueva noción, la “sensitivity hull”, para capturar el significado geométrico de la sensibilidad. Esta “sensitivity hull” determina también el límite inferior del error. Tercero, se presenta un mecanismo eficiente de perturbación de ubicación llamado PIM (mecanismo isotrópico planar), que consigue la privacidad diferencial basada en el conjunto de δ-ubicaciones.
  • 19. 17 Privacidad de ubicación en contextos Big Data Como rasgos generales de la materialización cabe destacar el uso de dos sistemas de coordenadas (Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal.): las “state-coordinate” y las “map-coordinate”; para representar la ubicación en el modelo de Markov y para el modelo de mapa respectivamente. Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal. Por otro lado, se establece un modelo de movilidad y de interferencias. El uso de la cadena de Markov para modelar las correlaciones temporales entre las ubicaciones del usuario captura restricciones como la red de viales sobre los que se puede mover el usuario. Sin embargo, este modelo, así como otros modelos de movilidad, puede tener limitaciones en términos de la previsibilidad. En el setting del problema, las ubicaciones verdaderas del usuario son inobservables. Solo lo son las ubicaciones “saneadas” resultantes del mecanismo perturbador. A partir de este escenario se diferencian diversas probabilidades: · Probabilidad de transición: Denota las probabilidades de que un usuario se mueva entre una ubicación y otra. · Probabilidad de emisión: Dada la ubicación real ut*, el mecanismo perturbador devuelve una ubicación perturbada zt, entonces la probabilidad Pr(zt|ut* = si) se llama “probabilidad de emisión”, siendo si una celda en el mapa particionado. · Inferencia y evolución: Denota las probabilidades previa y posterior de la ubicación del usuario antes y después de observar la resultante zt perturbada respectivamente. Esto se computa mediante inferencia Bayesiana. Grosso modo, el enfoque de la correlación temporal se fundamenta en el concepto de privacidad diferencial y en el mecanismo de Laplace, construido en la sensibilidad L1-norm. El propuesto “sensitivity hull” se basa en el concepto básico de geometría computacional de “convex hull”.
  • 20. 18 Privacidad de ubicación en contextos Big Data Figura 8. Convex hull, sensitivity hull y transformación isotrópica En la (Figura 8. Convex hull, sensitivity hull y transformación isotrópica) se ejemplifican gráficamente los conceptos de “convex hull” (a), “sensitivity hull” K (b) y la transformación de K a la posición isotrópica Kl, con punto de ejemplo z’ (c). 3.2.3 Algoritmos de generación de Dummies Esta tipología de soluciones, al ser de tipo perturbador, propone una técnica de comunicación anónima para LBSs en la cual el usuario envía su posición al proveedor del servicio incluyendo ruido. Este ruido consiste en un conjunto de datos de posición falsos que, desde ahora, se denominarán “dummies”. En la (Figura 9. Funcionamiento básico de los algoritmos de generación de dummies.) se muestra un esquema genérico de la solución propuesta [18]. Figura 9. Funcionamiento básico de los algoritmos de generación de dummies. La técnica que se propone en [18] parte de la definición de tres funciones basadas en el “Anonymity Set” [21], que evalúa la anonimidad de la posición. Para testear la técnica, se implementa un sistema de simulación que comprueba la efectividad en la privacidad de ubicación en aplicaciones LBS. El procedimiento general del servicio consta de las siguientes fases: · Un usuario de servicio basado en la ubicación obtiene su propia información de posición r gracias a un dispositivo como los GPS. · Se generan dummies (posiciones falsas) en las posiciones 1 y 2. · El usuario crea un mensaje de request al servicio (S) que incluye la información de posición en r, 1 y 2; y envía S al proveedor del servicio.
  • 21. 19 Privacidad de ubicación en contextos Big Data · El proveedor crea un mensaje de respuesta de servicio (R) que responde a todas las posiciones recibidas; y envía R al usuario. · El usuario recibe R y elige únicamente la información necesaria de R. Así, el usuario conoce la geolocalización real, pero el “service provider” no. El proveedor no puede distinguir cuál de las posiciones recibidas es la real, garantizando la anonimidad completa. Para solventar la exposición a que mecanismos de correlación espaciotemporal puedan detectar la posición real del usuario a partir del movimiento que este realiza, esta solución, el algoritmo genera o simula un movimiento desplazado a partir de los dummies generados, como se muestra en la (Figura 10. Generación de dummies en movimiento.). Figura 10. Generación de dummies en movimiento. Esta generación de dummies no puede ser totalmente aleatoria. Si esto fuera así, sería fácil de encontrar las diferencias entre la posición real y los dummies en LBSs que necesitan información de posición continuamente, como los servicios de navegación. Para evitar esto, los dummies no pueden comportarse de manera totalmente diferente a la posición real. Se presentan, pues, dos algoritmos de generación de dummies que previenen que el proveedor de un servicio encuentre la posición real del usuario (Figura 11. Algoritmos de generación de dummies.). Figura 11. Algoritmos de generación de dummies.
  • 22. 20 Privacidad de ubicación en contextos Big Data 3.2.3.1 Moving in a Neighborhood En este algoritmo, la siguiente posición del dummy se decide en la vecindad de la posición actual del dummy. El dispositivo de comunicación del usuario “memoriza” la posición previa de cada dummy. Luego, genera dummies alrededor. A continuación, se muestra en la (Tabla 4. Algoritmo Moving in a Neighborhood (MN).) el código con la función que ejecuta el algoritmo [18]. Tabla 4. Algoritmo Moving in a Neighborhood (MN). 3.2.3.2 Moving in a Limited Neighborhood En este algoritmo, la posición siguiente del dummy también se decide en la vecindad de la posición actual de éste. Sin embargo, la siguiente ubicación está limitada por la densidad de la región. Este algoritmo es adaptable en casos donde el dispositivo de comunicación del usuario puede obtener la información de posición de otro(s) usuario(s). Primero, el dispositivo obtiene la ubicación del otro usuario. Luego, genera dummies alrededor de la misma manera que el algoritmo MN (Moving in a Neighborhood). Después, si hay muchos usuarios en la región generada, el dispositivo genera el dummy de nuevo. El proceso es iterativo. A continuación, se muestra en la (Tabla 5. Algoritmo Moving in a Limited Neighborhood (MLN).) el código de la función que ejecuta el algoritmo [18].
  • 23. 21 Privacidad de ubicación en contextos Big Data Tabla 5. Algoritmo Moving in a Limited Neighborhood (MLN). 3.2.4 Esquemas híbridos 3.2.4.1 Sistemas peer-to-peer. MobiHide. MobiHide [22] es una propuesta de algoritmo basada en un sistema peer-to-peer (de igual a igual). En MobiHide, los dispositivos móviles participantes forman una tabla hash de distribución jerárquica, fundamentada en la arquitectura Chord P2P [23], que indexa las ubicaciones de todos los usuarios. Para mapear las localizaciones 2D de todos los usuarios en un espacio Chord unidimensional, se emplea la curva de Hilbert [24]. Los K-ASRs se ensamblan de manera colaborativa entre pares (peers) de manera distribuida, mediante la elección de grupos aleatorios de K usuarios (incluyendo el peticionario) que son consecutivos en el espacio 1D (Figura 12. Arquitectura del sistema MobiHide y petición anonimizada.). Se prueba que, para una distribución uniforme de peticiones, MobiHide garantiza la privacidad, demostrando experimentalmente que incluso para distribuciones sesgadas, la probabilidad de identificar al usuario que realiza la consulta está muy cerca del límite teórico. Figura 12. Arquitectura del sistema MobiHide y petición anonimizada.
  • 24. 22 Privacidad de ubicación en contextos Big Data 3.2.4.2 Algoritmo diff-anonym El algoritmo diff-anonym [11] es una solución que combina los dos principales enfoques respecto a la privacidad: K-anonimidad y privacidad diferencial. Esta aplicación, propuesta inicialmente para la protección de datos sin componente espacial, se ha adaptado para garantizar la privacidad de ubicación en el trabajo [3]. Su sucesión de fases fundamental y general es la siguiente: · Input: Conjunto de datos de cualquier volumen sobre el cual se quiere incluir privacidad. · Paso 1: Carga de los datos al framework (marco de trabajo). · Paso 2: Selección de los campos de atributos a organizar en nuevas tablas temporales. · Paso 3: Detección de “cuasi-identificadores” en las tablas temporales. · Paso 4: División de las tablas en “mini-tablas”. · Paso 5: Aplicación de k-anonimidad a las mini-tablas temporales. · Paso 6: Detección de atributos iguales en los resultados. · Paso 7: Extender los resultados de aplicar k-anonimidad. · Paso 8: Adición de ruido a la información que ya contiene atributos iguales en los resultados. · Paso 9: Recombinación de los resultados en el big dataset. Para ejemplificar la metodología, los investigadores I.A. Hassoon, N. Tapus y A.C. Jasim [3] plantean como caso de estudio el conjunto de datos de las ubicaciones de todas las direcciones postales de la ciudad de Bucarest, Rumanía. El área abarca 228 kilómetros cuadrados y supone la cantidad de 124802 ubicaciones almacenadas. La aplicación del algoritmo diff-anonym, que combina los métodos de k-anonimidad y privacidad diferencial, se aplica en tres niveles, siendo el primero aquél que lee la información y la separa en multi grupos. En este nivel, se implementa el algoritmo al dataset de 124802 registros, y mediante el uso de multi tests se dividen los datos en pequeños grupos (registros totales, la mitad, de 10000, 5000, 1000). En el último test, se divide el conjunto completo en grupos de 1000, que se comprobó como el mejor resultado en términos de tiempo de ejecución. Esta implementación de primer nivel se ilustra en la siguiente (Figura 13. Implementación de Diff-Anonym en el primer nivel.). Se observa que la ubicación se trata desde el punto de vista alfanumérico, siendo los campos de coordenadas tratados como información sensible a anonimizar. En el aspecto de la k-anonimidad, se determinó un valor de K=3. La columna derecha recoge el número de elementos de ruido introducidos para el id determinado.
  • 25. 23 Privacidad de ubicación en contextos Big Data Figura 13. Implementación de Diff-Anonym en el primer nivel. El segundo nivel de aplicación del algoritmo Diff-Anonym se implementa la k-anonimidad en los grupos de datos resultantes del primer nivel, que incluía campos de movimientos de los clientes (longitud y latitud) con un rango de K entre 1 y 9. El test devolvió un resultado que permitió concluir que los valores de K<5 son los más beneficiosos en la preservación de la privacidad de los registros. En la (Figura 14. Implementación de Diff-Anonym en el segundo nivel.) se presentan los resultados de este nivel de implementación, con K=3. Nuevamente, la columna de la derecha recoge la cantidad de elementos de ruido introducidos para el id seleccionado. En este caso se observa que el registro de identificador 15075 aparece repetido 55 veces, fruto de la aplicación de la privacidad diferencial. La aplicación de la k-anonimidad se aprecia en la generalización de los valores de las coordenadas (por ejemplo, 26.033*****). Figura 14. Implementación de Diff-Anonym en el segundo nivel. El tercer nivel de aplicación consiste en la re-lectura del resultado, en la identificación de los registros con similaridad entre si y la implementación de métodos diferenciales en aquellas parejas de tuplas con valores similares.
  • 26. 24 Privacidad de ubicación en contextos Big Data 4 Conclusión En el presente trabajo de documentación se plantea la problemática de la privacidad y la protección de datos respecto a la ubicación de los usuarios de servicios, aplicaciones o estudios. En rasgos generales, se identifican tres enfoques distintos a partir de los cuales se han desarrollado mecanismos para proteger la privacidad en la ubicación del usuario en sistemas basados en localización: los fundamentados en la k-anonimidad, aquellos basados en el concepto de privacidad diferencial, y los enfoques llamados “dummy-based”, centrados en la adición de ruido o datos erróneos en las peticiones que el usuario realiza al servicio. Con el fin de materializar mecanismos basados en la k-anonimidad, se desarrollan los algoritmos conocidos como “cloaking” o agrupación. En este documento se detallan las bases teóricas de concreciones como el Clique Cloak, Center Cloak, Casper, Interval Cloak y Hilbert Cloak. En el amplio espectro de las aplicaciones de la privacidad diferencial, se profundiza en las propuestas de geo-indistinguibilidad y en los enfoques que toman en consideración la protección frente a la correlación temporal. Existen múltiples algoritmos dummy-based, pero en esta recopilación se hace referencia a los dos mecanismos básicos que rigen su esencia: Moving in a Neighborhood y Moving in a Limited Neighborhood. Cabe remarcar, finalmente, que existen otros enfoques para abordar la problemática de la privacidad de la ubicación, como son las soluciones mixtas, como MobiHide o Diff-Anonym, o aquellas basadas en la criptografía.
  • 27. 25 Privacidad de ubicación en contextos Big Data Índice de figuras Figura 1. Clasificación general de métodos de k-anonimidad................................................ 8 Figura 2. Esquema del algoritmo Clique Cloak.................................................................... 10 Figura 3. Esquema del algoritmo Center Cloak................................................................... 11 Figura 4. Esquema del algoritmo Casper. ........................................................................... 12 Figura 5. Esquema del algoritmo Hilbert Cloak. .................................................................. 13 Figura 6. Ejemplo básico de método de geo-indistinguibilidad. ........................................... 16 Figura 7. Dos sistemas de coordenadas en modelo de correlación temporal...................... 17 Figura 8. Convex hull, sensitivity hull y transformación isotrópica ....................................... 18 Figura 9. Funcionamiento básico de los algoritmos de generación de dummies. ................ 18 Figura 10. Generación de dummies en movimiento. ........................................................... 19 Figura 11. Algoritmos de generación de dummies. ............................................................. 19 Figura 12. Arquitectura del sistema MobiHide y petición anonimizada. ............................... 21 Figura 13. Implementación de Diff-Anonym en el primer nivel............................................. 23 Figura 14. Implementación de Diff-Anonym en el segundo nivel. ........................................ 23
  • 28. 26 Privacidad de ubicación en contextos Big Data Índice de tablas Tabla 1. Ejemplos de LBSs................................................................................................... 4 Tabla 2. Ejemplo de datos 2-anonimizados........................................................................... 7 Tabla 3. Ejemplo de datos no anonimizados......................................................................... 7 Tabla 4. Algoritmo Moving in a Neighborhood (MN)............................................................ 20 Tabla 5. Algoritmo Moving in a Limited Neighborhood (MLN).............................................. 21
  • 29. 27 Privacidad de ubicación en contextos Big Data Bibliografía [1] S. Yu, "Big Privacy: Challenges and Opportunities of Privacy Study in the Age of Big Data," IEEE Access, vol. 4, pp. 2751-2763, 6 Junio 2016. [2] H. Liu, X. Li, H. Li, J. Ma and X. Ma, "Spatiotemporal correlation-aware dummy-based privacy protection scheme for location-based services," in IEEE INFOCOM 2017 - IEEE Conference on Computer Communications, Atlanta, GA, USA, 2017. [3] I. A. Hasson, N. Tapus and A. C. Jasim, "Privacy of Clients' Locations in Big Data and Cloud Computing," in IEEE 12th International Symposyum on Applied Computational Intelligence and Informatics (SACI), Timisoara, RO, 2018. [4] J. Ewen, "Best Guide To Location Data 2020 - All You Need To Know," Tamoco Magazine, 2019. [5] A. Liulko, "7 Essential Answers About Marketers' Bidstream Data Questions," Target Marketing Magazine, 2019. [6] S. Wang, Q. Hu, Y. Sun and J. Huang, "Privacy Preservation in Location-Based Services," IEEE Communications Magazine, vol. 56, no. 3, pp. 134-140, 15 Marzo 2018. [7] S. Wang, R. Sinnott and S. Nepal, "Privacy-protected place of activity mining on big location data," in IEEE International Conference on Big Data, Boston, MA, USA, 2017. [8] H. To, K. Nguyen and C. Shahabi, "Differentialy private publication of location entropy," in SIGSPACIAL '16: Proceedings of the 24th ACM SIGSPACIAL International Conference on Advances in Geographic Information Systems, New York, NY, USA, 2016. [9] Unidad de Evaluación y Estudios Tecnológicos, Agencia Española de Protección de Datos, "La K-Anonimidad como medida de la privacidad," [Online]. Available: https://www.aepd.es/sites/default/files/2019-09/nota-tecnica-kanonimidad.pdf. [10] L. Sweeney, "k-Anonymity: A Model for Protecting Privacy," International Journal of Uncertainty, Fuzziness and Knowledge-Based Systems, vol. 10, no. 5, pp. 557-570, 2002. [11] I. A. Hassoon, N. Tapus and A. C. Jasim, "Enhance privacy in big data and cloud via diff-anonym algorithm," in 16th RoEduNet Conference: Networking in Education and Research (RoEduNet), Targu Mures, RO, 2017. [12] A. Gkoulalas-Divanis, P. Kalnis and V. Verykios, "Providing K-Anonymity in Location Based Services," ACM SIGKDD Explorations, vol. 12, no. 1, 2010. [13] C. Dwork and A. Roth, "The Algorithmic Foundations of Differential Privacy," Foundations and Trends in Theoretical Computer Science, vol. 9, no. 3-4, pp. 211-407, 2014. [14] M. Andrés, N. Bordenabe, K. Chatzikokolakis and C. Palamidessi, "Geo- indistinguishability: differential privacy for location-based systems," in CCS '13: Proceedings of the 2013 ACM SIGSAC conference on Computer & communications security, 2013. [15] Y. Xiao and L. Xiong, "Protecting Locations with Differential Privacy under Temporal Correlations," in Proceedings of the 22nd ACM SIGSAC Conference on Computer and Communications Security, 2015. [16] H. Kido, Y. Yanagisawa and T. Satoh, "An anonymous communication technique using dummies for location-based services," in ICPS '05. Proceedings. International Conference on Pervasive Services., Santorini, GR, 2005. [17] C. Bettini, S. Jajodia, P. Samarati and S. Wang, Privacy in Location-Based Applications: Research Issues and Emerging Trends, 2009, pp. 45-50.
  • 30. 28 Privacidad de ubicación en contextos Big Data [18] H. Kido, Y. Yanagisawa and T. Satoh, "Protection of Location Privacy using Dummies for Location-based Services," in 21st International Conference on Data Engineering Workshops (ICDEW'05), Tokyo, JP, 2005. [19] S. Oya, C. Troncoso and F. Pérez-González, "Is Geo-Indistinguishability What You Are Looking For?," in WPES 2017 - Proceedings of the 2017 Workshop on Privacy in the Electronic Society, 2017. [20] R. Shokri, G. Theodorakopoulos, J.-Y. Le Boudec and J.-P. Hubaux, "Quantifying Location Privacy," in 2011 IEEE Symposium on Security and Privacy, Berkeley, CA, US, 2011. [21] A. Pfitzmann and M. Köhntopp, "Anonymity, Unobservability, and Pseudonymity - A Proposal for Terminology," in International workshop on Designing privacy enhancing technologies, Springer-Verlag New York, Inc., 2001, pp. 1-9. [22] G. Ghinita, P. Kalnis and S. Skiadopoulos, "MobiHide: A Mobile Peer-To-Peer System for Anonymous Location-Based Queries," in Proceedings of the 10th international conference on Advances in spatial and temporal databases, 2007. [23] I. Stoica, R. Morris and D. Liben-Nowell, "Chord: a Scalable Peer-to-Peer Lookup Protocol for Internet Applications," in IEEE/ACM Transactions on Networking 11, 2003. [24] D. Liben-Nowell, H. Balakrishnan and D. R. Karger, "Observations on the Dynamic Evolution of Peer-to-Peer Networks," in Revised Papers from the First International Workshop on Peer-to-Peer Systems, 2002.