SlideShare una empresa de Scribd logo
Sanitization
Perspectiva de Bases de Datos Negativas
Juan Zinser
2018/03/15
1 / 22
Privacidad de Datos
Métodos de Sanitización
Enfoque Bases de Datos Negativas
2 / 22
¿Por qué es importante la privacidad de
datos?
3 / 22
Dos tipos de sanitización de bases:
Seguridad: impedir el acceso a los datos.
Privacidad: tener un acceso controlado a los datos.
4 / 22
Privacidad de datos
¿Por qué es importante que los datos sean públicos?
Propician mejores políticas públicas
Incrementan la eficiencia de servicios
Mejoran la transparencia
5 / 22
Modelos de ataque contra bases de datos
Attribute Leakage.
Record Linkage. Concurso de Netflix.
6 / 22
Intercambio Natural
100% Utilidad - 0% Privacidad
0% Utilidad - 100% Privacidad
Producto Cantidad Precio
Leche Deslactosada Borden 2 15
Leche Chocolate Borden 3 17
Queso Manchego Nochebuena 1 40
Detergente Ariel 1 70
Producto Cantidad Subtotal
Lácteos 6 121
Artículo Limpieza 1 70
7 / 22
Truncado
Ruido Aleatorio
Sampleo
Discretización
Redondeo
Generalización
Microagregación
Bases Negativas
Tipos de Sanitización
8 / 22
Enfoque Sanitización Bases Negativas, se propone una generalización
dentro de un operador.
M C E
0 1.0 0.0 0.0
1 1.0 0.0 0.0
2 0.0 1.0 0.0
3 1.0 0.0 0.0
4 1.0 0.0 0.0
5 1.0 0.0 0.0
6 1.0 0.0 0.0
7 1.0 0.0 0.0
8 1.0 0.0 0.0
9 0.0 0.0 1.0
,
Ms Cs Es
π0,M π0,C
π0,E
π1,M π1,C
π1,E
π2,M π2,C
π2,E
π3,M π3,C
π3,E
π4,M π4,C
π4,E
π5,M π5,C
π5,E
π6,M π6,C
π6,E
π7,M π7,C
π7,E
π8,M π8,C
π8,E
π9,M π9,C
π9,E
∑
nclasses
j=0
πi,j = 1.0 πi,j ≥ 0
9 / 22
Características del operador propuesto
Inclusión del valor real
Privacidad
Distribución de peso
10 / 22
Resultados del operador sobre una base de
datos
Ejemplo
Columna Núm. Clases
categoría laboral 9
educación 16
estado civil 7
ocupación 15
raza 5
género 2
país origen 42
11 / 22
Nos efocaremos en Utilidad dentro del
intercambio de Privacidad-Utilidad.
Dos formas de medir la utilidad de la tabla
desde el punto de vista estadístico.
Utilidad medida por medio de métodos de
aprendizaje de máquina.
Utilidad medida por medio de reconstrucción de
histogramas.
12 / 22
Utilidad medida por medio de métodos de aprendizaje
de máquina.
No incluir el valor real presenta una mejor utilidad.
13 / 22
Destaca la estabilidad en los dos "escalones".
14 / 22
Destaca la pendiente positiva en los primeros niveles
de privacidad.
15 / 22
No parece haber efecto del modelo con la distribución
de pesos.
16 / 22
El modelo Naive Bayes tiene un mejor desempeño
cuando el valor real no es incluido sobre el árbol de
regresión, mientras que los demás modelos tienen un
comportamiento independiente de la inclusión del
valor real.
17 / 22
Ejemplo de reconstrucción de histograma
Original M C E Sanitizada M C E
0 1.0 0.0 0.0 0 0.0 0.5 0.5
1 1.0 0.0 0.0 1 0.0 0.5 0.5
2 0.0 1.0 0.0 2 0.5 0.0 0.5
3 1.0 0.0 0.0 3 0.0 0.5 0.5
4 1.0 0.0 0.0 4 0.0 0.5 0.5
5 1.0 0.0 0.0 5 0.0 0.5 0.5
6 1.0 0.0 0.0 6 0.0 0.5 0.5
7 1.0 0.0 0.0 7 0.0 0.5 0.5
8 1.0 0.0 0.0 8 0.0 0.5 0.5
9 0.0 0.0 1.0 9 0.5 0.5 0.0
total 8.0 1.0 1.0 total 1.0 4.5 4.5
18 / 22
Ejemplo de reconstrucción de histograma
Chi-cuadrada χ
2
= ∑
n
i=1
(N ISi−CISi)
2
CISi
19 / 22
Después de un nivel de dispersión mayor al 40%,
pierde relevancia la inclusión o no inclusión del valor
real.
20 / 22
El peor desempeño ocurre cuando la distribución de
los datos es uniforme y los datos originales tienen una
distribución exponencial.
21 / 22
¡Gracias!
github: jwzinser
Referencias
Dwork - Cynthia Dwork
Esponda - Fernando Esponda
Repositorio con la plática: github.com/jwzinser/data_sanitization
22 / 22

Más contenido relacionado

Más de Software Guru

Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
Software Guru
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
Software Guru
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
Software Guru
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
Software Guru
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
Software Guru
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
Software Guru
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
Software Guru
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
Software Guru
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
Software Guru
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Software Guru
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
Software Guru
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Software Guru
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
Software Guru
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
Software Guru
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
Software Guru
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
Software Guru
 
La importancia de crear User Personas y Escenarios
La importancia de crear User Personas y EscenariosLa importancia de crear User Personas y Escenarios
La importancia de crear User Personas y Escenarios
Software Guru
 
La vida después de la escuela
La vida después de la escuelaLa vida después de la escuela
La vida después de la escuela
Software Guru
 
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresasProyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Software Guru
 
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Software Guru
 

Más de Software Guru (20)

Cómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto idealCómo encontrar el trabajo remoto ideal
Cómo encontrar el trabajo remoto ideal
 
Automatizando ideas con Apache Airflow
Automatizando ideas con Apache AirflowAutomatizando ideas con Apache Airflow
Automatizando ideas con Apache Airflow
 
How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:How thick data can improve big data analysis for business:
How thick data can improve big data analysis for business:
 
Introducción al machine learning
Introducción al machine learningIntroducción al machine learning
Introducción al machine learning
 
Democratizando el uso de CoDi
Democratizando el uso de CoDiDemocratizando el uso de CoDi
Democratizando el uso de CoDi
 
Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0Gestionando la felicidad de los equipos con Management 3.0
Gestionando la felicidad de los equipos con Management 3.0
 
Taller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJSTaller: Creación de Componentes Web re-usables con StencilJS
Taller: Creación de Componentes Web re-usables con StencilJS
 
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...El camino del full stack developer (o como hacemos en SERTI para que no solo ...
El camino del full stack developer (o como hacemos en SERTI para que no solo ...
 
¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?¿Qué significa ser un programador en Bitso?
¿Qué significa ser un programador en Bitso?
 
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.Colaboración efectiva entre desarrolladores del cliente y tu equipo.
Colaboración efectiva entre desarrolladores del cliente y tu equipo.
 
Pruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOpsPruebas de integración con Docker en Azure DevOps
Pruebas de integración con Docker en Azure DevOps
 
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivosElixir + Elm: Usando lenguajes funcionales en servicios productivos
Elixir + Elm: Usando lenguajes funcionales en servicios productivos
 
Así publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stressAsí publicamos las apps de Spotify sin stress
Así publicamos las apps de Spotify sin stress
 
Achieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goalsAchieving Your Goals: 5 Tips to successfully achieve your goals
Achieving Your Goals: 5 Tips to successfully achieve your goals
 
Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19Acciones de comunidades tech en tiempos del Covid19
Acciones de comunidades tech en tiempos del Covid19
 
De lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseñoDe lo operativo a lo estratégico: un modelo de management de diseño
De lo operativo a lo estratégico: un modelo de management de diseño
 
La importancia de crear User Personas y Escenarios
La importancia de crear User Personas y EscenariosLa importancia de crear User Personas y Escenarios
La importancia de crear User Personas y Escenarios
 
La vida después de la escuela
La vida después de la escuelaLa vida después de la escuela
La vida después de la escuela
 
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresasProyectos FOSS, desde corporativos globales hasta pequeñas empresas
Proyectos FOSS, desde corporativos globales hasta pequeñas empresas
 
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
Propuesta de blockchain para KYC / AML (detección de lavado de dinero)
 

Último

Presentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The CleanPresentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The Clean
juanchogame18
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
CrystalRomero18
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
NicandroMartinez2
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
cofferub
 
Trabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De ProgramaciónTrabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De Programación
SofiaCollazos
 
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaCatalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
AMADO SALVADOR
 
IA en entornos rurales aplicada a la viticultura
IA en entornos rurales aplicada a la viticulturaIA en entornos rurales aplicada a la viticultura
IA en entornos rurales aplicada a la viticultura
Miguel Rebollo
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Festibity
 
absorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratoriosabsorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratorios
JuanAlvarez413513
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
tamarita881
 
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaCatalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
AMADO SALVADOR
 
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
SERVANDOBADILLOPOLEN
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVATECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
LilibethEstupian
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
cbtechchihuahua
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
Festibity
 
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
sarasofiamontezuma
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
JulyMuoz18
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
cristianrb0324
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
SamuelRamirez83524
 
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
bendezuperezjimena
 

Último (20)

Presentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The CleanPresentacion de Estado del Arte del The Clean
Presentacion de Estado del Arte del The Clean
 
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTALINFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
INFORME DE LAS FICHAS.docx.pdf LICEO DEPARTAMENTAL
 
Refrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y ForzadoRefrigeradores Samsung Modo Test y Forzado
Refrigeradores Samsung Modo Test y Forzado
 
Conceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación ProyectoConceptos Básicos de Programación Proyecto
Conceptos Básicos de Programación Proyecto
 
Trabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De ProgramaciónTrabajo tecnología sobre Conceptos Básicos De Programación
Trabajo tecnología sobre Conceptos Básicos De Programación
 
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial ValenciaCatalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
Catalogo Buzones BTV Amado Salvador Distribuidor Oficial Valencia
 
IA en entornos rurales aplicada a la viticultura
IA en entornos rurales aplicada a la viticulturaIA en entornos rurales aplicada a la viticultura
IA en entornos rurales aplicada a la viticultura
 
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdfProjecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
Projecte Iniciativa TIC 2024 KAWARU CONSULTING. inCV.pdf
 
absorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratoriosabsorcion de gases y practicas de laboratorios
absorcion de gases y practicas de laboratorios
 
SISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsxSISTESIS RETO4 Grupo4 co-creadores .ppsx
SISTESIS RETO4 Grupo4 co-creadores .ppsx
 
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial ValenciaCatalogo general Ariston Amado Salvador distribuidor oficial Valencia
Catalogo general Ariston Amado Salvador distribuidor oficial Valencia
 
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.COMPARATIVO DE SUBESTACIONES AIS VS GIS.
COMPARATIVO DE SUBESTACIONES AIS VS GIS.
 
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVATECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
TECLADO ERGONÓMICO Y PANTALLAS TACTILES - GESTIÓN INTEGRAL EDUCATIVA
 
Manual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputosManual de Soporte y mantenimiento de equipo de cómputos
Manual de Soporte y mantenimiento de equipo de cómputos
 
Informació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdfInformació Projecte Iniciativa TIC HPE.pdf
Informació Projecte Iniciativa TIC HPE.pdf
 
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdfDESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
DESARROLLO DE HABILIDADES DE PENSAMIENTO.pdf
 
Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5Conceptos Básicos de Programación L.D 10-5
Conceptos Básicos de Programación L.D 10-5
 
Estructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdfEstructuras Básicas_Tecnología_Grado10-7.pdf
Estructuras Básicas_Tecnología_Grado10-7.pdf
 
Estructuras básicas_ conceptos de programación (1).docx
Estructuras básicas_ conceptos de programación  (1).docxEstructuras básicas_ conceptos de programación  (1).docx
Estructuras básicas_ conceptos de programación (1).docx
 
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
TODO SOBRE LA INFORMÁTICA, HISTORIA, ¿QUE ES?, IMPORTANCIA Y CARACTERISTICAS....
 

Sanitización de datos y privacidad

  • 1. Sanitization Perspectiva de Bases de Datos Negativas Juan Zinser 2018/03/15 1 / 22
  • 2. Privacidad de Datos Métodos de Sanitización Enfoque Bases de Datos Negativas 2 / 22
  • 3. ¿Por qué es importante la privacidad de datos? 3 / 22
  • 4. Dos tipos de sanitización de bases: Seguridad: impedir el acceso a los datos. Privacidad: tener un acceso controlado a los datos. 4 / 22
  • 5. Privacidad de datos ¿Por qué es importante que los datos sean públicos? Propician mejores políticas públicas Incrementan la eficiencia de servicios Mejoran la transparencia 5 / 22
  • 6. Modelos de ataque contra bases de datos Attribute Leakage. Record Linkage. Concurso de Netflix. 6 / 22
  • 7. Intercambio Natural 100% Utilidad - 0% Privacidad 0% Utilidad - 100% Privacidad Producto Cantidad Precio Leche Deslactosada Borden 2 15 Leche Chocolate Borden 3 17 Queso Manchego Nochebuena 1 40 Detergente Ariel 1 70 Producto Cantidad Subtotal Lácteos 6 121 Artículo Limpieza 1 70 7 / 22
  • 9. Enfoque Sanitización Bases Negativas, se propone una generalización dentro de un operador. M C E 0 1.0 0.0 0.0 1 1.0 0.0 0.0 2 0.0 1.0 0.0 3 1.0 0.0 0.0 4 1.0 0.0 0.0 5 1.0 0.0 0.0 6 1.0 0.0 0.0 7 1.0 0.0 0.0 8 1.0 0.0 0.0 9 0.0 0.0 1.0 , Ms Cs Es π0,M π0,C π0,E π1,M π1,C π1,E π2,M π2,C π2,E π3,M π3,C π3,E π4,M π4,C π4,E π5,M π5,C π5,E π6,M π6,C π6,E π7,M π7,C π7,E π8,M π8,C π8,E π9,M π9,C π9,E ∑ nclasses j=0 πi,j = 1.0 πi,j ≥ 0 9 / 22
  • 10. Características del operador propuesto Inclusión del valor real Privacidad Distribución de peso 10 / 22
  • 11. Resultados del operador sobre una base de datos Ejemplo Columna Núm. Clases categoría laboral 9 educación 16 estado civil 7 ocupación 15 raza 5 género 2 país origen 42 11 / 22
  • 12. Nos efocaremos en Utilidad dentro del intercambio de Privacidad-Utilidad. Dos formas de medir la utilidad de la tabla desde el punto de vista estadístico. Utilidad medida por medio de métodos de aprendizaje de máquina. Utilidad medida por medio de reconstrucción de histogramas. 12 / 22
  • 13. Utilidad medida por medio de métodos de aprendizaje de máquina. No incluir el valor real presenta una mejor utilidad. 13 / 22
  • 14. Destaca la estabilidad en los dos "escalones". 14 / 22
  • 15. Destaca la pendiente positiva en los primeros niveles de privacidad. 15 / 22
  • 16. No parece haber efecto del modelo con la distribución de pesos. 16 / 22
  • 17. El modelo Naive Bayes tiene un mejor desempeño cuando el valor real no es incluido sobre el árbol de regresión, mientras que los demás modelos tienen un comportamiento independiente de la inclusión del valor real. 17 / 22
  • 18. Ejemplo de reconstrucción de histograma Original M C E Sanitizada M C E 0 1.0 0.0 0.0 0 0.0 0.5 0.5 1 1.0 0.0 0.0 1 0.0 0.5 0.5 2 0.0 1.0 0.0 2 0.5 0.0 0.5 3 1.0 0.0 0.0 3 0.0 0.5 0.5 4 1.0 0.0 0.0 4 0.0 0.5 0.5 5 1.0 0.0 0.0 5 0.0 0.5 0.5 6 1.0 0.0 0.0 6 0.0 0.5 0.5 7 1.0 0.0 0.0 7 0.0 0.5 0.5 8 1.0 0.0 0.0 8 0.0 0.5 0.5 9 0.0 0.0 1.0 9 0.5 0.5 0.0 total 8.0 1.0 1.0 total 1.0 4.5 4.5 18 / 22
  • 19. Ejemplo de reconstrucción de histograma Chi-cuadrada χ 2 = ∑ n i=1 (N ISi−CISi) 2 CISi 19 / 22
  • 20. Después de un nivel de dispersión mayor al 40%, pierde relevancia la inclusión o no inclusión del valor real. 20 / 22
  • 21. El peor desempeño ocurre cuando la distribución de los datos es uniforme y los datos originales tienen una distribución exponencial. 21 / 22
  • 22. ¡Gracias! github: jwzinser Referencias Dwork - Cynthia Dwork Esponda - Fernando Esponda Repositorio con la plática: github.com/jwzinser/data_sanitization 22 / 22