La Red de Conocimientos Pedagógicos - Aprendizaje de inglés - Privacidad diferencial-Privacidad diferencial[1. definición]

Privacidad diferencial-Privacidad diferencial[1. definición]

El objetivo principal del aprendizaje automático es capturar información efectiva de los datos, mientras que el objetivo de la privacidad es ocultar información (evitar la fuga de información personal, etc.). Los dos parecen entrar en conflicto, pero cuando extraemos información confidencial, debemos equilibrarla. los dos La relación entre (proteger la privacidad personal contra filtraciones mientras se captura información efectiva para entrenar mejores algoritmos de rendimiento). Por lo tanto, un método común es que cuando capturamos información de los datos, hacemos todo lo posible para capturar las características generales de toda la población y al mismo tiempo garantizamos que no se filtre información privada de ningún individuo. Sin embargo, a menudo los datos anonimizados aún no pueden proteger la privacidad personal contra la filtración. Por ejemplo, si un atacante tiene otra información filtrada, puede obtener la información que desea fusionando datos superpuestos. O encuentre la información que desea a través de las diferencias en los resultados de las consultas varias veces. Por lo tanto, se ha sugerido combinar muestras con las mismas características en un grupo. Cuando el número de muestras en todo el grupo alcanza un cierto nivel, la información del grupo se puede divulgar para evitar la fuga de información confidencial. Pero aun así, el atacante aún puede obtener la información que desea.

Por ejemplo,

Entonces Dwork propuso el concepto de privacidad diferencial. En pocas palabras, utiliza ruido aleatorio para garantizar que los resultados de la información visible públicamente de la consulta no cambien con el tiempo. el individuo Y el cambio. (Algo similar a la estabilidad del modelo. Por ejemplo, si elimino algún dato o agrego datos nuevos, no traerá un gran cambio en el rendimiento de todo el modelo).

Hay tres tipos comunes de Definición matemática de privacidad diferencial de.

Esta definición significa añadir ruido aleatorio al resultado (se puede utilizar ruido gaussiano o ruido laplaciano).

Esta definición se utiliza para representar el cambio más pequeño en los datos de un conjunto de datos a otro. Para dar un ejemplo simple, si la suma de dos conjuntos de datos difiere como máximo en un dato, entonces llamamos a ese par (D, D’) un conjunto de datos vecino.

La Definición 3 es la definición predeterminada de privacidad diferencial propuesta por Dwork. Al agregar ruido aleatorio, se genera una distribución de probabilidad de los resultados (es por eso que usamos probabilidades en ambos lados). En la definición, cuando el conjunto de datos y cualquier conjunto de datos adyacente (lo que significa que cada elemento de datos debe satisfacerse), el resultado de este mecanismo cambia en una probabilidad mayor que el factor (en realidad, el segundo término en el lado derecho de la desigualdad se desplaza hacia la izquierda). Por lo tanto, representa la confianza de este mecanismo (cuanto menor es el valor, más confianza) y representa el estándar de protección de la privacidad (cuanto menor es el valor, más estricto es el estándar, por lo que también se le llama presupuesto de privacidad). En resumen, cuanto menor sea la suma, más cercanas serán las dos probabilidades, por lo que mejor será la protección de la privacidad.

Debemos prestar atención al elegir. Cuando hay n muestras en el conjunto de datos, debe ser menor que 1/n, porque obviamente este mecanismo puede satisfacer la privacidad diferencial, pero si el valor es demasiado grande. , este mecanismo tiene una alta probabilidad de provocar filtraciones de privacidad. Cada dato de este conjunto de datos tiene una probabilidad de ser publicado. Debido a que cada dato diferente en la publicación es independiente, este mecanismo puede publicar una muestra. Por lo tanto, para evitar esta fuga, debe ser inferior a 1/n.

Normalmente lo llamamos privacidad diferencial. Cuando, la privacidad diferencial todavía tiene la posibilidad de causar fuga de información, pero cuando significa que la probabilidad de fuga es 0, lo que significa que esta protección de la privacidad no es probabilística, por lo que la definición de privacidad diferencial es mucho más sólida que la privacidad diferencial. .

Referencias:

[1]. Ji, Lipton, Zachary C, Elkann, Charles, Privacidad diferencial y aprendizaje automático: una encuesta y una revisión.

[2]. Cynthia Dwork, "Privacidad diferente: una encuesta de resultados"