Privacidad diferencial-Privacidad diferencial[1. definición]
Por ejemplo,
Entonces Dwork propuso el concepto de privacidad diferencial. En pocas palabras, utiliza ruido aleatorio para garantizar que los resultados de la información visible públicamente de la consulta no cambien con el tiempo. el individuo Y el cambio. (Algo similar a la estabilidad del modelo. Por ejemplo, si elimino algún dato o agrego datos nuevos, no traerá un gran cambio en el rendimiento de todo el modelo).
Hay tres tipos comunes de Definición matemática de privacidad diferencial de.
Esta definición significa añadir ruido aleatorio al resultado (se puede utilizar ruido gaussiano o ruido laplaciano).
Esta definición se utiliza para representar el cambio más pequeño en los datos de un conjunto de datos a otro. Para dar un ejemplo simple, si la suma de dos conjuntos de datos difiere como máximo en un dato, entonces llamamos a ese par (D, D’) un conjunto de datos vecino.
La Definición 3 es la definición predeterminada de privacidad diferencial propuesta por Dwork. Al agregar ruido aleatorio, se genera una distribución de probabilidad de los resultados (es por eso que usamos probabilidades en ambos lados). En la definición, cuando el conjunto de datos y cualquier conjunto de datos adyacente (lo que significa que cada elemento de datos debe satisfacerse), el resultado de este mecanismo cambia en una probabilidad mayor que el factor (en realidad, el segundo término en el lado derecho de la desigualdad se desplaza hacia la izquierda). Por lo tanto, representa la confianza de este mecanismo (cuanto menor es el valor, más confianza) y representa el estándar de protección de la privacidad (cuanto menor es el valor, más estricto es el estándar, por lo que también se le llama presupuesto de privacidad). En resumen, cuanto menor sea la suma, más cercanas serán las dos probabilidades, por lo que mejor será la protección de la privacidad.
Debemos prestar atención al elegir. Cuando hay n muestras en el conjunto de datos, debe ser menor que 1/n, porque obviamente este mecanismo puede satisfacer la privacidad diferencial, pero si el valor es demasiado grande. , este mecanismo tiene una alta probabilidad de provocar filtraciones de privacidad. Cada dato de este conjunto de datos tiene una probabilidad de ser publicado. Debido a que cada dato diferente en la publicación es independiente, este mecanismo puede publicar una muestra. Por lo tanto, para evitar esta fuga, debe ser inferior a 1/n.
Normalmente lo llamamos privacidad diferencial. Cuando, la privacidad diferencial todavía tiene la posibilidad de causar fuga de información, pero cuando significa que la probabilidad de fuga es 0, lo que significa que esta protección de la privacidad no es probabilística, por lo que la definición de privacidad diferencial es mucho más sólida que la privacidad diferencial. .
Referencias:
[1]. Ji, Lipton, Zachary C, Elkann, Charles, Privacidad diferencial y aprendizaje automático: una encuesta y una revisión.
[2]. Cynthia Dwork, "Privacidad diferente: una encuesta de resultados"