Papel Stylegan2
A finales de febrero, se lanzaron varias versiones de "Ant Hey" en Tik Tok. Algunos internautas dijeron: "Abrir Tik Tok es como apuñalar un hormiguero".
A través de una aplicación llamada Avatarify, los usuarios solo necesitan cargar una foto y el propietario de la foto puede hacer la expresión que quiera. Al momento de escribir esta edición, "Hey Ant" tiene más de 250.000 videos en Tik Tok y los videos sobre temas relacionados se han reproducido 3 mil millones de veces. Avatarify ganó el primer lugar en la lista de aplicaciones gratuitas de la App Store nacional el 25 de febrero y luego ocupó el primer lugar en la lista general durante varios días consecutivos.
En comparación con los tres días posteriores a que ZAO se hiciera popular, Avatarify no pudo escapar del destino del software de cambio de rostro. Fue eliminado de la tienda de aplicaciones china después de solo siete días (todavía está disponible en el extranjero).
Avatarify fue desarrollado por un programador ruso y colocado en GitHub. Originalmente se utilizó para "aliviar el aburrimiento" en videoconferencias como Zoom y Skype. Por ejemplo, puedes cambiar tu cara por la de Musk durante una videoconferencia e interactuar en tiempo real. Hasta ahora, el proyecto ha recibido casi 12.000 estrellas en GitHub.
Unos meses después, Avatarify lanzó una versión APP (solo versión iOS). En principio, Avatarify utiliza tecnologías como el deepfake para entrenar algoritmos en imágenes de rostros que se van a intercambiar. Al entrenar el algoritmo en imágenes objetivo de categorías similares, el modelo admite operaciones de transformación de rostros en tiempo real.
La razón detrás de la eliminación repetida de software que cambia la cara son los problemas de privacidad y seguridad de la información. A muchas personas les preocupa que se filtre o se abuse de su información facial, pero no tenemos que acabar con la tecnología de inteligencia artificial detrás de ella: la síntesis profunda. Además, la síntesis profunda tiene muchas más aplicaciones valiosas en muchas industrias.
La composición en profundidad llamó la atención del público por primera vez en noviembre de 2017. En ese momento, un usuario llamado "deepfakes" en el sitio web de noticias estadounidense Reddit subió un video pornográfico sintetizado, reemplazando el rostro de un actor de la película pornográfica por el rostro de una estrella. Desde entonces, los medios comenzaron a utilizar deepfake para describir este tipo de contenido de síntesis de vídeo basado en IA. Pero mucha gente piensa erróneamente que la síntesis profunda es deepfake, lo cual es realmente vergonzoso.
En primer lugar, el deepfake es un subconjunto de la síntesis profunda. Pero el cambio de rostro fue el primero en salir a la luz pública y también es la aplicación de síntesis profunda más conocida.
La connotación de síntesis profunda es muy amplia, incluyendo la síntesis y generación automática de voz, imágenes, audios, vídeos y rostros con la ayuda de algoritmos de inteligencia artificial. Sus aplicaciones típicas incluyen: reemplazo de rostros (intercambio de rostros), reproducción de rostros (manipular las expresiones faciales del sujeto objetivo, como obligarlo a decir algo que nunca ha dicho), síntesis de rostros (la IA genera una imagen de rostro real. De hecho, esto la cara no existe), síntesis de voz, síntesis de cuerpo entero, etc.
En segundo lugar, los escenarios de abuso pornográfico y de seguridad de la privacidad que frecuentemente causan los deepfake harán que las personas tengan prejuicios y malentendidos sobre la tecnología de síntesis profunda, e incluso piensen que el contenido falsificado con IA afectará la confianza social, etc. Sin embargo, con la aplicación de la tecnología de síntesis profunda en más campos, la comprensión del público sobre la tecnología de síntesis profunda se ha vuelto más madura.
La tecnología de IA detrás de la síntesis profunda incluye principalmente dos módulos: autoencoder y gan (red generativa adversarial). GAN consta de dos conjuntos de redes neuronales artificiales, uno es el generador y el otro es el discriminador. En innumerables confrontaciones, el generador acaba haciendo que el discriminador ya no pueda distinguir entre datos reales y sintéticos, generando así contenidos muy realistas.
El generador de imágenes más avanzado de la industria es StyleGAN de NVIDIA, que se abrió en Github en febrero de 2009 en 2065438.
El "Informe de desarrollo de contenido generado por IA de 2020: el primer año de comercialización de síntesis profunda" (en lo sucesivo, el informe) publicado por Tencent Research Institute y Tencent Youtu Lab muestra que la evolución de la tecnología de síntesis profunda ha se ha acelerado en los últimos años y muestra varias tendencias tecnológicas importantes:
1. Además de la síntesis única de audio e imagen, la tecnología de síntesis profunda se está desarrollando en una dirección integral.
En segundo lugar, una vez formada la forma del rostro, la síntesis de todo el cuerpo se convertirá en un nuevo punto caliente.
3. Además de la síntesis 2D, la tecnología de síntesis tridimensional (especialmente humanos digitales virtuales) será el foco de la siguiente etapa.
Y con la madurez de la tecnología de "síntesis profunda", se ha utilizado en muchos campos como cine y televisión, entretenimiento, educación, atención médica, comercio electrónico, publicidad y marketing.
En la industria de los medios, los presentadores de IA se están volviendo cada vez más populares. En 2018, Sogou y la agencia de noticias Xinhua lanzaron el primer ancla compuesta de IA del mundo. En 2020, las dos partes lanzaron el primer ancla compuesta de IA 3D del mundo. El ancla sintética de IA 3D se basa en muchas tecnologías de inteligencia artificial de vanguardia, como el modelado digital 3D ultrarrealista del cuerpo humano, el reconocimiento y la generación multimodal, la generación y conducción de acciones faciales en tiempo real y el aprendizaje por transferencia. , lo que permite a la máquina generar contenido de video humano digital 3D de alta fidelidad basado en texto de entrada, presentando la misma transmisión de video que una persona real.
Además, gigantes de Internet como Baidu, JD.COM y NetEase también han lanzado seres humanos digitales virtuales. El humano digital virtual presentado por Baidu AI Cloud se ha convertido en el primer "empleado virtual" de un banco en China.
En el campo de la conducción autónoma, la síntesis profunda se utiliza para desarrollar sistemas de simulación de conducción autónoma (AADS), crear entornos viales virtuales y proporcionar capacitación y pruebas para sistemas de conducción autónoma.
En el campo médico, entrenar sistemas de IA mediante la generación de imágenes médicas que no se pueden distinguir de las imágenes médicas reales puede resolver los problemas de datos médicos insuficientes y protección de la privacidad del paciente. En un artículo publicado conjuntamente por NVIDIA y sus socios, se demostró el método de utilizar el algoritmo GAN para sintetizar imágenes de resonancia magnética cerebral con tumores. Durante el proceso de entrenamiento y generación del algoritmo, solo se necesita el 10% de los datos reales para que el sistema de diagnóstico de IA detecte tumores en imágenes reales.
En el campo de la publicidad y el marketing, los rostros sintetizados por IA y las imágenes virtuales pueden sustituir a los modelos reales en las actividades de marketing, y nadie se enfrentará a problemas de derechos de autor. Por ejemplo, Generated Photos es un sitio web que utiliza IA para generar caras automáticamente. Hay más de 654,38 millones de rostros generados por IA en su base de datos, que están disponibles para su descarga y uso gratuitos sin problemas de derechos de autor. Estas imágenes de rostros gratuitas se pueden utilizar en muchos escenarios, como folletos publicitarios, sitios web, presentaciones PPT, cuestionarios, avatares de usuarios, etc.
El abuso de la síntesis profunda es un tema importante en la gobernanza de la inteligencia artificial.
La industria del porno es pionera en la adopción y popularización de nuevas tecnologías, y la tecnología de IA no es una excepción. La industria del porno es actualmente el área más afectada por el abuso de la tecnología de síntesis profunda. El informe muestra que desde 2019 hasta diciembre, hubo 14.678 videos de síntesis profunda en todo Internet, 96 de los cuales eran videos pornográficos de síntesis profunda, concentrados principalmente en sitios web pornográficos.
¿Cómo puede la tecnología de síntesis profunda evitar que las personas hagan el mal? La gobernanza de la diversidad es un concepto reconocido que incluye soluciones legales, soluciones técnicas, autorregulación de la industria y educación pública.
En términos legales, algunos países desarrollados han presentado proyectos de ley relevantes. Sin embargo, vale la pena señalar que no existe una prohibición "única" sobre el uso de tecnología de síntesis profunda, pero sí una prohibición sobre el uso de tecnología de síntesis profunda para participar en actividades ilegales como la síntesis de videos pornográficos. , noticias falsas e interferencia electoral. Por ejemplo, la “Ley de Responsabilidad de DeepFakes” del Congreso de los Estados Unidos y otros proyectos de ley relacionados solo prohíben la síntesis profunda para fines tales como interferencia política, pornografía de venganza y suplantación, y exigen que los productores agreguen marcas de agua y otras marcas al contenido de síntesis profunda.
Técnicamente, la tecnología de identificación y la tecnología de trazabilidad son dos métodos convencionales. Sin embargo, en términos de autenticación, actualmente no existe un esquema universal de autenticación de video y es necesario capacitar redes de autenticación específicas para cada tecnología de síntesis emergente.
Aunque el umbral para la síntesis profunda de contenido se ha reducido considerablemente y la gente corriente también puede completar la síntesis profunda de contenido de entretenimiento en terminales inteligentes como los teléfonos inteligentes, dicho contenido suele ser más fácil de identificar.
El contenido de síntesis profunda de alta calidad y alta simulación aún requiere herramientas y habilidades profesionales. Por lo tanto, debemos protegernos de los riesgos y no entrar en pánico.
La IA es como un estudiante muy inteligente de los humanos, y la TA simplemente aprende rápida y fielmente lo que los humanos enseñan.
Como dice el informe, "La síntesis profunda no se trata de 'falsificación' y 'engaño', sino de una tecnología muy creativa y revolucionaria. Aunque, al igual que otras tecnologías, ha generado una serie de problemas que deben abordarse enfrentamos, pero no negarán el progreso que esta tecnología ha traído a la sociedad”.