La Red de Conocimientos Pedagógicos - Aprendizaje de inglés - Muestre el algoritmo de IA propio de NVIDIA perfecto para mejorar la experiencia de videoconferencia.

Muestre el algoritmo de IA propio de NVIDIA perfecto para mejorar la experiencia de videoconferencia.

Afectadas por la epidemia de COVID-19, empresas de diversas industrias han acelerado su demanda de oficinas móviles. Durante este periodo, un gran número de usuarios y empresas optaron por las videoconferencias online. Entonces, ¿cómo podemos presentarnos de forma más perfecta en las videoconferencias?

Recientemente se celebró oficialmente la Conferencia Internacional 2021 sobre Visión por Computador y Reconocimiento de Patrones (CVPR 2021). El SDK de transmisión de video con IA en la nube de NVIDIA Maxine basado en la investigación de GAN se exhibió en 2021. Echemos un vistazo a cómo la investigación de GAN está remodelando las videoconferencias.

Levántate, enciende tu computadora portátil y enciende tu cámara web. Gracias a la tecnología de inteligencia artificial desarrollada por los investigadores de NVIDIA, siempre lucirás perfecto en tus videollamadas.

Vid2Vid Cameo es uno de los modelos de aprendizaje profundo detrás del SDK NVIDIA Maxine para videoconferencias. Con la ayuda de Gan, puede sintetizar un vídeo real cara a voz con sólo una imagen 2D de una persona.

Para utilizar este modo, los participantes deben enviar una imagen de referencia (foto real o avatar de dibujos animados) antes de unirse a la videollamada. Durante la reunión, el modelo de IA capturará los movimientos en tiempo real de cada persona y los aplicará a imágenes estáticas cargadas previamente.

Es decir, después de subir una foto con traje formal, incluso si los participantes tienen el pelo desordenado y están en pijama, aún pueden aparecer con ropa de trabajo decente durante la llamada, porque la IA puede Los movimientos faciales del usuario se asignan a la foto de referencia. Si el sujeto gira hacia la izquierda, la tecnología puede ajustar la perspectiva para que el participante mire directamente a la cámara.

Además de ayudar a los participantes a mostrar su excelente estado, esta tecnología de inteligencia artificial también puede reducir 10 veces el ancho de banda necesario para las videoconferencias, evitando así las fluctuaciones y la latencia. Estará disponible pronto como códec AI Face en el SDK de códec de video NVIDIA.

El investigador de NVIDIA y cofundador del proyecto, Mingyu Liu, dijo: "Muchas personas tienen un ancho de banda de Internet limitado pero aún quieren tener videollamadas fluidas con amigos y familiares. Esta tecnología básica no solo puede ayudarlos, sino que también puede ayudar a animadores, editores de fotografías y desarrolladores de juegos”.

Vid2Vid Cameo se presentó esta semana en la prestigiosa Conferencia Internacional sobre Visión por Computador y Reconocimiento de Patrones, una conferencia virtual presentada por NVIDIA 28. Uno de los artículos . Además, también se lanza en AI Playground, donde podrá experimentar nuestras demostraciones de investigación.

Ai está en el centro de atención.

En Gracias a una película clásica del ladrón (que también es un programa popular de Netflix), los investigadores de NVIDIA rápidamente utilizaron su modelo GAN de habla facial en reuniones virtuales. La demostración se centra en las características principales de Vid2Vid Cameo, incluida la reorientación facial, avatares animados y compresión de datos.

Estas funciones pronto estarán disponibles en el SDK de NVIDIA Maxine, proporcionando a los desarrolladores modelos optimizados previamente entrenados para lograr efectos de vídeo, audio y realidad aumentada en videoconferencias y transmisiones en vivo.

Los desarrolladores ya pueden utilizar los efectos de Maxine AI, incluida la reducción inteligente de ruido, el muestreo de vídeo y la estimación de la pose humana. El SDK se puede descargar gratis y también se puede utilizar con la plataforma NVIDIA Jarvis para aplicaciones de IA conversacionales, incluidas la transcripción y la traducción.

Saludos desde IA

Vid2Vid Cameo puede crear dinámicas de voz y rostros realistas con IA para videoconferencias, lo que requiere solo dos elementos, una foto de la apariencia de una persona y una transmisión de video, que determinan cómo la imagen está animada.

El modelo se desarrolla basándose en el sistema NVIDIA DGX y se entrena utilizando un conjunto de datos que contiene 6,5438 millones de vídeos de rostros y voz de alta calidad. La red ha dominado el reconocimiento de 20 puntos clave y puede utilizarse para modelar movimientos faciales sin anotaciones manuales. Estos puntos codifican la ubicación de características, incluidos ojos, boca y nariz.

Luego extrae estos puntos clave de la imagen de referencia del líder de la llamada, que puede enviarse a otros participantes de la videoconferencia con anticipación o reutilizarse en reuniones anteriores. De esta manera, la plataforma de videoconferencia solo necesita enviar los datos de movimiento de puntos clave en la cara del orador y no necesita enviar una gran cantidad de transmisiones de video en vivo de un participante a otros.

Para el receptor, el modelo GAN utilizará esta información para simular la apariencia de la imagen de referencia para sintetizar el vídeo.

La tecnología reduce 10 veces el ancho de banda requerido para videoconferencias al comprimir y enviar de un lado a otro solo las posiciones de la cabeza y los puntos clave en lugar de la transmisión de video completa, lo que brinda una experiencia de usuario más fluida. El modelo se puede ajustar para transmitir diferentes números de puntos clave para adaptarse a diferentes entornos de ancho de banda sin afectar la calidad visual.

Además, la perspectiva del vídeo de voz y rostro generado se puede ajustar libremente, mostrando al usuario desde un lado o en ángulo recto, o desde un ángulo de cámara superior o inferior. Los editores de fotografías que trabajan con imágenes fijas también pueden utilizar esta función.

Los investigadores de NVIDIA descubrieron que Vid2Vid Cameo puede producir resultados más realistas y claros independientemente de si la imagen y el vídeo de referencia son de la misma persona, o si la IA se encarga de transferir los movimientos de una persona a la imagen de referencia. de otra persona, Mejor que los modelos premium.

Esta última característica puede aplicar los movimientos faciales del hablante para animar avatares digitales en videoconferencias, o incluso usarse para crear imágenes y movimientos realistas de personajes de videojuegos o dibujos animados.

El artículo invitado de Vid2Vid fue escrito por los investigadores de NVIDIA Ting-Wang Chun, Arun Mallya y Liu Mingyu***. El equipo de investigación de NVIDIA cuenta con más de 200 científicos en todo el mundo que se centran en IA, visión por computadora, vehículos autónomos, robótica y gráficos.

Nos gustaría agradecer al actor Edan Moses, quien da voz al profesor en The House of Money de Netflix en inglés, por presentar nuestra última investigación sobre IA en el vídeo introductorio.

Finalmente, las videoconferencias se han convertido en parte de la vida diaria de las personas y pueden ayudar a millones de personas a trabajar, estudiar, entretenerse e incluso buscar tratamiento médico. NVIDIA Maxine integra capacidades avanzadas de video, audio e inteligencia artificial conversacional para brindar avances en eficiencia a las plataformas de videoconferencia y ayudarnos a mantenernos conectados. (Tao Ran)