Meta Reality Labs comparte la inspiración y los desafíos de la tecnología de renderizado dinámico 3D de volumen MVP.
En términos de cuerpos neuronales tridimensionales, el equipo propuso un método para reconstruir y representar objetos en movimiento en tiempo real basándose en nuevas vistas, teniendo en cuenta únicamente datos de imágenes de múltiples puntos de vista. Esta es un área de investigación muy interesante, ya que permitirá contenidos interactivos atractivos en realidad virtual y realidad aumentada.
La idea principal detrás de 3D Neural Bodies es simular escenas con una representación 3D del cuerpo. La representación tridimensional del volumen incluye valores de color RGB y opacidad para cada punto del espacio. En ese artículo, el equipo exploró la representación tridimensional de volúmenes basada en vóxeles. Los métodos basados en Voxel tienen una serie de ventajas. En primer lugar, las escenas dinámicas se pueden modelar utilizando convoluciones 3D para generar mallas de vóxeles en tiempo real. En segundo lugar, la interpolación trilineal se puede utilizar para muestrear rápidamente los valores de color y opacidad de un volumen tridimensional. Estas ventajas permiten representar modelos de "volumen neuronal" en tiempo real. Sin embargo, los volúmenes neuronales distribuyen los vóxeles de manera uniforme en las tres dimensiones de una escena, lo que dificulta el modelado de objetos de alta resolución.
Para resolver este problema, el equipo propuso "Mixed Volatile Primitives (MVP)". En lugar de utilizar una gran cuadrícula de vóxeles tridimensional para simular la escena, se utiliza un conjunto de cuadrículas de vóxeles en movimiento más pequeñas para simular la escena. Al permitir que el modelo tenga un mayor control sobre la densidad de vóxeles de diferentes partes de la escena y utilizar el movimiento de primitivas para modelar el movimiento de la escena, MVP se puede modelar con resoluciones más altas y velocidades de cuadros más rápidas que los 'cuerpos neuronales' dinámicos. escenas.
La creación de un conjunto de primitivas 3D para objetos en movimiento implica dos partes principales: la inicialización de las primitivas y el marco de aprendizaje para entrenar el sistema a partir de datos de vídeo de múltiples vistas.
Para la inicialización, se utilizan técnicas clásicas de modelado facial, como la detección de puntos clave, la reconstrucción 3D y el seguimiento de formas híbridas, para generar una malla triangular dinámica del rostro. Para inicializar primitivas, simplemente colóquelas en la superficie de la malla triangular y distribúyalas uniformemente en el espacio UV de la malla facial. Esta inicialización es muy importante para obtener resultados verdaderamente de alta calidad, ya que durante el entrenamiento el marco de aprendizaje puede quedarse estancado en mínimos locales. Al inicializar las primitivas para que se distribuyan uniformemente en la superficie de la cara, se puede garantizar que se utilicen todas las primitivas y que la resolución de todo el modelo de cara sea aproximadamente similar.
Aunque la inicialización proporciona posiciones iniciales adecuadas para muchas primitivas 3D (especialmente caras), a menudo es incorrecta para otras áreas (como el cabello y los hombros). Para abordar este problema, los modelos se entrenan para generar posiciones base, orientaciones y contenido para que coincidan mejor con las imágenes capturadas desde sistemas de captura de múltiples vistas. Este proceso de formación permite la representación de personajes de alta calidad desde cualquier ángulo.
El mayor desafío es decidir qué dirección de investigación explorar. Si bien las técnicas de modelado y renderizado 3D que se pueden aprender se han vuelto extremadamente populares en los últimos años, en ese momento no teníamos idea del éxito que tendría este enfoque. Incluso ahora, estamos trabajando arduamente para mejorar el rendimiento en tiempo real de MVP para que pueda competir con métodos de representación más tradicionales, como las mallas triangulares. Pero considerando la complejidad del modelo, es muy difícil.
La razón por la que el tiempo real es tan importante es que la misión de Meta es crear avatares realistas en realidad virtual y, en última instancia, lograr una sensación sexual en AR, permitiéndoles comunicarse fácilmente entre sí. sobre ideas y emociones, no sólo a través de palabras, sino también a través de expresiones faciales y movimientos corporales.
Como podrás imaginar, teniendo en cuenta todo esto, se requiere que participe un gran número de personas. Además del equipo de investigación que desarrolla algoritmos, también hay un gran equipo responsable de administrar el hardware y software del sistema de captura, administrar el proceso de captura de datos y administrar el almacenamiento y preprocesamiento de datos (como el desarrollo y ejecución de algoritmos clásicos de seguimiento facial). ). De hecho, el artículo es la culminación de años de trabajo en el laboratorio del equipo en Pittsburgh, Pensilvania.