La Red de Conocimientos Pedagógicos - Currículum vitae - Completación de profundidad de una única imagen RGB-D

Completación de profundidad de una única imagen RGB-D

Finalización profunda de una única imagen RGB-D

Inicio: pletion.cs.princeton.edu/

github:/yindaz/DeepCompletionRelease

Papel: pletion. cs .princeton.edu/paper.pdf

Objetivo: canal de profundidad completo

Imagen RGB-D

Problema: las cámaras de profundidad de uso común a menudo no pueden percibir el brillo , Profundidad para superficies brillantes, transparentes y distantes

Método: tomando una imagen RGB como entrada, prediciendo normales de superficie densa y límites de oclusión. Luego, estas predicciones se combinan con las observaciones de profundidad sin procesar proporcionadas por la cámara RGB-D para resolver la profundidad de todos los píxeles, incluidos los píxeles que faltan en las observaciones sin procesar.

Objetivo: completar el canal de profundidad

Los huecos en el mapa de profundidad se rellenan con imágenes RGB-d capturadas por cámaras convencionales (es decir, se rellenan todos los agujeros).

Los métodos de pintura de profundidad anteriores se resolvieron mediante ajustes manuales, es decir, extrapolando la superficie límite y sintetizando imágenes de Markov. Vamos, rellena los agujeros

Se han utilizado redes profundas para la estimación de profundidad, pero no se ha utilizado para completaciones de profundidad debido a las siguientes dificultades:

Para capturas emparejadas con profundidad completa Mapea imágenes RGB-D, estos datos de entrenamiento a gran escala no son fáciles de obtener.

De esta manera, la estimación de profundidad solo puede reproducir la profundidad observada, pero no puede estimar información de profundidad no observada.

Este artículo presenta un nuevo conjunto de datos, 105432 imágenes RGB-D, correspondientes a 72 imágenes de profundidad completa calculadas a partir de reconstrucciones de superficies a gran escala en entornos reales.

Representación de la profundidad

Estimar la profundidad con precisión a partir de imágenes monoculares en color es difícil, incluso para los humanos, especialmente para áreas tan grandes que faltan en el área de la Figura 1.

Por lo tanto, este artículo primero explota las propiedades diferenciales locales de la red para predecir la profundidad: normales de superficie y límites de oclusión.

Nadie ha entrenado previamente una red de extremo a extremo para completar la tarea de RGB-D La profundidad de la imagen.

Una idea es extender la red de colores anterior a profundidad, pero

¿Qué significa exactamente dislocación aquí? ¿Existe una desalineación espacial? ¿Los píxeles con información de color no necesariamente tienen información de profundidad?

Este artículo solo utiliza imágenes en color como entrada y primero predice las normales de superficie locales supervisadas y los límites de oclusión, porque las redes profundas son capaces de predecir características locales a partir de la información de color. Luego, la profundidad se completa mediante un problema de optimización global que combina estas predicciones con la profundidad de entrada.

Información clave

Beneficios: Al hacer esto, la red es independiente de la profundidad observada y no necesita ser reentrenada debido al nuevo sensor de profundidad.

Estimación de profundidad a partir de imágenes monoculares en color

Formas desenfocadas

Otros

-Enfoque antiguo

Codificadores automáticos

Inicio

Los métodos anteriores no estudiaron la pintura de imágenes de profundidad, lo cual es un problema difícil porque las imágenes de profundidad carecen de características sólidas, características sólidas y datos de entrenamiento a gran escala.

Campos aleatorios de Markov

Recuperación de formas de la luz y la oscuridad

Segmentación

Método del diccionario

Aunque algunos métodos Se puede utilizar para terminaciones profundas, pero su enfoque es diferente.

Otro trabajo ha estudiado la reconstrucción en profundidad de imágenes en color mejoradas por colecciones escasas de mediciones de profundidad.

Pero la motivación de esta investigación es reducir el coste percibido en determinados entornos (como ahorrar el coste de los robots), no completarla en profundidad.

En correspondencia con las tres dificultades mencionadas en la introducción, este artículo también se centra en los siguientes tres temas:

Sin embargo, este método es costoso y requiere mucho tiempo, y este tipo El público Los conjuntos de datos contienen solo una pequeña cantidad de escenas de interiores.

Ejemplo: Matterport3D

¡Esto da como resultado un conjunto de datos que contiene pares de imágenes RGB-D y D*!

Pregunta: La combinación de imágenes RGB-D multivista requiere registro entre imágenes, ¿verdad? ¿Este proceso de obtener una cuadrícula del conjunto de datos original está fácilmente disponible? La reconstrucción de la superficie global es un conjunto de datos existente.

Ver

Debido a que la reconstrucción de la superficie se construye en un tamaño de malla 3D comparable a la resolución de la cámara de profundidad, generalmente no hay pérdida de resolución en la imagen de profundidad terminada. Sin embargo, cuando se proyecta en un plano de visualización, la misma resolución 3D proporciona una resolución de píxeles efectivamente mayor para superficies alejadas de la cámara. Por lo tanto, al renderizar una malla de alta resolución, la imagen de profundidad terminada puede usar suavizado de subpíxeles para obtener una resolución más fina que la imagen original (tenga en cuenta los detalles en los muebles en la Figura 3). Por qué

El conjunto de datos de este artículo es 117516 imágenes RGB-D con renderizado completo:

Conjunto de entrenamiento: 105432 conjunto de prueba: 12084

Sin embargo, es diferente; Para predecir la profundidad absoluta a partir de una sola imagen,

Este artículo predice los atributos locales de cada píxel, las normales de superficie y los límites de oclusión.

Por qué utilizar normales de superficie para ocluir límites:

Funciona bien en predicciones densas, desde imágenes en color hasta normales de superficie.

Entonces, cómo calcular la profundidad a partir de las normales de la superficie y los límites de oclusión:

a) Qué pérdida se debe utilizar para entrenar la red

Dos opciones: solo entrenar en agujeros y todos los píxeles:

¿Entrenar usando normales renderizadas y normales originales?

Ver apéndice para más detalles.

Resultados experimentales comparativos:

b) Qué canales de imagen deben ingresarse a la red

Los experimentos muestran que si se usa RGB-D como entrada para predecir En condiciones normales, las predicciones para píxeles en agujeros son pobres (aunque efectivas para píxeles observados). Presumiblemente, esta red solo predice normales del canal de profundidad en RGB-D, por lo que no puede funcionar con agujeros.

La conclusión de la Figura 5 inspiró al autor a predecir las normales de superficie utilizando únicamente imágenes en color.

Separar "predicción sin profundidad" de "optimización con profundidad" compite por dos razones: Beneficios

La red anterior predice imágenes normales de superficie N y oclusiones Imágenes de límites B (==¿Qué ¿Cómo se ven?==)

Resolver el sistema de ecuaciones

La función objetivo es la suma ponderada de los cuatro errores al cuadrado.

$E_D$: La distancia entre la profundidad estimada y la profundidad observada original.

$E_N$: Predice la consistencia de la profundidad y la superficie normal multiplicando el punto tangente por la normal.

$E_S$: Hacer que los píxeles adyacentes tengan valores de profundidad similares.

B: $B ∈ [0, 1] $Reducir el peso del término normal según la probabilidad predicha del píxel en el límite de oclusión $(B(p))$

= = Pregunta: Si en el límite, la tangente vertical normal no se satisface, ¿reducir su peso? En casos extremos, sólo se considera $E_N$ = en el límite de oclusión.

= =Pregunta: ¿No es ya no lineal el error al cuadrado? = =

La forma matricial de la función objetivo es definida positiva simétrica dispersa, por lo que podemos usar = = una dispersa. Descomposición de Cholesky [11] Descomposición dispersa de Cholesky == para resolver la función de inclusión objetivo aproximada.

Indicadores de evaluación

(Lo anterior mide el error de profundidad, lo siguiente mide la superficie normal)

La Tabla 1 muestra los resultados bajo diferentes entradas (cuanto mayor sea el flecha en la tabla, mejor bien; al contrario, cuanto más pequeño mejor)

Por ejemplo, el error mediano del valor normal es 17,28

= =Material complementario== también muestra que esta ventaja todavía existe en diferentes configuraciones de pérdida (solo observada versus solo no observada).

Los autores creen que cuando se trata de una profundidad observada, la red aprende a interpolar en lugar de sintetizar una nueva profundidad en el agujero.

Este resultado experimental motivó que este artículo dividiera el método completo en dos pasos: ¡¡sistema de dos etapas++!!

Tenga en cuenta que en la Tabla 2, d aquí predice la profundidad a partir de la profundidad.

Tome Rel como ejemplo, no. 089

El autor cree que dado que la normal de la superficie solo representa la dirección de la superficie, es la mejor para predecir. Véase [31] para más detalles.

Y = = y no cambia con la profundidad, relativamente consistente en diferentes vistas = =

Tabla 2: Sí significa que hay B, no significa que no hay pérdida de peso, en comparación con 0,089

Son ¿Las normales de superficie con límite de oclusión == área ruidosa e inexacta? = =Figura 6

La segunda columna son los límites normales y de oclusión generados por la red, y la tercera y cuarta columnas de la segunda fila son la comparación de pesos con y sin límites. Las columnas 3 y 4 de la fila 1 son las normales de superficie calculadas a partir del mapa de profundidad de salida. Límites de oclusión = Proporciona información sobre discontinuidad de profundidad, lo que ayuda a mantener la claridad/nitidez de los límites = Ver mapas normales calculados a partir de la profundidad.

Figura 7

El eje horizontal de la imagen es el número de píxeles de la imagen que tienen profundidad (desenmascarados). La imagen de la izquierda muestra la precisión de la profundidad prevista para los píxeles observados y la imagen de la derecha muestra la precisión de la profundidad prevista para los píxeles no observables.

Obviamente, la precisión no observada es menor que el valor observado, pero siempre que haya una pequeña parte de la profundidad de entrada (==2000 profundidad solo representa el 2,5% de todos los píxeles =), esto se nota. Desde el punto de vista de que incluso otros diseños de sensores de profundidad con mediciones escasas también pueden producir predicciones más objetivas. = = No es necesario volver a entrenar la red (la entrada de la red es solo color) = = Pero las normales reales reales cuando se entrena la red provienen de la imagen de profundidad renderizada. Si solo estás haciendo una prueba, realmente no depende de la profundidad bruta.

Tabla 3

Los métodos de comparación en la tabla incluyen filtrado bilineal conjunto, solución bilateral rápida y optimización energética global consciente del borde.

Se encuentra que Rel es el más pequeño de todos los métodos.

La Figura 8 muestra una comparación con el filtrado bilineal conjunto.

Según los resultados que se muestran en la Figura 8, el límite del mapa de profundidad de este método es más preciso.

En comparación con el método de estimación de profundidad de color versus profundidad

Tabla 4

Todos los indicadores del artículo son los mejores, con un aumento del 23-40% . y representa la profundidad observada y N representa la profundidad no observada.

Esto también muestra que predecir normales también es un buen método para estimar la profundidad.

Tenga en cuenta que no solo la profundidad predicha es más precisa, sino que al comparar las normales de superficie calculadas, se puede ver que este método aprende mejor la geometría de la escena.

Construye un puente entre los mapas de color y los mapas de profundidad. ¡El puente de información es normal!

Evidentemente, estamos ante un juego que sacrifica tiempo por la calidad de la imagen.

1. La velocidad es muy lenta.

Para una imagen con una resolución de 320x256, se necesitan aproximadamente 0,3 segundos usando una GPU NVIDIA TITAN X. Aproximadamente 1,5 segundos en la CPU Intel Xeon de 2,4 GHz.

2. Confíe en hardware de alto rendimiento. Es difícil controlar los costos.

上篇: vistalizator no se puede abrir 下篇: Método de traducción

Completación de profundidad de una única imagen RGB-D

Artículos populares