[CVPR2020] Paper Translation Swaptext: transmisión de texto basada en imágenes en escenas
Imagínese poder intercambiar texto dentro de una imagen de escena manteniendo la fuente, el color, el tamaño y la textura de fondo originales durante unos segundos en lugar de pasar horas editando la imagen. En este trabajo, pretendemos lograr este objetivo reemplazando automáticamente el texto en las imágenes de la escena. El desafío principal del intercambio de texto es generar un texto visualmente realista que mantenga el mismo estilo que el texto original.
El intercambio o reemplazo de texto implica muchas situaciones, incluida la detección de texto, el reconocimiento de texto, la conversión de texto en carteles y otras aplicaciones creativas. El intercambio de texto es un método de aumento de datos muy útil para tareas de detección y reconocimiento de texto. Ha sido testigo del gran éxito de las redes neuronales profundas (DNN) en diversas tareas de visión por computadora, mientras que obtener una gran cantidad de imágenes de entrenamiento anotadas se ha convertido en un cuello de botella en el entrenamiento de modelos DNN. El método más simple y más utilizado es agregar imágenes de entrenamiento mediante transformaciones geométricas, como traslación, rotación y volteo. Recientemente, se han propuesto métodos basados en síntesis de imágenes [11, 7, 39] para entrenar modelos de detección y reconocimiento de texto. Estos métodos combinan diferentes técnicas de renderizado para simular el comportamiento físico de la luz y la energía para crear nuevas imágenes a partir de imágenes sin texto. Sin embargo, las imágenes sintéticas no se pueden integrar completamente con las imágenes de la escena, lo cual es muy importante cuando se utilizan imágenes sintéticas en el entrenamiento del modelo DNN.
En los últimos años, muchos modelos de generación de imágenes, como GAN [6], [17] y los modelos autorregresivos [25], han proporcionado herramientas potentes para tareas realistas de generación de imágenes. En [9, 38, 33], las GAN se utilizan para completar imágenes, lo que puede generar píxeles visualmente realistas y semánticamente razonables para las áreas faltantes. Estas redes se han utilizado para generar imágenes novedosas de personas en diferentes poses o vestimentas.
Nuestras contribuciones se resumen a continuación:
Síntesis de texto-imagen
La síntesis de imágenes ha sido ampliamente estudiada en la investigación de gráficos por computadora [4]. La síntesis de texto-imagen se estudia como un método de aumento de datos para entrenar modelos DNN precisos y robustos. Por ejemplo, Jaderberg et al. [11] utilizan un generador de palabras para generar imágenes de palabras sintéticas para tareas de reconocimiento de texto. Gupta et al. [7] desarrollaron un potente motor para generar imágenes de texto sintético para tareas de detección y reconocimiento de texto. El objetivo de la síntesis texto-imagen es insertar texto en regiones semánticamente sensibles de la imagen de fondo. Muchos factores afectan la verdadera similitud de las imágenes de texto sintetizado, como el tamaño del texto, la perspectiva del texto, la iluminación ambiental, etc. En [39], Zhanet et al. lograron la síntesis texto-imagen combinando consistencia semántica, atención visual y apariencia adaptativa del texto. Aunque la síntesis de imágenes de texto es visualmente realista, todavía existen muchas diferencias entre las imágenes sintetizadas y las imágenes reales. Por ejemplo, las fuentes de texto y las imágenes de fondo en imágenes sintéticas son muy limitadas en comparación con las imágenes reales.
Recientemente, se ha explorado más a fondo la tecnología de síntesis de imágenes basada en GAN. En [41], Zhan et al. propusieron una GAN de fusión espacial que combina un sintetizador de geometría y un sintetizador de apariencia para lograr una realidad sintética tanto en la geometría como en el espacio de apariencia. Yang et al. [36] utilizaron un marco de coincidencia de formas bidireccional para controlar los estilos clave de los glifos a través de parámetros ajustables.
GA-DAN [40] presenta un trabajo interesante que puede modelar desplazamientos entre dominios tanto en el espacio geométrico como en el espacio de apariencia. En [2], se propuso MC-GAN para lograr la conversión de estilos de fuente de conjuntos de letras de la A a la z. Wu et al. [34] propusieron una red de preservación de estilo entrenable de extremo a extremo para editar texto en imágenes naturales.
Producción de imágenes
Con el gran éxito de los modelos generativos (como GAN [6], [17] y los modelos autorregresivos [25]), la generación de imágenes vívidas y claras ha recibido un gran reconocimiento. atención en los últimos años. Los modelos generativos tradicionales utilizan GAN [6] o VAE [17] para asignar la distribución generada por el ruido Z a la distribución de datos reales. Por ejemplo, las GAN [6] se utilizan para generar rostros humanos reales [37, 3, 15] y pájaros [29].
Para controlar los resultados generados, Mirzaet et al [23] propusieron GAN condicional. Generarán números MNIST en las etiquetas de clasificación. En [12], Karacanet et al. generan imágenes realistas de escenas exteriores basadas en el diseño semántico y los atributos de la escena, como día y noche, días soleados y con niebla. Lassneretal [19]] genera imágenes de cuerpo completo del usuario a partir de fragmentos de cuerpo y ropa de grano fino. Un modelo completo puede condicionarse por la pose, la forma o el color. MA [21, 22] genera imágenes del cuerpo humano basadas en imágenes y poses. En [18], se propone un intercambio rápido de rostros que convierte la identidad de entrada en la identidad de destino preservando la pose, la expresión facial y la iluminación.
Completación de imágenes
Recientemente, los métodos basados en GAN han surgido como ejemplos prometedores de finalización de imágenes. Iizuka et al. [9] propusieron utilizar discriminadores globales y locales como pérdidas antagónicas, donde se mejora la coherencia tanto global como local. Yu et al. [38] utilizan capas de atención contextual para involucrar explícitamente la pintura de características relevantes en ubicaciones espaciales remotas. Wang et al. [33] utilizan una red de múltiples columnas para generar diferentes componentes de imagen en paralelo y utilizan la regularización MRF de diversificación implícita para mejorar los detalles locales.
Dada una imagen de texto de escena, nuestro objetivo es reemplazar el texto según la imagen del contenido Ic manteniendo el estilo original. Como se muestra en la Figura 2, nuestro marco consta de una red de intercambio de texto, una red de finalización en segundo plano y una red de fusión. La red de intercambio de texto primero extrae características de estilo de Is y características de contenido de Ic, y luego fusiona estas dos características a través de una red de autoatención. Para representar mejor el contenido, utilizamos Content Shape Transformation Network (CSTN) para transformar la imagen del contenido Ic de acuerdo con las propiedades geométricas de la imagen de estilo. La red de finalización de fondo se utiliza para reconstruir la imagen de fondo original Ib de la imagen de estilo Is. Finalmente, la red de fusión fusiona las salidas de la red de intercambio de texto y la red de finalización de fondo para generar la imagen de texto final.
En realidad, los ejemplos de texto vienen en muchas formas, por ejemplo, horizontales, direccionales o curvas. El objetivo principal de las redes de intercambio de texto es reemplazar el contenido de imágenes con estilo conservando el estilo original (especialmente la forma del texto). Para mejorar el rendimiento de la generación de imágenes de texto irregular, proponemos una red de transformación de forma de contenido (CSTN) para asignar la imagen del contenido a la misma estructura geométrica que la imagen de estilo y luego pasarla a través de tres capas convolucionales de muestreo descendente y varias capas residuales. El bloque de diferencia codifica la imagen de estilo y la imagen de contenido convertida. Para integrar completamente las características de estilo y contenido, las colocamos en una red de autoatención. Para la decodificación, se utilizan tres capas de deconvolución de muestreo ascendente para generar la imagen de primer plano If.
La definición de la forma del texto es muy importante para la conversión de la forma del contenido. Inspirándonos en la definición de forma de texto en los campos de detección de texto [20] y reconocimiento de texto [35], podemos usar 2 K puntos de referencia P = {p1, p2, ..., p2K} para definir los atributos de tamaño geométrico de texto, como el que se muestra en la Figura 3.
Después de codificar el contenido y las imágenes de estilo, alimentamos ambos mapas de características a la red de autoatención, y la red de autoatención aprenderá automáticamente la correspondencia entre el mapa de características de contenido Fc y el mapa de características de estilo Fs. . El mapa de características de salida es Fcs y la estructura de la red de autoatención se muestra en la Figura 5 (a).
Las características de contenido Fc y las características de estilo Fs se conectan primero a lo largo de sus ejes de profundidad. Luego, seguimos un mecanismo de autoatención similar en [42] para generar el mapa de características de salida Fcs.
Además de esta estilización de una sola etapa, también desarrollamos un proceso de estilización de varias etapas, como se muestra en la Figura 5(b). Aplicamos la red de autoatención a varias capas de entidades en secuencia para generar imágenes más realistas.
La red de intercambio de texto se centra principalmente en la generación de imágenes de primer plano, y las imágenes de fondo también juegan un papel importante en la generación de imágenes finales. Para generar imágenes de texto más realistas, utilizamos la red de finalización de fondo para reconstruir la imagen de fondo, cuya estructura se muestra en la Tabla 1. La mayoría de los métodos de finalización de imágenes existentes rellenan los píxeles de la imagen tomando prestada o copiando la textura del área circundante. La estructura general sigue la estructura codificador-decodificador, y utilizamos una capa convolucional extendida después del codificador para calcular los píxeles de salida con un área de entrada más grande. Al utilizar convoluciones dilatadas a resoluciones más bajas, el modelo puede "ver" efectivamente áreas más grandes de la imagen de entrada.
En esta etapa, las salidas de la red de intercambio de texto y la red de finalización de fondo se fusionan para generar una imagen de texto completa. Como se muestra en la Figura 2, la red de fusión sigue la estructura codificador-decodificador. De manera similar a [34], concatenamos los mapas de características decodificados de la red de finalización de fondo con los mapas de características correspondientes con la misma resolución en la etapa de muestreo superior del decodificador fusionado. Usamos Gfuse y Dfuse para representar las redes generadora y discriminadora respectivamente. La función de pérdida de la red de fusión se puede calcular de la siguiente manera:
Para producir imágenes más realistas, también seguimos la idea similar de la red de transferencia de estilo [5, 26] e introducimos el VGG. pérdida en el módulo de fusión. La pérdida de VGG se divide en dos partes, a saber, pérdida de percepción y pérdida de estilo, de la siguiente manera:
Seguimos una idea similar en [34] para generar pares de imágenes sintéticas con el mismo estilo. Utilizamos más de 1500 fuentes y 10 000 imágenes de fondo, generando un total de 10 000 imágenes de entrenamiento de leones y 10 000 imágenes de prueba. Las imágenes de entrada cambian de tamaño a 64×256 con un tamaño de lote de 32. Inicialice todos los valores de una distribución normal con pesos cero y una desviación estándar de 0,01. Todo el marco está optimizado con el optimizador Adam [16] con β1 = 0,9, β2 = 0,999. Establezca la tasa de aprendizaje en 0,0001 durante la fase de entrenamiento. Implementamos nuestro modelo bajo el marco Ten-sorFlow [1]. La mayoría de los módulos de nuestro enfoque están acelerados por GPU.
Evaluamos nuestro método propuesto en varios conjuntos de datos de referencia públicos.
Evaluamos nuestro método utilizando métricas comúnmente utilizadas en la generación de imágenes, que incluyen:
En esta sección, estudiamos empíricamente cómo las diferentes configuraciones del modelo afectan el rendimiento de nuestro marco propuesto. Nuestra investigación se centra principalmente en los siguientes aspectos: redes de transformación de forma de contenido, redes de autoatención y convoluciones dilatadas en redes de finalización de fondo. La Figura 6 ofrece algunos resultados cualitativos.
Red de autoatención
La red de autoatención se utiliza para combinar completamente características de contenido y características de estilo. Según la Tabla 2, el error l2 promedio disminuye aproximadamente 0,003, el PSNR promedio aumenta aproximadamente 0,3 y el SSIM promedio aumenta aproximadamente 0,012. Para utilizar más estadísticas globales de estilo y características de contenido, adoptamos una red de autoatención multicapa para integrar patrones globales y locales. Todas las mediciones se mejoran con la ayuda de redes de autoatención multinivel.
Convolución extendida
Las capas de convolución extendida pueden ampliar el área de píxeles de la imagen de fondo reconstruida, lo que facilita la generación de imágenes de mayor calidad. Como puede verse en la Tabla 2, la red de finalización en segundo plano de la capa convolucional extendida tiene un buen rendimiento en varios indicadores.
Para evaluar nuestro método propuesto, lo comparamos con dos métodos de intercambio de texto: pix2pix propuesto en [10] y SRNet propuesto por Wuet et al. Utilizamos el conjunto de datos generado para entrenar y probar ambos modelos. Según el artículo, ambos métodos mantienen la misma configuración.
Resultados cuantitativos
En la Tabla 2, presentamos los resultados cuantitativos de este método y otros dos métodos competitivos. Claramente, nuestro método mejora significativamente todas las métricas en todos los idiomas: el error l2 promedio se redujo en más de 0,009, el PSNR promedio aumentó en más de 0,9 y el SSIM promedio aumentó en más de 0,04. La segunda mejor manera.
La traducción basada en imágenes es una de las aplicaciones más importantes de la transferencia de estilos de texto arbitrarios. En esta sección, proporcionamos algunos ejemplos de traducción basados en imágenes, como se muestra en la Figura 7. Traducimos entre inglés y chino. De los resultados se puede ver que, independientemente de si el idioma de destino es chino o inglés, los colores, las deformaciones geométricas y las texturas del fondo se mantienen bien y la estructura de los caracteres es la misma que la del texto de entrada.
En la Figura 9, también mostramos algunos resultados de ejemplo del modelo evaluado en el conjunto de datos de texto de escena. Según la Figura 9, nuestro modelo puede reemplazar el texto en la imagen de entrada conservando la fuente, el color, el tamaño y la textura del fondo originales.
Nuestro enfoque tiene las siguientes limitaciones. Debido a la cantidad limitada de datos de entrenamiento, el espacio de atributos geométricos y el espacio de fuentes no se pueden utilizar por completo. Nuestro método propuesto falla cuando el texto en la imagen con estilo fluctúa, como se muestra en la Figura 8 (arriba). La Figura 8 (abajo) muestra un ejemplo fallido del uso de imágenes con estilo en WordArt.
En esta investigación, proponemos un marco robusto de intercambio de texto de escena, SwapText, para resolver la nueva tarea de reemplazar texto en imágenes de texto de escena con el texto deseado. Adoptamos una estrategia de divide y vencerás y dividimos el problema en tres subredes, a saber, red de intercambio de texto, red de finalización en segundo plano y red de fusión. En la red de intercambio de texto, las características de las imágenes de contenido y las imágenes de estilo se extraen simultáneamente y luego se combinan a través de una red de autoatención. Para aprender mejor la representación de imágenes de contenido, utilizamos Content Shape Transformation Network (CSTN) para transformar imágenes de contenido de acuerdo con las propiedades geométricas de las imágenes de estilo. La red de finalización de fondo se utiliza luego para generar imágenes de estilo de imagen de fondo de las imágenes del contenido. Finalmente, las salidas de la red de intercambio de texto y la red de finalización de fondo se envían a la red de fusión para generar imágenes más realistas y semánticamente consistentes. Los resultados cualitativos y cuantitativos en múltiples conjuntos de datos de texto de escenas públicas demuestran la superioridad de este método. En el futuro, exploraremos cómo generar imágenes de texto más controlables basadas en fuentes y colores.