Este artículo lo llevará en un viaje de detección visual de relaciones.
El reconocimiento de relaciones visuales es la base de la imagen. comprensión y se puede aplicar a
Desafío:
Este artículo clasificará los artículos relacionados con las relaciones visuales y dará una breve introducción. Lista de artículos:
El primer artículo es un artículo clásico que propone un conjunto de datos VRD y un modelo de predicción de relaciones combinado con lenguaje a priori.
Solo hay 13 tipos de frases visuales y el gráfico de escena tiene más de 20.000 relaciones, pero en promedio cada objeto tiene solo alrededor de 2 relaciones de predicado. Además de estos tres conjuntos de datos, también existe el famoso conjunto de big data del genoma visual, que contiene 99.658 imágenes y 19.237 relaciones, incluidos tipos de objetos, posiciones, atributos y relaciones entre objetos (gráfico de escenas), así como subtítulos y control de calidad. Aunque la cantidad de datos es grande, todavía hay algunos conjuntos de datos sin etiquetar; después de todo, hay muchas combinaciones.
Pensamiento: este artículo utiliza incrustaciones lingüísticas de palabras previas, lo cual es muy útil para la predicción. Sin embargo, el conocimiento previo puede hacer que las predicciones de relaciones tiendan a relaciones frecuentes e ignoren la información visual. Una solución es entrenar previamente el modelo de visión. Sin embargo, creo que la forma realmente razonable de integrar lo anterior no es la simple multiplicación (lo anterior puede ser engañoso), sino un punto de reflexión.
* *Movimiento:* *Este artículo está inspirado en el gráfico de conocimiento, que utiliza vectores de traducción para representar la relación entre entidades (consulte la representación de conocimiento de la serie Trans). En la relación visual, las características visuales del objeto se asignan a un espacio de relación de baja dimensión, y luego el vector de transferencia entre los objetos se usa para representar la relación entre los objetos, como persona + paseo = bicicleta. Como se muestra en la siguiente figura:
Entonces, para hacerlo cercano, es decir, similar, la función de pérdida es
En el experimento, el predicado basado en el conjunto de datos VRD se compara con Lu (44
Además de las comparaciones experimentales de estas tres tareas, también hay experimentos sobre recuperación de imágenes, detección de relaciones de disparo cero (no tan bueno como Lu) y análisis de importancia de características. Los experimentos también muestran que la tarea de detección de relaciones mejora la precisión de la tarea de detección de objetivos, pero de hecho, muy pocos
Para obtener más información, consulte el artículo original
Pensamiento. : Este artículo utiliza TransE para expresar la relación entre objetos y predicciones en el espacio de relaciones, y cómo asignarlo al espacio de relaciones Para expresar mejor la relación entre objetos o incluso predecir la relación, es un punto que vale la pena estudiar (por ejemplo). , combinando antecedentes lingüísticos, porque creo que su efecto no debería ser tan bueno como combinar antecedentes lingüísticos). p>
Este artículo es similar al anterior, tanto en
El marco general de el artículo es el siguiente:
Pensamiento: este también es un artículo sobre objetos proyectiles y otro artículo relacionado con el espacio, pero la tarea es ligeramente diferente y el efecto es mejor que el anterior. Arriba, la incrustación también es una dirección que se puede estudiar.
Este artículo utiliza gráficos de escena para construir objetos y sus relaciones en el modelo. > Lo más destacado de este artículo es utilizar información contextual y transmisión de mensajes para actualizaciones iterativas para predecir mejor las relaciones. Este es un nuevo método para predecir relaciones a nivel de capa de escena que se puede mejorar e incluso combinar con la incrustación. /p>
El principal aporte de este trabajo es obtener un esquema de factorización que produzca una información previa, es decir, la distribución previa de la relación entre dos objetos.
Esta distribución se obtiene mediante tensor. descomposición, específicamente:
(1) Construcción de tensor Tensorizar: tensor de relación, I, j es Los objetos, K, son relaciones, expresadas como una pila de matrices de relaciones K. Cada objeto de valor I, j tiene el número de relaciones K en el conjunto de datos. La representación tensorial puede reflejar las relaciones intrínsecas y la distribución de relaciones entre objetos.
Finalmente, BP entrenó la red SG y θ se estableció en 0,2. p>En el experimento, se compararon la detección de relaciones visuales de Lu basada en la prioridad del lenguaje y la generación de gráficos de escena de Xu basada en el paso iterativo de mensajes.
Pensamiento: este artículo obtiene la distribución previa de la relación. mediante descomposición tensorial, que es similar al lenguaje previo utilizado en el artículo "Detección de relaciones visuales con el lenguaje previo".
Utiliza la distribución previa de predicados para ajustar la relación predicha por la red y mejorar la capacidad de la tasa de aciertos cero. Sin embargo, creo que este método de ajuste de multiplicación directa es aproximado y se necesita una mejor manera de integrar la distribución previa y la distribución predicha intuitivamente.
Este es un artículo que utiliza información del contexto de la escena y la relación entre entidades para mejorar la detección de objetivos, y ofrece un ejemplo de detección de errores para ilustrar el papel del contexto:
La tarea de este El objetivo del artículo no es predecir relaciones, sino utilizar relaciones para eliminar la ambigüedad de objetos similares en relaciones. De hecho, se trata de localizar la ubicación de objetos en función de tuplas de relaciones. Por ejemplo, en la imagen de abajo, debes determinar quién está jugando al fútbol en la imagen y dónde.
Este artículo se centra primero en el objeto/sujeto y luego utiliza el núcleo de convolución del predicado para desviar la atención. El objeto y el sujeto deben combinarse.
Esto es lo que hizo el equipo de Li Feifei (su equipo hizo mucho trabajo relacionado con las relaciones, como artículos sobre lenguaje a priori, artículos sobre mensajería iterativa, etc.). oraciones y usar gráficos de escenas para expresar las relaciones/conexiones entre objetos en las oraciones. Este es un estudio muy interesante y debería ser el primer intento de utilizar gráficos de escenas para generar imágenes.
Las emociones generalmente incluyen múltiples objetos y descripciones de relaciones entre objetos, que son relativamente complejas. Como puede ver en la imagen de arriba, pasar directamente de oraciones a imágenes tiene malos resultados. Pero cuando analizamos oraciones en gráficos de escenas y luego generamos imágenes, podemos generar mejor una imagen para representar la relación entre objetos.
El método específico consiste en realizar aproximadamente una predicción de diseño basada en el gráfico de escena para predecir la posición del objeto y, finalmente, combinar el ruido con la red de generación para generar la imagen. No entraré en detalles aquí. Enumeremos los resultados finales.
Se puede ver que la posición del objeto es básicamente la correcta, pero la calidad de la imagen generada no es muy alta y todavía hay mucho margen de mejora.
Este artículo es un artículo de Arxiv de julio de este año, que utiliza la relación entre objetos y atributos de objetos en imágenes para realizar tareas de control de calidad. La minería de relaciones obtiene una serie de hechos relacionados: relaciones y atributos de objetos basados en imágenes y preguntas, luego se centra en los hechos requeridos y finalmente combina características visuales para obtener la respuesta final.
Pensamiento: este método de extracción de hechos proporciona información semántica de alto nivel para el control de calidad y también está en línea con el pensamiento humano. En comparación con el método que examiné antes (un artículo le lleva a comprender VQA), podemos considerarlo como un complemento al conocimiento. En enfoques anteriores, sólo había conocimiento adicional en forma de clases, información de atributos o texto. En este artículo, el método tiene más detección de relaciones y utiliza la red para extraer semántica de alto nivel para responder preguntas, lo cual es más interpretable que realizar el aumento de datos directamente. Sin embargo, en el artículo no se utiliza la atención ascendente, que es un área que creo que se puede mejorar.
En este punto, deberíamos tener una comprensión general y una cosecha de las cuestiones relacionadas y los métodos de relaciones visuales. Si tiene alguna pregunta o idea, comparta y aprenda juntos.