La Red de Conocimientos Pedagógicos - Conocimientos matemáticos - Investigación sobre aplicación de búsqueda visual y modelo organizativo basado en big data

Investigación sobre aplicación de búsqueda visual y modelo organizativo basado en big data

Investigación sobre aplicaciones de búsqueda visual y modelos organizativos basados ​​en big data

Actualmente, la búsqueda visual se ha convertido en un tema de vanguardia en el campo de las ciencias de la información y se utiliza principalmente para analizar y estudiar atributos de entidades del mundo real. , comportamientos, eventos y recursos visuales de big data entre ellos. Con el objetivo de adquirir, organizar, describir y utilizar recursos visuales de big data, se estudia el mecanismo intrínseco de descubrimiento de valor e integración de recursos entre los recursos visuales y su información relacionada espacio-temporal.

Actualmente, la búsqueda visual se ha convertido en un tema de vanguardia en el campo de la ciencia de la información. Se utiliza principalmente para analizar y estudiar las reglas de desarrollo entre atributos, comportamientos, eventos y big data visuales de entidades del mundo real. recursos. Con el objetivo de adquirir, organizar, describir y utilizar recursos visuales de big data, estudiar el mecanismo intrínseco de descubrimiento de valor e integración de recursos entre los recursos visuales y su información relacionada espacio-temporal, resolver problemas de correlación multidimensional e integración colaborativa, y luego lograr Integración efectiva de recursos visuales de big data. Descubrimiento de conocimiento e interacción en tiempo real.

Con base en esto, este estudio parte del origen de la investigación de búsqueda visual desde la perspectiva de las ciencias de la información, describe su proceso de desarrollo, conceptos y características, discute varios temas claves en su investigación teórica y aplicada, y brevemente analiza sus últimos avances en investigación y aplicaciones.

1. El desarrollo y las características de la búsqueda visual en el entorno de big data

Haga la pregunta 1.1

La búsqueda visual no es un término nuevo. Apareció por primera vez. en psicología En el campo de la ciencia y la fisiología, se utiliza para describir el comportamiento de las personas al determinar la ubicación de un objetivo específico después de detectar si aparece en un área específica a través del canal visual. Por ejemplo, busque la ubicación de una universidad en el mapa, pida comida en la cafetería, busque libros en la estantería o busque personas en la biblioteca. En el mundo real, las personas a menudo necesitan utilizar la búsqueda visual en entornos físicos complejos para obtener información valiosa para decidir el siguiente paso del lenguaje y el comportamiento. Por lo tanto, la teoría de la búsqueda visual ha recibido una amplia atención por parte de psicólogos y factoristas humanos. Una gran cantidad de estudios se han centrado en la comprensión y expresión de la cognición visual humana y los mecanismos de retroalimentación fisiológica, y se ha resumido una gran cantidad de conocimientos teóricos y aplicados. Precisamente debido a la disponibilidad y eficacia de la búsqueda visual, muchos trabajos, industrias y campos son inseparables de este comportamiento fisiológico.

Con el desarrollo y la mejora continuos de teorías básicas relevantes y tecnologías clave, las aplicaciones de búsqueda visual tradicionales continúan desarrollándose hacia la informatización, la tecnología y la creación de redes. La gente se está enfrentando gradualmente a cómo transformar el comportamiento de búsqueda visual tradicional en un modelo de búsqueda visual de "lo que ves es lo que sabes". Al mismo tiempo, la rápida mejora del entorno de red, la tecnología de la información, el rendimiento informático, el espacio de almacenamiento, la escala de datos y las instalaciones de software y hardware también ha establecido una relación inseparable entre el mundo físico objetivo y el ciberespacio virtual, haciendo posible la realización de la tecnología de búsqueda visual. volverse posible. Las personas pueden recopilar fácil y rápidamente objetos visuales en el mundo físico objetivo y obtener información relevante de Internet.

1.2 Historia del desarrollo y tendencia de la búsqueda visual

En los últimos años, con la mejora gradual del entorno de big data y el rápido desarrollo de la tecnología de big data, ha habido cada vez más llamadas. para la integración de recursos visuales y la investigación de búsqueda visual. "Nature" y "Science" publicaron estudios especiales sobre big data en 2008 y 2011 respectivamente, proponiendo que las imágenes, los vídeos y la información sobre la interacción del usuario son componentes importantes del futuro big data. En 2009, académicos como Griod y Chandrasekhar de la Universidad de Stanford introdujeron la teoría de la búsqueda visual en el campo de la recuperación de información, propusieron conceptos como búsqueda visual y búsqueda visual móvil, celebraron el primer seminario de búsqueda visual móvil y realizaron investigaciones sobre su arquitectura, aplicación. y modelo de servicio discutido. En 2010, Norvig, exjefe del departamento de investigación tecnológica de Google, señaló en su monografía "2020Visions" publicada en la revista Nature que "la combinación de recursos visuales como texto, imágenes y videos, información de interacción del usuario e información sensorial La integración orgánica traerá enormes desafíos a los motores de búsqueda, y cómo integrar profundamente los resultados de búsqueda visuales se convertirá en el mayor desafío que enfrentará Google en los próximos 10 años". Ese mismo año, Gao Wen, Huang Tiejun y Duan de la Universidad de Pekín lo introdujeron en China y celebró la segunda conferencia de búsqueda móvil. El taller de búsqueda visual discutió sus tecnologías clave, arquitectura, métodos de organización y descripción de recursos visuales, estandarización de recursos visuales y construcción de bases de conocimiento visual. En 2012, esta teoría y tecnología fueron rápidamente aceptadas por la Federación Informática de China, que creía que el modelo de recuperación de información que combina la búsqueda visual con la tecnología de realidad aumentada será una nueva generación de paradigma de servicios de Internet después de los motores de búsqueda.

Posteriormente, Zhang Xingwang, Zhu Qinghua y otros intentaron introducirlo en el campo de las bibliotecas digitales y realizaron investigaciones sobre teorías y modelos de aplicación relacionados.

A juzgar por la trayectoria de desarrollo de la investigación de búsqueda visual, la investigación nacional sobre búsqueda visual todavía se encuentra en la etapa de exploración y prueba. La trayectoria de la investigación ha abarcado básicamente el proceso de prueba teórica inicial y está entrando en la tecnología de mediano plazo. y etapa de exploración de aplicaciones. Especialmente en 2011, el Ministerio de Ciencia y Tecnología de mi país lanzó el Programa Nacional Clave de Investigación y Desarrollo Básico (Programa "973") "Teoría y métodos de computación multimedios para la seguridad pública" para estudiar los métodos unificados de representación y modelado, relacionales. razonamiento y profundidad de los recursos visuales multimedios Después de explorar cuestiones científicas clave como la minería, la búsqueda integral y la síntesis de contenido, la investigación nacional relacionada ha entrado en una etapa de rápido desarrollo. Desde 2015, la importancia y necesidad de la teoría de la búsqueda visual y la investigación de aplicaciones se han vuelto más prominentes. El "Plan de acción para promover el desarrollo de Big Data" emitido por el Consejo de Estado en septiembre de 2015 propuso aprovechar al máximo los Big Data, mejorar la capacidad de adquirir y utilizar recursos de datos de dominio y promover la integración de diversos datos y recursos. Las "Opiniones orientativas sobre la promoción activa de la acción "Internet +"" emitidas por el Consejo de Estado en julio de 2005 proponían "construir una biblioteca masiva de recursos de capacitación que incluya voz, imágenes, video, mapas y otros datos, fortalecer los recursos básicos de inteligencia artificial, Construcción de plataformas innovadoras como los servicios públicos”. El Programa Nacional de Investigación Principal de Ciencias Naturales "Investigación sobre la gestión y la toma de decisiones basadas en Big Data" cree que "el mecanismo de generación y las reglas de transformación del valor de Big Data dependen en gran medida del campo de aplicación". En los "Proyectos clave de computación en la nube y Big Data" publicados por el Ministerio de Ciencia y Tecnología en 2016, se enumera claramente como uno de los contenidos clave de la investigación que se requiere para realizar investigaciones sobre modelado semántico visual y espaciotemporal de objetos visuales. posicionamiento y búsqueda, y tecnología de asociación de datos entre escenas.

1.3 Búsqueda visual Objetos de investigación y características de los recursos de big data visual

La investigación sobre búsqueda visual se ha convertido gradualmente en una importante tendencia de investigación en el campo de la recuperación de información. Hasta ahora, la definición de búsqueda visual no ha formado una comprensión unificada, pero desde la perspectiva de la recuperación de información, la comprensión general de todos se refiere a la recuperación de recursos visuales en el mundo físico objetivo y la adquisición de información relevante a través de Internet. Un método de recuperación de información. Toma los recursos de big data visual y la información relacionada como objeto de investigación, toma los métodos de adquisición, análisis, organización, comprensión y expresión de los recursos de big data visual como el contenido principal de la investigación, utiliza la tecnología y los métodos de la información como el principal medio de investigación y descubre los recursos visuales de big data. Campos de frontera integrales y aplicados donde los principales objetivos de la investigación son explorar el valor del conocimiento contenido en los recursos de datos y ampliar sus capacidades de utilización. Dirigido principalmente al análisis y utilización de recursos de visualización masivos, heterogéneos, dinámicamente desordenados y en rápida evolución en el entorno actual de big data, centrándose en cómo aprovechar al máximo la tecnología de la información en rápido desarrollo para resolver la comprensión y expresión de los recursos visuales de big data. Y cómo realizar de manera efectiva la búsqueda de visualización, y cómo utilizar la tecnología de búsqueda visual para descubrir nuevos conocimientos a partir de recursos masivos de big data visual.

No hay duda de que el futuro es una era de sabiduría (o "Internet+"). El rápido desarrollo de teorías y aplicaciones como la tierra inteligente, las ciudades inteligentes y las bibliotecas inteligentes ha proporcionado teorías y aplicaciones. Investigación sobre búsqueda visual Con el rápido aumento en la escala de datos derivados de Internet plus), el texto, las imágenes, el audio y el video, la información de interacción del usuario y diversa información sensorial se convertirán en la corriente principal del "océano de datos", y estos. Fuentes de datos 80 Más del % provienen del canal visual humano. En esta etapa, la búsqueda visual puede ser el medio más importante para captar el desarrollo futuro de los servicios de conocimiento y recuperación de información en la era "Internet +".

Los recursos visuales de big data incluyen información espacio-temporal compleja, desordenada y dinámica, como texto, imágenes, audio y vídeo, y registros de visualización de usuarios, lo que los convierte en el portador de información más rico de las bibliotecas digitales y se convertirá en el más rico. importante medio de expresión y difusión de información en la era "Internet +". La búsqueda visual toma los recursos visuales de big data como objeto de investigación. Dado que las entidades de conocimiento y los valores de conocimiento en el antiguo espacio de conocimiento tienen sus propias características en tiempo, espacio y atributos, la búsqueda visual también presenta un desorden complejo, cambios dinámicos y espacio-temporales. correlación semántica, también es necesario estudiar la expresión formal, la organización sistemática, la descripción estructurada y los métodos de análisis de correlación espacio-temporal de los recursos visuales de big data.

Se puede saber que los recursos visuales de big data tienen principalmente las siguientes características:

Los recursos visuales de big data incluyen texto, imágenes, videos, información de visualización del usuario, información de interacción del usuario y otra información espaciotemporal, que contiene el contenido de Los objetos visuales y las cosas y los procesos de eventos están relacionados temporal o espaciotemporalmente en el tiempo, el espacio y la semántica.

Los recursos de big data visualizados tienen las características de asociación semántica espaciotemporal, cambio dinámico, gran escala de datos y estructura compleja. Estos cambios dinámicos basados ​​en objetos visuales, contenido de cosas y procesos de eventos se pueden expresar y describir utilizando asociaciones semánticas espaciotemporales, y sus procesos de adquisición, organización y descripción se pueden expresar en lenguaje de máquina. A través del mapeo de asociación semántica entre objetos visuales, contenidos de cosas y procesos de eventos, se puede establecer la asociación semántica espaciotemporal de recursos visuales de big data.

Los recursos visuales de big data tienen las características de gran escala de datos, estructura compleja, diversos tipos, correlación de escala multidimensional y alta profundidad y latitud. De acuerdo con la relación semántica espaciotemporal de los recursos de big data visualizados, se puede establecer el mecanismo de asociación de escala correspondiente. Con el objetivo de la correlación espacio-temporal de recursos de big data visuales en diferentes escalas y diferentes profundidades y latitudes, se realiza la conversión de escala multidimensional y el restablecimiento entre objetos visuales, contenidos de cosas y procesos de eventos, realizando así un análisis de correlación semántica de big data visuales. recursos.

Los recursos visuales de big data pueden proporcionar recursos visuales, comprender el comportamiento de los objetos visuales, establecer un modelo de tendencia de desarrollo basado en la relación semántica espaciotemporal de los objetos visuales y predecir la aparición de algo específico en un momento determinado. a través de una organización, comprensión y descripción efectivas de posibles situaciones de comportamiento en una etapa.

Para la adquisición, organización, comprensión y descripción de recursos visuales de big data, se puede lograr la interacción y retroalimentación en tiempo real entre los usuarios y los recursos visuales de big data y la construcción de una base de conocimiento de objetos visuales. Basado en características de comportamiento similares, correlación espacio-temporal y resultados de interacción en tiempo real de objetos visuales, ayuda a las personas a crear, producir, operar y consumir nuevos recursos visuales para satisfacer las diversas necesidades de servicios de conocimiento de los usuarios de bibliotecas digitales.

2. Aplicación y modelo organizativo de la búsqueda visual en entorno big data.

Solo cuando se organicen, analicen, procesen e integren los recursos visuales de big data y se establezca una plataforma de búsqueda visual de biblioteca digital basada en campos específicos, se podrán proporcionar a los usuarios servicios de conocimiento de big data. Los modos de búsqueda visual en diferentes disciplinas y campos tendrán diferentes modos de adquirir, organizar, procesar e integrar recursos visuales de big data. Debido a esto, la mayoría de las aplicaciones actuales provienen de la perspectiva de los servicios de conocimiento y la recuperación de información, establecen plataformas de integración de recursos de big data visuales orientadas al dominio, administran y utilizan de manera efectiva recursos de big data visuales a través de la búsqueda visual y se basan en el conocimiento de disciplinas específicas. especialidades y campos. Las necesidades de servicio brindan servicios para satisfacer diversas necesidades de servicios de conocimiento de big data.

2.1 Modelo de aplicación de la industria de búsqueda visual basado en el aprendizaje profundo

La investigación de búsqueda visual tradicional utiliza principalmente métodos de anotación manual para anotar las características subyacentes de los recursos visuales y luego utiliza métodos de aprendizaje automático. problemas de brecha semántica, brecha heterogénea y asociación semántica entre recursos visuales. El método de integración y utilización de recursos visuales de big data basado en anotaciones manuales requiere que los anotadores tengan un rico conocimiento profesional y experiencia en aplicaciones industriales, lo que consume mucho tiempo y costos laborales y tiene baja precisión. A diferencia del método de anotación manual de características de recursos visuales, el aprendizaje profundo generalmente se basa en el entrenamiento de redes neuronales multicapa de características de recursos visuales, y luego aprende las características visuales para obtener una comprensión y descripción más razonable y diferenciada de las características visuales. Una gran cantidad de estudios han demostrado que las características visuales extraídas mediante métodos de análisis profundo han tenido éxito en campos de aplicación como clasificación y reconocimiento de imágenes, reconocimiento visual de escenas, monitoreo inteligente, reconocimiento de voz y construcción de gráficos de conocimiento. El método de segmentación y extracción de características destacadas de los recursos visuales puede extraer áreas de características destacadas en los recursos visuales simulando el sistema visual humano y el sistema cognitivo fisiológico. En la actualidad, el método de extracción de características de recursos visuales relativamente mejor tiene una precisión de detección de características significativa de aproximadamente el 95% y una precisión de segmentación de características de primer plano de casi el 92% en el conjunto de datos de recursos de big data visuales abiertos, y se ha utilizado en varios métodos a gran escala. proyectos en los últimos años. La escala de la competencia global de análisis y reconocimiento de recursos visuales sigue mejorando. Por ejemplo, en el Desafío de reconocimiento visual a gran escala (ILSVRC), el equipo de investigación de Google utilizó una red convolucional profunda mejorada Google Net para aumentar la precisión del reconocimiento de imágenes al 93%. El equipo de Google ganó el primer premio en el Microsoft Image Caption Generation Challenge (MS COCO ICC) utilizando un método de extracción de características de imagen basado en un análisis profundo.

La Universidad Tecnológica de Sydney, la Universidad Carnegie Mellon, Microsoft Research Asia y la Universidad de Zhejiang combinaron métodos de análisis profundo con las características de movimiento de los objetos visuales para identificar el movimiento de los recursos visuales, y ganaron respectivamente los tres primeros.

Los resultados teóricos de la investigación académica tradicional a menudo tardan mucho en desarrollarse antes de que puedan madurar gradualmente y entrar en aplicaciones industriales prácticas. Pero ya sea que se trate de aprendizaje profundo o de búsqueda visual, existen modelos teóricos de ingeniería sólidos. Por un lado, si bien son estudiados por el mundo académico, también han atraído la atención y los intentos de la industria, por otro lado, porque el campo industrial (como Google, Baidu, Microsoft, etc.) ha tenido imágenes a gran escala durante mucho tiempo; recursos de big data y ha estado activo en las fronteras de la investigación en múltiples campos de las ciencias de la información, tienen ventajas sobre la academia en muchas áreas. Por ejemplo, Knowledge Graph de Google, Google Now y los mapas de Google Street View, Cortana, el asistente de voz de Microsoft, Brain de iQiyi y la búsqueda de gráficos de Facebook son casos de aplicación clásicos de la búsqueda visual industrial. De hecho, las principales empresas industriales extranjeras, como Google, Facebook y Microsoft, no solo han investigado mucho sobre la búsqueda visual, sino que incluso han establecido internamente instituciones de investigación especializadas. Baidu, Huawei, Tencent y Alibaba también son excepciones. .

2.2 Modelo de servicio de conocimiento de búsqueda visual basado en computación del conocimiento

Un propósito importante del estudio de la teoría y la aplicación de la búsqueda visual en el campo de las bibliotecas digitales es proporcionar servicios integrados para investigadores en Universidades e instituciones de investigación científica. Servicios de conocimiento colaborativo. La plataforma de búsqueda visual de la biblioteca digital incorpora recursos visuales masivos de big data y las funciones de organización, análisis y procesamiento de los recursos visuales de big data proporcionados por la plataforma en el proceso del servicio de conocimiento.

La integración y utilización de recursos visuales de big data es un punto de investigación en el campo de la inteligencia artificial y la recuperación de información en el país y en el extranjero, y tiene perspectivas de aplicación e investigación muy amplias. De hecho, como rama de investigación de la búsqueda visual, en los últimos años, muchas personas (como el ingeniero superior de la Academia China de Ciencias, Gao Wen Huang Tiejun de la Universidad de Pekín, Zhu Qinghua de la Universidad de Nanjing) e instituciones (como la Universidad de Zhejiang , Tsinghua, Universidad de Pekín, Academia China de Ciencias de la Computación, etc.). ) y empresas (como iQiyi, Baidu, Tencent, 360, Sogou, etc.) están realizando investigaciones relacionadas. El Instituto de Tecnología de Massachusetts, la Universidad de California en Berkeley, la Universidad de Illinois y la Universidad de Oxford en el Reino Unido. Anteriormente y desarrollado correspondiente Un sistema de búsqueda de imágenes basado en el contenido de la imagen.

En todas las investigaciones relacionadas mencionadas anteriormente, hay una característica de investigación típica: el propósito de la investigación es resolver el problema de aplicación de la búsqueda visual, y los modos de búsqueda visual correspondientes se basan principalmente en la computación del conocimiento. . Dado que los objetos que la búsqueda visual debe organizar, analizar y procesar incluyen principalmente texto, imágenes, videos y otros recursos visuales que contienen mucho valor, cómo obtener conocimientos valiosos a partir de recursos visuales de big data se ha convertido en un punto de investigación en el mundo académico extranjero. e industria. Una base de conocimiento que tiene como objetivo explorar el conocimiento rico y complejo contenido en los recursos visuales de big data se denomina base de conocimiento de objetos visuales. Actualmente, existen no menos de 60 tipos de bases de conocimiento basadas en recursos visuales como texto, imágenes, audio y videos, y existen cientos de casos de aplicaciones específicas y plataformas de sistemas basadas en estas bases de conocimiento de objetos visuales. Entre ellos, los casos de aplicación típicos incluyen la dbpedia de Wikipedia (la versión 2014 contiene 87.000 películas, 123.000 registros, 450.000 objetos, etc.), el gráfico de conocimiento de Google (incluidos puntos de referencia, ciudades, nombres, edificios, películas, arte, etc.) y 500 millones de resultados de búsqueda. entidades como productos y 35 mil millones de elementos de conocimiento relacionados), la búsqueda gráfica de Facebook (incluidos 100 millones de usuarios, 240 mil millones de imágenes, 100 millones de páginas vistas, etc.).

Con la ayuda de teorías y tecnologías relevantes de La búsqueda visual y la investigación de recursos visuales de big data masivos, heterogéneos y diversos no solo pueden enriquecer la extensión y la connotación de la recuperación de información, sino también resolver eficazmente los problemas de "big data, poco conocimiento" que enfrentan actualmente las bibliotecas digitales ", menos servicios. "El cuello de botella tiene cierto valor de aplicación y significado práctico.

2.3 Modelo de organización de asociación de contenido visual basado en análisis semántico

A partir de la investigación existente, la mayoría de los objetos de investigación de la búsqueda visual se centran en texto e imágenes, entre los cuales la búsqueda de imágenes es la más importante. popular entre los académicos. La investigación sobre búsqueda visual se puede dividir en tres etapas: En primer lugar, la búsqueda de imágenes basada en texto/metadatos, que comenzó a finales de los años 1970. Este método describe principalmente la imagen mediante la anotación manual de metadatos y realiza la función de recuperación de información de la imagen. Las desventajas son que la anotación de metadatos requiere mucho tiempo y es laboriosa, los estándares de descripción y el contenido de comentarios están incompletos y pueden ser fácilmente demasiado subjetivos. En segundo lugar, en la década de 1990 se propusieron métodos de búsqueda de imágenes basados ​​en contenido visual.

La esencia de este método es comparar la similitud de la imagen construyendo manualmente las características visuales subyacentes de la imagen y luego realizar la búsqueda de imágenes. La desventaja es que la brecha semántica entre las características visuales de bajo nivel de la imagen y la semántica de alto nivel no está bien resuelta. El tercer tipo es el método de búsqueda de imágenes basado en el aprendizaje profundo propuesto a principios del siglo XX. Las redes sociales y el contenido generado por los usuarios se han convertido en importantes fuentes de datos web. El uso de etiquetas de usuario para organizar, expresar y comprender la semántica de imágenes se ha convertido en la corriente principal de la investigación y los métodos de aprendizaje profundo se han integrado en campos relacionados.

En comparación con la búsqueda de imágenes, la representación y el análisis de vídeos es un área de investigación relativamente nueva en la búsqueda visual. El vídeo consta de una gran cantidad de fotogramas de imágenes. Existen estrechas correlaciones espaciotemporales y semánticas entre los fotogramas de imágenes, lo que requiere una alta tecnología de búsqueda visual. Sin embargo, debido al éxito del aprendizaje profundo en el campo de la búsqueda de textos e imágenes, los académicos han comenzado a utilizar marcos de aprendizaje profundo para organizar, comprender y describir videos, especialmente en los aspectos clave de la extracción de características de video. : Primero, fotogramas clave estáticos de vídeo Descripción característica. Dado que el vídeo se compone de una gran cantidad de fotogramas de imagen en secuencia temporal y asociación semántica, se pueden utilizar métodos de aprendizaje profundo para conocer las características de los fotogramas de vídeo estáticos (es decir, fotogramas clave de imagen). En aplicaciones específicas, una vez que se determina un método razonable de codificación y extracción de fotogramas clave estáticos, también se puede formar un buen efecto de descripción de video. El segundo es la descripción de las características de temporización dinámica del vídeo. Algunos académicos han propuesto el método de trayectoria densa para analizar videos y lograron buenos resultados. El tercero es la combinación orgánica de los dos primeros métodos. Simonyan y otros de la Universidad de Oxford propusieron utilizar redes neuronales profundas espaciotemporales para analizar vídeos. La entrada de video original en el eje temporal se usa para identificar objetos visuales en el video, y la entrada del campo de correlación temporal en el eje espacial se usa para identificar el movimiento y la trayectoria de los objetos visuales en el video.

Actualmente existen un gran número de concursos nacionales y extranjeros para el análisis y expresión de contenidos visuales. Por ejemplo, el concurso THUMOS organizado por la Universidad de Florida en 2013 analizó y comprendió los recursos visuales heterogéneos y desordenados en conjuntos de datos visuales masivos. Desde entonces, cada año se han llevado a cabo investigaciones relevantes. Muchas universidades e instituciones de investigación nacionales y extranjeras, incluidas la Universidad de Tsinghua, la Universidad de Zhejiang, la Universidad China de Hong Kong, la Universidad Carnegie Mellon y la Universidad Tecnológica de Sydney, participaron activamente en esta competencia. El concurso TRECVID organizado por el Instituto Nacional de Estándares y Tecnología en 2011 estudió el problema del monitoreo de eventos en recursos visuales complejos en conjuntos de datos visuales a gran escala. En los últimos años, el concurso ha realizado investigaciones relevantes sobre este tema. Muchas universidades nacionales, como la Universidad de Fudan, la Universidad de Zhejiang, el Instituto de Tecnología de Beijing, la Universidad de Tongji, etc., también han logrado ciertos resultados en este concurso.

En la actualidad, aunque existen muchos resultados de investigación en la organización, análisis, comprensión y utilización de recursos de big data visual, el objetivo final de estos resultados es aplicarlos a la búsqueda visual. En los últimos años, una serie de estudios han jugado un papel positivo en la búsqueda visual y su aplicación y promoción en diversas industrias y campos, lo que es una señal positiva para el campo de las bibliotecas digitales.

Cinco cuestiones centrales en la investigación de búsqueda visual en los tres principales entornos de datos

Aunque la búsqueda visual ha atraído gran atención por parte de la industria y el mundo académico (incluidas las bibliotecas digitales), actualmente se encuentra en It no se ha utilizado ni promocionado ampliamente en China, principalmente porque las tecnologías y productos de aplicaciones relacionados aún no están completamente maduros y existen problemas como un rendimiento de búsqueda visual insatisfactorio o inestable, una mala experiencia de usuario y fuertes limitaciones de la aplicación. En torno a estas cuestiones, es necesario resolverlas desde las perspectivas teóricas y técnicas básicas de la investigación en búsqueda visual. Desde la perspectiva del proceso de construcción del modelo de búsqueda visual de la biblioteca digital [1], la investigación de búsqueda visual incluye principalmente cinco temas centrales, que se describen en detalle a continuación.

Métodos de adquisición visual y organización de recursos big data. La forma de existencia de recursos visuales de big data en el entorno de Internet es dinámica, desordenada, heterogénea y discreta, y la producción y liberación de recursos visuales es dinámica. El contenido de información contenido en los recursos visuales contiene muchos temas de información heterogéneos y complejos, y existen relaciones semánticas espaciotemporales entre ellos. Sin embargo, los métodos tradicionales de anotación de recursos visuales basados ​​en anotaciones manuales a menudo no son lo suficientemente precisos. Por lo tanto, cómo obtener rápidamente los recursos visuales necesarios es una cuestión clave en las aplicaciones de búsqueda visual. La limpieza y el filtrado de recursos visuales no relacionados con los objetos visuales que se van a buscar, así como la organización efectiva de los recursos visuales de big data, son cuestiones centrales en las aplicaciones de búsqueda visual.

Métodos para comprender y expresar recursos visuales de big data.

Para encontrar recursos visuales que sean consistentes con el objeto a buscar en los recursos visuales masivos de big data, es necesario partir del análisis característico y la comprensión de los recursos visuales a buscar, y realizar un análisis diversificado, estructurado, y comprensión y expresión profundas en varios niveles del contenido visual.

Métodos de integración e interacción de recursos visuales de big data. La búsqueda visual sirve a los usuarios como una forma de recuperación de información. El propósito de adquirir, organizar, comprender y expresar recursos visuales de big data es brindar a los usuarios servicios de conocimiento inteligentes y humanizados. Por lo tanto, cómo realizar un análisis multidimensional alrededor del ciclo de vida completo de la integración de recursos de big data visual para satisfacer las necesidades diversificadas de servicios de conocimiento de los usuarios para recursos de big data visual también es una cuestión central para saber si la investigación de búsqueda visual puede convertirse en una realidad.

Construcción y estandarización de base de conocimiento de objetos visuales. La búsqueda visual se basa en la construcción de una base de conocimiento de objetos visuales. Sobre la base de una base de conocimientos de objetos visuales de alta calidad, los usuarios pueden asociar rápida y eficazmente los objetos visuales que se buscarán con recursos de big data visuales en el espacio de información virtual, disfrutando así de los servicios de conocimiento de búsqueda visual proporcionados por la biblioteca digital. Al mismo tiempo, la estandarización es también la clave para la aplicación y promoción fluidas de las aplicaciones de búsqueda visual.

Una teoría de la seguridad y confiabilidad de los sistemas de búsqueda visual. En cualquier momento, la seguridad de la red y la confiabilidad del sistema son siempre problemas inevitables, y la búsqueda visual no es una excepción. En el sistema de búsqueda visual, la seguridad de los datos y los derechos de propiedad intelectual, la privacidad del usuario, la disponibilidad y confiabilidad del sistema también son cuestiones fundamentales para determinar si la búsqueda visual se puede promover y aplicar de manera efectiva.

4 Resumen y perspectivas

En la era "Internet +", los servicios de información están penetrando cada vez más las necesidades de los usuarios de servicios de conocimiento inteligentes, personalizados e integrados. El campo de la biblioteca es digital. empezando a exigir un nuevo modelo espectacular de recuperación de información. La búsqueda visual es una frontera importante y un avance innovador en el campo actual de la recuperación de información. Sobre la base de absorber plenamente los resultados de la investigación avanzada en el campo de las ciencias de la información en el país y en el extranjero, se espera que la realización de investigaciones teóricas y aplicadas básicas sobre la búsqueda visual en bibliotecas digitales no sólo enriquezca teóricamente las ideas de investigación y el marco de desarrollo futuro de la biblioteca digital. servicios de conocimiento, pero también será beneficioso para revelar el mecanismo de generación y las reglas de transformación del valor de los recursos visuales de big data en las bibliotecas digitales.

No hay duda de que la humanidad avanza hacia la “era Internet+”. Como innovación tecnológica y conceptual, la búsqueda visual debe cumplir con las leyes básicas de supervivencia, desarrollo y madurez de la tecnología de la información general. Debe pasar por seis etapas: la etapa incipiente del nacimiento de la tecnología, la etapa de desarrollo de rápido progreso y la etapa de desarrollo del rápido progreso. la etapa máxima de rápida expansión y desespumante la etapa de depresión, la etapa brillante de desarrollo constante y la etapa máxima de aplicación práctica. En la actualidad, la investigación de búsqueda visual existente en el país y en el extranjero se encuentra en la etapa de desarrollo, y aparece un desequilibrio entre disciplinas después de la intersección de la teoría y la tecnología. En la actualidad, la investigación sobre la teoría, los métodos y la tecnología de la búsqueda visual se centra principalmente en la aplicación de la búsqueda visual comercial, mientras que se presta menos atención al campo académico que genera recursos de big data visual. De hecho, los recursos visuales de big data representados por campos académicos como la investigación científica y los servicios temáticos tienen ricas connotaciones y características únicas que son diferentes de las aplicaciones comerciales. Sólo dominando de manera integral la investigación relevante en aplicaciones comerciales y campos académicos podremos ayudar a establecer un sistema teórico y un marco de aplicación de búsqueda visual más científicos, sistemáticos y razonables.