La Red de Conocimientos Pedagógicos - Currículum vitae - ¿Cómo “entiende” el mundo la IA?

¿Cómo “entiende” el mundo la IA?

Cuando entras en una sala de exposiciones de ciencia y tecnología, el robot guía de IA te saluda con "atención" cuando entras en un supermercado no tripulado cuando tienes hambre, te recuerda amablemente el vendedor de IA; pregunta si necesitas bolsas de compras cuando ya no quieras conducir, llama a un coche autónomo y deja que un "conductor experimentado" te lleve... La IA nos abre una nueva "visión", pero la pregunta es: ¿Dónde están los "ojos" de la IA? ¿Cómo "comprende" el mundo paso a paso?

Para los humanos, "ver" es casi una habilidad innata: los bebés de unos meses sonríen cuando ven los rostros de sus padres, y todavía podemos reconocer algunos rostros bajo una luz tenue. Un amigo a diez metros. lejos. Nuestros ojos nos dan la capacidad de reconocernos unos a otros con sólo detalles mínimos. Sin embargo, esta habilidad que es "fácil" para los humanos es realmente difícil para las computadoras.

Porque para los humanos, el proceso de "ver" a menudo sólo ocurre en unas pocas décimas de segundo, y es casi un comportamiento completamente subconsciente, y rara vez sale mal (por ejemplo, cuando los humanos vemos un (Cuando miramos a un gato y a un perro, podemos decir inmediatamente que son perros y gatos, aunque tengan formas corporales similares). Para una computadora, una imagen es sólo una cadena de datos.

El rápido desarrollo de la tecnología de IA en los últimos años ha convertido la "visión por computadora" en uno de los subcampos de inteligencia artificial más candentes. El objetivo de la visión por computadora es replicar las poderosas capacidades de la visión humana.

Hay muchas células nerviosas de la retina en nuestro cerebro. Más de 4 mil millones de neuronas procesan nuestra información visual. La visión representa el 70% de la capacidad de las personas para percibir el mundo exterior, por lo que "ver" es lo que entendemos. las partes más importantes del mundo.

El cerebro humano puede procesar perfectamente esta serie de información visual para ayudarnos a comprender el mundo y emitir juicios. Cuando ves una foto de un perro, puedes conocer fácilmente el pelo del perro, su raza e incluso aproximadamente su altura y peso. No importa si la imagen es borrosa, ruidosa o con rayas, la IA será "estúpida".

¿Por qué sucede esto?

Porque remodelar la visión humana no es sólo un tema difícil, sino una serie de procesos entrelazados.

Las investigaciones creen que los humanos miran información semántica de nivel relativamente alto, como la forma del objetivo, mientras que las computadoras miran información detallada de nivel relativamente bajo, como la textura. En otras palabras, un "lobo con piel de oveja", los humanos y la IA tienen opiniones diferentes.

La arquitectura de red neuronal de la IA se desarrolla basándose en el sistema visual humano. Un equipo de científicos de la Universidad de Tübingen en Alemania llevó a cabo una serie de experimentos: utilizaron un método especial para "interferir" los píxeles de la imagen para reducirlos, y luego usaron esta imagen para entrenar una red neuronal para identificarlos posteriormente. imágenes que fueron interferidas por una "distorsión artificial", el sistema funciona mejor que los humanos, pero si la imagen se distorsiona de una manera ligeramente diferente (la distorsión parece igual para el ojo humano), el algoritmo es completamente impotente.

¿Qué ha cambiado exactamente? ¿Por qué se produce un cambio tan grande incluso si se añade una cantidad muy pequeña de ruido?

La respuesta es la textura. Cuando se agrega ruido a una imagen, la forma de los objetos en la imagen no se verá afectada, pero la arquitectura local se distorsionará rápidamente.

John Tsotsos, científico de visión por computadora de la Universidad de York en Toronto, señaló: "Los grupos de segmentos de línea están dispuestos de la misma manera, lo que constituye la textura".

Esto también muestra que existe una clara diferencia entre la "visión" de los humanos y la de las máquinas. Por supuesto, con el desarrollo de la tecnología, los algoritmos serán cada vez más precisos y la IA se acercará gradualmente a la visión humana.

1. El modelo de algoritmo es el "cerebro" de la IA

Si los humanos entienden el mundo a través del "cerebro inteligente", entonces el modelo de algoritmo es el "cerebro" de la IA.

El objetivo de la IA es crear y diseñar máquinas con inteligencia avanzada, cuyos algoritmos y tecnologías se basan en parte en resultados de investigaciones actuales sobre el cerebro humano. Las redes neuronales artificiales utilizadas por muchos sistemas de IA actualmente populares son redes neuronales que simulan el cerebro humano, establecen modelos simples y forman redes según diferentes métodos de conexión.

Es a través de datos y algoritmos complejos que las máquinas construyen modelos para ganar la capacidad de percibir y juzgar.

Estas redes pueden aprender igual que el cerebro humano, como aprender a reconocer patrones, traducir idiomas, aprender razonamiento lógico simple e incluso crear imágenes o formar nuevos diseños.

Entre ellas, el reconocimiento de patrones es una función especialmente importante. Debido a que el "reconocimiento" de los seres humanos se basa en su propia experiencia y conocimiento pasados, será difícil identificarlos una vez que se enfrenten a decenas de miles de caras desconocidas. La "característica principal" de la IA es procesar cantidades masivas de datos. Estas redes neuronales tienen millones de unidades y miles de millones de conexiones.

2. ¿Cómo puede la IA “copiar” los ojos humanos en alto grado?

La red neuronal es el "asistente derecho" en el procesamiento de imágenes. Como uno de los problemas centrales de la visión por computadora, la clasificación de imágenes es la tarea de asignar etiquetas a las imágenes de entrada. Este proceso a menudo es inseparable del aprendizaje automático y el aprendizaje profundo. En pocas palabras, la red neuronal es el modelo de aprendizaje profundo más antiguo y sencillo.

Muchos resultados de investigación sobre aprendizaje profundo son inseparables del estudio de los principios cognitivos del cerebro, especialmente el estudio de los principios visuales. Los premios Nobel de medicina David Hubel y Torsten Wiesel descubrieron que la estructura de la corteza visual humana es jerárquica.

Por ejemplo, cuando una persona mira un globo, el proceso de funcionamiento del cerebro es: el "globo" entra en la línea de visión (ingreso de señal); ciertas células de la corteza cerebral descubren el borde y la dirección de el "globo" (Procesamiento preliminar) - Determinar que el "globo" es redondo (abstracción) - Determinar que el objeto es un "globo" (abstracción adicional).

Entonces, ¿podemos utilizar esta característica del cerebro humano para construir una red neuronal multicapa similar? La capa de bajo nivel identifica las características principales de la imagen y varias características del nivel inferior forman la superior. -Características de nivel, y finalmente a través de una combinación de múltiples niveles, y finalmente hacer una clasificación en el nivel superior.

La respuesta es por supuesto que sí. Esta es la inspiración para la red neuronal convolucional (CNN), el algoritmo más importante en sistemas de aprendizaje profundo.

CNN tiene capa de entrada, capa de salida y varias capas ocultas. Algunas de las capas son convolucionales, lo que analiza los resultados y los pasa a capas sucesivas. Este proceso simula algunas acciones en la corteza visual humana.

Debido a esta característica, CNN es muy bueno procesando imágenes. Del mismo modo, el vídeo es una superposición de imágenes, por lo que es igualmente bueno para manejar contenido de vídeo. Tareas comunes en la vida, como la conducción autónoma, el reconocimiento facial, las presentaciones de fotografías y el procesamiento de videos, utilizan CNN.

El algoritmo clásico de clasificación de imágenes está diseñado en base a la potente CNN. Por ejemplo, una imagen de un gato es solo una cadena de datos para la computadora. En este momento, la primera capa de la red neuronal detectará el contorno del animal a través de características, y la segunda capa combinará estos contornos y los detectará. nuevamente para formar algunas formas simples, por ejemplo, las orejas, los ojos, etc. del animal, la tercera capa detecta las partes del cuerpo del animal compuestas por estas formas simples, como patas, cabeza, etc., y la última capa detecta la combinación de. estas partes para formar un gato completo.

Se puede ver que cada capa de la red neuronal detectará, analizará y juzgará las características de la imagen, y luego pasará los resultados a la siguiente capa de la red neuronal. De hecho, hay muchas situaciones más complejas en la vida que utilizar la profundidad jerárquica de las redes neuronales en este caso.

Para entrenar mejor la IA, se necesita una gran cantidad de datos de imágenes etiquetadas. La red neuronal aprende a asociar cada imagen con una etiqueta y también puede emparejar imágenes nunca antes vistas con etiquetas.

De esta manera, el sistema de IA puede ordenar varias imágenes e identificar elementos en las imágenes, eliminando la necesidad de ingresar etiquetas manualmente y permitiendo que la red neuronal aprenda por sí sola.

Para los sistemas de IA, manejar la percepción visual es tan importante como los ojos para los humanos. Precisamente por la importancia de la percepción visual para la IA, la visión por computadora (CV) se ha convertido en una ciencia que estudia cómo hacer que las máquinas "vean".

Sin embargo, muchas personas confunden fácilmente la visión por ordenador con la visión artificial (MV). Aunque tienen similitudes, todavía existen diferencias.

En comparación con la visión artificial, que se centra en el análisis cuantitativo, la visión por computadora se centra principalmente en el análisis cualitativo, como el reconocimiento de clasificación, esto es una manzana y aquello es un perro o la confirmación de identidad, como el reconocimiento facial; Reconocimiento de matrículas; o realizar análisis de comportamiento, como intrusión de personal, merodeo, reunión de multitudes, etc.

La visión por ordenador no se limita únicamente al nivel superficial de la percepción. Una gran cantidad de inteligencia avanzada es inseparable de la visión. Si las computadoras realmente pueden comprender escenas en imágenes, la verdadera inteligencia ya no estará muy lejos. Se puede decir que la visión por computadora en sí misma contiene cuestiones más profundas de inteligencia general.

A medida que la tecnología continúa madurando, los escenarios de aplicación de la visión por computadora son cada vez más extensos, desde los consumidores hasta las empresas, la tecnología de visión por computadora tiene un lugar en todos los campos principales. Como AR/VR, robots, coches sin conductor, coches autónomos, etc. para el mercado de consumo, análisis de imágenes médicas, videovigilancia, optimización del desarrollo inmobiliario, inserción publicitaria, etc., para el mercado empresarial.

Entre estos casos de aplicación que se han implementado, un problema que no se puede ignorar es que muchos proyectos se encuentran en etapa de prueba a pequeña escala. Las imperfecciones de las teorías relevantes han hecho que estos pioneros e innovadores enfrenten muchos desafíos. Por ejemplo, faltan conjuntos de datos a gran escala que puedan utilizarse para el entrenamiento de modelos de IA y es necesario superar obstáculos técnicos como el reconocimiento dinámico de imágenes y el análisis de vídeo en tiempo real.

En la actualidad, el procesamiento de imágenes de la IA no se limita a la clasificación de imágenes, sino también a la reparación de imágenes antiguas y dañadas por parte de la IA. Cuando miramos algunas películas clásicas y antiguas, a menudo nos resulta difícil aceptar su "alta calidad de desenfoque".

El uso de métodos tradicionales para restaurar estas películas de baja calidad no solo es lento, sino que además, si falta una gran parte de la imagen, los métodos tradicionales no pueden recuperarse.

Pero la IA es mucho más eficiente: puede completar detalles y mejorar la calidad de la imagen mediante el aprendizaje automático y el entrenamiento de modelos, luego usar redes neuronales para colorear y, finalmente, realizar la transcripción y el reconocimiento facial, que se pueden completar en. mediodía. Para las partes que faltan de la imagen original, la IA también puede "activar el cerebro" y utilizar su "imaginación" para complementar las partes que faltan.

¿Por qué la IA puede tener un nivel tan alto de "imaginación"? La razón fundamental radica en su capacidad de aprendizaje. Los algoritmos de aprendizaje profundo basados ​​en redes generativas adversarias (GAN) han demostrado que las tareas de visión por computadora tienen un gran potencial en la restauración de imágenes.

GAN es un modelo basado en CNN, y su característica es que su entrenamiento está en un estado de juego confrontativo.

A menudo utilizamos la metáfora de "jugadores y árbitros" para explicar los principios básicos de GAN.

En el fútbol, ​​algunos jugadores suelen "lanzarse" para confundir al árbitro y que sus acciones ofensivas o defensivas sean legales. El árbitro es responsable de averiguar las consecuencias que tendrán estas acciones faltas de los jugadores. en las sanciones correspondientes.

En el constante enfrentamiento entre jugadores y árbitros, el nivel de "flopping" de los jugadores es cada vez mayor, y el nivel de identificación del "flopping" del árbitro también es cada vez mayor.

Finalmente, un día, el nivel de "flopping" del jugador se volvió "competente" y engañó con éxito al árbitro. El árbitro ya no puede identificar si el jugador está "flopping" o "real". que el nivel del jugador se ha alcanzado hasta el punto de que es falso y real. Es mediante constantes intentos e identificación que los jugadores engañaron al árbitro y lograron su objetivo. Este es el principio básico de GAN.

La estructura principal de GAN incluye un generador (G) y un discriminador (D). En el ejemplo anterior, el jugador = generador y el árbitro = discriminador. El generador puede ser cualquier modelo que pueda generar imágenes. Del mismo modo, el discriminador, al igual que el generador, puede ser cualquier modelo discriminador.

Tomando como ejemplo la generación de imágenes, G genera aleatoriamente una imagen x, y se necesita D para determinar si es una imagen real, si D (x) representa la probabilidad de una imagen real. ) es 1, significa que 100 es real y si D(x) es 0, significa una imagen falsa. En un estado ideal, D no puede juzgar si la imagen generada por G es real.

D (x) es 0,5. Entonces, nuestro objetivo está logrado: después de obtener el modelo generativo G, podemos usarlo para. generar imágenes.

Por lo tanto, durante el proceso de entrenamiento, el objetivo de G es intentar generar imágenes reales para engañar a la red discriminante D.

El objetivo de D es intentar separar las imágenes generadas por G de las imágenes reales. Este es un proceso de "juego". De esta manera, no sólo puede colorear, sino también actualizar películas normales a películas de alta definición.

Una vez que la IA aprende esta técnica, puede reparar y reconstruir con precisión imágenes de baja resolución sin comparar las fotos originales. Antes de "colorear" la imagen, la IA la analiza, distingue objetos icónicos, como caras, automóviles y el cielo, y combina la información de color para colorearla.

De hecho, este proceso equivale a entrenar un programa para "imaginar" imágenes de baja calidad, y no es del todo posible lograr una recuperación de la imagen al 100%. En comparación con CNN, GAN utiliza un método de aprendizaje no supervisado para el entrenamiento.

Cabe mencionar que la función de GAN no se limita a colorear fotografías antiguas, sino que es útil en diversas tareas que implican la conversión de estilos de imágenes. Por ejemplo, generar y colorear automáticamente personajes de anime, convertir caballos en cebras, generar caras, componer música, etc. En resumen, GAN se utiliza ampliamente en los campos de generación, procesamiento y restauración de imágenes.

5. Las mejoras en interpretabilidad, robustez y seguridad permiten a la IA comprender mejor el mundo.

La IA está arrasando en todas las industrias como una de las principales puertas de entrada a la era de la IA. , la visión por computadora se está convirtiendo en el campo donde la IA tiene la mayor escala de implementación y las aplicaciones más extendidas. Los datos oficiales muestran que en 2016, el tamaño del mercado de visión por computadora de mi país era de solo 1,14 mil millones de yuanes. Para 2019, el tamaño del mercado de la industria de visión por computadora de China había aumentado a 21,96 mil millones de yuanes.

Para 2025, el mercado mundial de la visión por computadora crecerá de 1.100 millones de dólares en 2016 a 26.200 millones de dólares.

La investigación sobre tecnología de visión por computadora ha desencadenado un auge en la academia y la industria en el futuro, con la mejora de los algoritmos, las actualizaciones de hardware y la red de alta velocidad y los datos masivos que traerán 5G e Internet. La tecnología de las cosas, los datos y la tecnología de visión por computadora inevitablemente tendrán un mayor espacio para la imaginación. En el pasado, los humanos usaban sus ojos para "registrar" la magnífica historia. En el futuro, ¿podrá la IA realmente "observar" el mundo como los humanos?

Desafortunadamente, desde el punto de vista actual, aunque hemos creado muchas IA avanzadas que han superado a los humanos en un solo proyecto, estas máquinas todavía tienen capacidades limitadas y no pueden convertirse en un sustituto de los humanos. La IA que puede observar y pensar como los humanos no aparecerá pronto. Es difícil para la IA "ver" verdaderamente todo en el mundo como los humanos.

Aun así, no podemos negar que la interpretabilidad, robustez y seguridad de la IA mejoran constantemente. La IA nos ayudará a "comprender" cada vez más este mundo rico y colorido al completar más tareas de manera más eficiente y. De manera inteligente, los humanos y la IA trabajarán juntos para crear un mundo más colorido e inteligente.

Materiales de referencia

[2]MomozhongAI potencia la tecnología visual y tiene muchas oportunidades en los cinco principales mercados de aplicaciones, /publications/winwin-magazine/ai/computer-vision-see-world

[7] Microsoft Research Asia Computer Vision: Deje que las máquinas frías comprendan este colorido mundo, /zh-cn/news/features/computer-vision-20150210

[8] Zhou Komatsu Análisis del estado del mercado y las perspectivas de desarrollo de la industria de visión por computadora de China en 2020. La inteligencia artificial detona la visión por computadora blogs.com/charlotte77/p/7759802.html