La Red de Conocimientos Pedagógicos - Conocimientos históricos - ¿Qué son el aprendizaje profundo y la visión artificial?

¿Qué son el aprendizaje profundo y la visión artificial?

El marco del aprendizaje profundo, especialmente el marco basado en redes neuronales artificiales, se remonta a la nueva máquina cognitiva propuesta por Bunyan Fukushima en 1980, y las redes neuronales artificiales tienen una historia más larga. En 1989, Yann LeCun y otros comenzaron a aplicar el algoritmo estándar de retropropagación [3] propuesto en 1974 a redes neuronales profundas para el reconocimiento de códigos postales escritos a mano. Aunque el algoritmo se puede implementar con éxito, el costo computacional es muy grande y el tiempo de entrenamiento de la red neuronal alcanza los 3 días, por lo que no se puede poner en práctica [4]. Muchos factores contribuyen a este lento proceso de entrenamiento, uno de los cuales es el problema del gradiente evanescente propuesto por Sepp Hochreiter, alumno de Jürgen Schmidhuber, en 1991 [5][6]. Al mismo tiempo, las redes neuronales fueron desafiadas por otros modelos más simples, como las máquinas de vectores de soporte, que se convirtieron en el algoritmo de aprendizaje automático más popular en los años 1990 y principios de los 2000.

El concepto de “aprendizaje profundo” comenzó a llamar la atención alrededor del año 2007. En ese momento, Geoffrey Hinton y Ruslan Salakhutdinov propusieron un algoritmo de entrenamiento eficaz en redes neuronales directas. En este algoritmo, cada capa de la red se trata como una máquina de Boltzmann restringida y no supervisada y luego se optimiza utilizando un algoritmo de retropropagación supervisada [7]. Antes de 1992, en un caso más general, Schmid Huber también propuso un método de entrenamiento similar en redes neuronales recurrentes y demostró en experimentos que este método de entrenamiento puede mejorar efectivamente la velocidad de ejecución del aprendizaje supervisado [8] [9].

Desde la llegada del aprendizaje profundo, se ha convertido en parte de una variedad de sistemas líderes en muchos campos, especialmente en visión por computadora y reconocimiento de voz. Los experimentos con conjuntos de datos de prueba comunes como TIMIT en reconocimiento de voz e ImageNet y CIFAR 10 en reconocimiento de imágenes han demostrado que el aprendizaje profundo puede mejorar la precisión del reconocimiento.

Los avances en el hardware también son un factor importante para que el aprendizaje profundo recupere la atención. La aparición de procesadores gráficos de alto rendimiento ha mejorado enormemente la velocidad de las operaciones numéricas y matriciales y ha acortado significativamente el tiempo de ejecución de los algoritmos de aprendizaje automático [10][11].

Conceptos básicos[editar]

La base del aprendizaje profundo es la representación distribuida en el aprendizaje automático. La dispersión se refiere al hecho de que se supone que las observaciones resultan de la interacción de diferentes factores. Sobre esta base, el aprendizaje profundo supone además que este proceso interactivo se puede dividir en múltiples niveles, que representan múltiples niveles de abstracción de observaciones. Se pueden utilizar diferentes capas y niveles para diferentes niveles de abstracción [1].

El aprendizaje profundo utiliza esta idea de abstracción jerárquica para aprender conceptos de nivel superior a partir de conceptos de nivel inferior. Esta estructura jerárquica a menudo se construye capa por capa utilizando un algoritmo codicioso para seleccionar características más efectivas que sean útiles para el aprendizaje automático [1].

Muchos algoritmos de aprendizaje profundo vienen en forma de aprendizaje no supervisado, por lo que estos algoritmos se pueden aplicar a datos sin etiquetar que otros algoritmos no pueden alcanzar. Estos datos son más ricos y más fáciles de obtener que los datos etiquetados. Esto también brinda importantes ventajas al aprendizaje profundo [1].

Aprendizaje profundo bajo redes neuronales artificiales[editar]

Algunos de los métodos de aprendizaje profundo más exitosos implican el uso de redes neuronales artificiales. Las redes neuronales artificiales se inspiraron en las teorías propuestas por los premios Nobel David H. Hubbell y Thorsten Wiesel en 1959. Huber y Wiesel descubrieron que hay dos tipos de células en la corteza visual primaria del cerebro: células simples y células complejas, que son responsables de diferentes niveles de percepción visual. Inspirándose en esto, muchos modelos de redes neuronales también están diseñados como modelos jerárquicos entre diferentes nodos [12].

La nueva máquina cognitiva propuesta por Fukushima Bonhiko introduce redes neuronales convolucionales mediante entrenamiento de aprendizaje no supervisado. Yan Lecun aplicó el algoritmo de retropropagación supervisada a esta arquitectura [13]. De hecho, desde que se propuso el algoritmo de retropropagación en la década de 1970, muchos investigadores han intentado aplicarlo para entrenar redes neuronales profundas supervisadas, pero la mayoría de los intentos iniciales fracasaron. En su tesis doctoral, Sepp Hochreiter atribuyó el fallo a la desaparición de gradientes. La desaparición de gradientes se produce tanto en las redes neuronales de avance profundo como en las redes neuronales recurrentes. El proceso de entrenamiento de estas últimas es similar al de las redes profundas.

En el proceso de entrenamiento jerárquico, el error utilizado para modificar los parámetros del modelo disminuye exponencialmente a medida que aumenta el número de capas, lo que resulta en una baja eficiencia del entrenamiento del modelo [14][15].

Para solucionar este problema, los investigadores han propuesto algunos métodos diferentes. Jürgen Schmidhuber propuso redes multinivel en 1992, utilizando el aprendizaje no supervisado para entrenar cada capa de la red neuronal profunda y luego utilizando el algoritmo de retropropagación para optimizarla. En este modelo, cada capa de la red neuronal representa una representación comprimida de la variable observada, que también se transfiere a la siguiente capa de la red [8].

Otro método es la red neuronal de memoria a corto plazo (LSTM) propuesta por Sepp Hochreiter y Juergen Schmid Huber [16]. En 2009, en el concurso de reconocimiento continuo de escritura a mano celebrado en ICDAR 2009, la red neuronal multidimensional profunda de memoria a corto plazo ganó tres concursos sin ningún conocimiento previo [17] [18].

Sven Baker propuso un modelo piramidal abstracto neuronal que solo se basa en símbolos de gradiente en el entrenamiento para resolver los problemas de reconstrucción de imágenes y localización de rostros [19].

Otros métodos también utilizan un entrenamiento previo no supervisado para construir redes neuronales para encontrar características efectivas y luego utilizan la retropropagación supervisada para distinguir los datos etiquetados. El modelo profundo propuesto por Hinton et al. en 2006 propone un método para aprender representaciones de alto nivel utilizando múltiples variables latentes. Este método utiliza la máquina restringida de Boltzmann [20] propuesta por Smolenski en 1986 para modelar cada capa que contiene características de alto nivel. Este modelo garantiza que el límite inferior de la probabilidad logarítmica de los datos aumente con el número de capas. Cuando se aprenden suficientes capas, esta estructura profunda se convierte en un modelo de primera generación y todo el conjunto de datos se puede reconstruir mediante un muestreo de arriba hacia abajo [21]. Hinton afirma que este modelo puede extraer eficazmente características de datos estructurados de alta dimensión [22].

El equipo de Google Brain dirigido por Andrew Ng y Jeff Dean creó una red neuronal que aprendía conceptos de alto nivel (como gatos) únicamente a partir de vídeos de YouTube [23] [24].

Otros métodos se basan en la poderosa potencia informática de las computadoras electrónicas modernas, especialmente las GPU. En 2010, en el grupo de investigación de Juergen Schmid Huber en el laboratorio suizo de inteligencia artificial IDSIA, Dan Ciresan y sus colegas demostraron la implementación del algoritmo de retropropagación directamente en la GPU, ignorando la existencia de gradientes de fuga. En el conjunto de datos MNIST de reconocimiento de escritura proporcionado por Yan Lecun et al [10], este método es mejor que otros métodos existentes.

A partir de 2011, el último enfoque para el aprendizaje profundo de redes neuronales anticipadas es alternar capas convolucionales y de agrupación máxima y agregar una capa de clasificación simple como capa superior. No es necesario introducir un entrenamiento previo no supervisado [25][26] durante el proceso de entrenamiento. Desde 2011, la implementación de este método en GPU [25] ganó múltiples concursos de reconocimiento de patrones, incluidos concursos como el Concurso de reconocimiento de señales de tráfico IJCCNN 2011 [27].

Estos algoritmos de aprendizaje profundo también han logrado por primera vez la misma competitividad que el desempeño humano en algunas tareas de reconocimiento [28].

Estructura de aprendizaje profundo[editar]

Una red neuronal profunda es una red neuronal con al menos una capa oculta. Al igual que las redes neuronales superficiales, las redes neuronales profundas también pueden proporcionar modelado para sistemas no lineales complejos, pero las capas adicionales proporcionan al modelo un mayor nivel de abstracción, aumentando así las capacidades del modelo. Las redes neuronales profundas suelen ser redes neuronales feedforward, pero también existen estudios sobre modelado del lenguaje y otros aspectos que las extienden a redes neuronales recurrentes [29]. La red de neuronas covariantes (CNN) se ha utilizado con éxito en el campo de la visión por computadora [30]. Desde entonces, las redes neuronales convolucionales también se han utilizado como modelos auditivos en el campo del reconocimiento automático de voz y han logrado mejores resultados que los métodos anteriores [31].

Red neuronal profunda[editar]

Una red neuronal profunda (DNN) es un modelo discriminativo que se puede entrenar mediante el algoritmo de retropropagación. Las actualizaciones de peso se pueden resolver mediante un descenso de gradiente estocástico utilizando la siguiente fórmula:

¿Dónde están la tasa de aprendizaje y las funciones de costo?

La elección de esta función está relacionada con el tipo de aprendizaje (como aprendizaje supervisado, aprendizaje no supervisado y aprendizaje por refuerzo) y la función de activación. Por ejemplo, para el aprendizaje supervisado en un problema de clasificación múltiple, una opción común es utilizar la función softmax como función de activación y la entropía cruzada como función de costo. La función softmax se define como, donde representa la probabilidad de la categoría y representa la entrada de la celda y, respectivamente. La entropía cruzada se define como la probabilidad objetivo de la unidad de salida y la probabilidad de salida a la unidad después de aplicar la función de activación [32].

Problemas con las redes neuronales profundas[editar]

Al igual que otros modelos de redes neuronales, las redes neuronales profundas pueden tener muchos problemas si simplemente se entrenan. Dos problemas comunes son el sobreajuste y los tiempos de funcionamiento prolongados.

Las redes neuronales profundas son susceptibles de sobreajuste porque las capas adicionales de abstracción permiten que el modelo modele dependencias que son poco comunes en los datos de entrenamiento. En este sentido, se pueden utilizar métodos como la reducción de peso (normalización) o la escasez (-normalización) durante el proceso de entrenamiento para reducir el fenómeno de sobreajuste [33]. Otro método de normalización de última etapa para el entrenamiento de redes neuronales profundas es la regularización de "abandono", que descarta aleatoriamente una parte de las unidades de capa oculta durante el entrenamiento para evitar modelar dependencias raras [34].

El algoritmo de retropropagación y el método de descenso de gradiente se han convertido en métodos comunes para el entrenamiento de redes neuronales debido a su implementación simple y su mejor convergencia a valores óptimos locales que otros métodos. Sin embargo, estos métodos son muy costosos desde el punto de vista computacional, especialmente cuando se entrenan redes neuronales profundas, porque muchos parámetros como la escala de la red neuronal profunda (es decir, el número de capas y el número de nodos por capa), la tasa de aprendizaje, los pesos iniciales, etc. deben ser considerados. Escanear todos los parámetros no es factible debido al costo de tiempo, por lo que se utilizan minilotes, es decir, combinando múltiples muestras de entrenamiento en lugar de entrenar con una sola muestra a la vez, para acelerar el entrenamiento del modelo [35]. Las mejoras de velocidad más significativas provienen de las GPU, ya que los cálculos matriciales y vectoriales se adaptan bien a la implementación de GPU. Sin embargo, todavía es difícil entrenar redes neuronales profundas utilizando clústeres a gran escala, por lo que todavía hay margen de mejora en la paralelización del entrenamiento de redes neuronales profundas.

Red de creencias profundas[editar]

Máquina de Boltzmann (RBM) restringida con capas visibles y ocultas completamente conectadas. Tenga en cuenta que las unidades de capa visible y oculta no están conectadas entre sí internamente.

Las redes de creencias profundas (DBN) son un modelo generativo probabilístico con múltiples unidades ocultas, que puede considerarse como un modelo compuesto de múltiples modelos de aprendizaje simples [36].

Las redes de creencias profundas se pueden utilizar como parte de preentrenamiento de las redes neuronales profundas y proporcionan pesos iniciales para la red, y luego utilizan la retropropagación u otros algoritmos de toma de decisiones como medio de optimización. Esto es valioso cuando los datos de entrenamiento son escasos, porque los pesos de inicialización inadecuados pueden afectar significativamente el rendimiento del modelo final, y los pesos obtenidos mediante el entrenamiento previo están más cerca de los pesos óptimos que los pesos aleatorios en el espacio de pesos. Esto no sólo mejora el rendimiento del modelo sino que también acelera la convergencia de la fase de sintonización [37].

Cada capa de la red de creencias profundas es una típica máquina de Boltzmann restringida (RBM), que puede entrenarse mediante un método de entrenamiento eficiente capa por capa no supervisado. La máquina restringida de Boltzmann es un modelo generativo basado en energía no dirigida que incluye una capa de entrada y una capa oculta. Los pares de bordes en el gráfico solo existen entre la capa de entrada y la capa oculta, y no hay bordes dentro de los nodos de la capa de entrada y los nodos de la capa oculta. El método de entrenamiento RBM de una sola capa fue propuesto por primera vez por Jeffrey Hinton en la capacitación de "Expert Products" y se llama divergencia de contraste (CD). La divergencia contrastiva proporciona una aproximación de máxima verosimilitud, que es un método ideal para aprender los pesos de máquinas de Boltzmann restringidas [35]. Al entrenar un RBM de una sola capa, se puede superponer otra capa de RBM al RBM entrenado para formar un modelo de múltiples capas. En cada superposición, la capa de entrada de la red multicapa original se inicializa como muestra de entrenamiento y el peso es el peso obtenido del entrenamiento anterior. La salida de esta red sirve como entrada de un nuevo RBM, que repite el proceso de entrenamiento de una sola capa anterior. Todo el proceso puede continuar hasta que se alcance una determinada condición de terminación deseada [38].

Aunque la aproximación de la máxima verosimilitud mediante divergencia contrastiva es muy aproximada (la divergencia contrastiva no está en la dirección del gradiente de ninguna función), los resultados empíricos demuestran que este método es un método eficaz para entrenar estructuras profundas [35 ].

Red neuronal convolucional[editar]

Proyecto principal: Red neuronal convolucional

La red neuronal convolucional (CNN) consta de una o más capas convolucionales. capa completamente conectada en la parte superior (correspondiente a una red neuronal clásica) y también incluye pesos asociados y capas de agrupación. Esta estructura permite que las redes neuronales convolucionales exploten la estructura bidimensional de los datos de entrada. Las redes neuronales convolucionales pueden dar mejores resultados en el reconocimiento de imágenes y voz en comparación con otras estructuras de aprendizaje profundo. El modelo también se puede entrenar mediante el algoritmo de retropropagación. Las redes neuronales convolucionales requieren que se estimen menos parámetros en comparación con otras redes neuronales profundas y de avance, lo que las convierte en una estructura atractiva de aprendizaje profundo [39].

Red Convolucional de Creencia Profunda[editar]

La Red Convolucional de Creencia Profunda (CDBN) es una rama relativamente nueva en el campo del aprendizaje profundo. Estructuralmente, las redes convolucionales de creencias profundas son similares a las redes neuronales convolucionales. Por lo tanto, al igual que las redes neuronales convolucionales, las redes convolucionales de creencias profundas también tienen la capacidad de utilizar la estructura bidimensional de imágenes. Al mismo tiempo, la red convolucional de creencias profundas también tiene la ventaja previa al entrenamiento de la red de creencias profundas. Las redes convolucionales de creencias profundas proporcionan una estructura general que puede usarse para tareas de procesamiento de señales e imágenes y también pueden entrenarse mediante métodos de entrenamiento similares a las redes de creencias profundas [40].

Resultados[editar]

Reconocimiento de voz[editar]

Los resultados de la siguiente tabla muestran los resultados del aprendizaje profundo en el popular conjunto de datos TIMIT. TIMIT contiene datos del habla de 630 personas que hablan ocho acentos comunes del inglés americano, cada uno de los cuales lee 10 oraciones. Estos datos se utilizaron a menudo para verificar la estructura del aprendizaje profundo al comienzo del desarrollo del aprendizaje profundo [41]. El conjunto de datos TIMIT es pequeño, por lo que los investigadores pueden experimentar con diferentes configuraciones de modelo.

Métodos

Tasa de error de voz (PER, %)

RNN 26.1 inicializado aleatoriamente

HMM bayesiano de tres tonos 25.6

Inicialización repetida monótona DNN 23.4

Monótona DBN-DNN 22.4

GMM-HMM 265438 de tres tonos con entrenamiento BMMI +0.7

* * * Disfruta de DBN-DNN 20,7 segundos de música mono en la piscina.

DNN 20.0 convolucional

Clasificación de imágenes[editar]

El conjunto de datos de evaluación reconocido en el campo de clasificación de imágenes es el conjunto de datos MNIST. MNIST consta de números arábigos escritos a mano e incluye 60.000 muestras de entrenamiento y 65.438+00.000 muestras de prueba. Al igual que TIMIT, el tamaño de los datos es menor, por lo que se pueden probar fácilmente en diferentes configuraciones de modelo. El sitio web de Yann LeCun ofrece resultados experimentales obtenidos mediante diversos métodos [42]. Hasta 2012, Ciresan et al. dieron el mejor resultado de discriminación y la tasa de error de este resultado alcanzó el 0,23% [43].

Aprendizaje profundo y neurociencia[editar]

La teoría del desarrollo cerebral (especialmente la teoría del desarrollo cortical) propuesta por investigadores en aprendizaje profundo y neurociencia cognitiva en el campo de la informática en la década de 1990. ) están estrechamente relacionados [44]. La teoría se comprende mejor en la monografía de Jeffrey Ellman de 1996 Rethinking Innateness [45] (ver Slug y Johnson [46] y Kratos y Segnovsky [47]). Debido a que estas teorías proporcionan modelos prácticos de computación neuronal, son las pioneras tecnológicas de los modelos de aprendizaje profundo impulsados ​​​​por computación pura. Estas teorías afirman que las neuronas del cerebro están formadas por diferentes capas que están interconectadas para formar un sistema de filtrado. En estas capas, las neuronas de cada capa obtienen cierta información del entorno en el que se encuentran, la procesan y la pasan a capas más profundas. Esto es similar a los modelos posteriores de redes neuronales profundas que son puramente computacionales. El resultado de este proceso es un convertidor apilado autoorganizado que está en armonía con su entorno. Como escribió The New York Times en 1995, "...el cerebro del bebé parece estar influenciado por los llamados "factores nutricionales" y organizarse... Diferentes áreas del cerebro están conectadas en secuencia, y diferentes niveles de tejido cerebral seguir un orden determinado hasta que todo el cerebro madure”.[48]

La importancia de las estructuras profundas en la evolución y el desarrollo cognitivo humano también ha atraído la atención de los neurocientíficos cognitivos.

Se cree que los cambios en el ritmo del desarrollo son un aspecto de las diferencias en el desarrollo intelectual entre humanos y otros primates [49]. Entre los primates, el cerebro humano es plástico mucho después del nacimiento, pero el cerebro de otros primates está casi completamente formado al nacer. Por lo tanto, los humanos están expuestos a escenarios externos más complejos durante las etapas más plásticas del desarrollo del cerebro, lo que puede ayudar al cerebro humano a adaptarse a entornos que cambian rápidamente, en lugar de estar más limitado por la estructura genética como los cerebros de otros animales. Esta diferencia en el tiempo de desarrollo también se refleja en el tiempo de desarrollo de la corteza cerebral y en los cambios en la autoorganización temprana del cerebro para obtener información del entorno de estímulo. Por supuesto, esta plasticidad viene con una infancia más larga, tiempo durante el cual las personas dependen de cuidadores y grupos sociales para recibir apoyo y cuidados. Por tanto, esta teoría también revela el fenómeno de la coevolución de la cultura y la conciencia en la evolución humana [50].

El aprendizaje profundo ante el público[editar]

El aprendizaje profundo a menudo se considera un paso importante hacia la verdadera inteligencia artificial [51], por lo que muchas instituciones tienen poca comprensión de la práctica real de Aprendizaje profundo. Interesado en la aplicación. En diciembre de 2013, Facebook anunció que contrataría a Yan Lecun como director de su nuevo laboratorio de inteligencia artificial, que establecerá sucursales en California, Londres y Nueva York para ayudar a Facebook a investigar el uso de algoritmos de aprendizaje profundo, como el etiquetado automático. en la foto[52].

En marzo de 2013, Jeffrey Hinton y sus dos estudiantes de posgrado, Alex Creaser e Ilija Sutskova, fueron contratados por Google para actualizar los productos de aprendizaje automático existentes y ayudar a procesar los crecientes datos de Google. Google también adquirió DNNresearch[53], una empresa fundada por Hinton[53].

Críticas[editar]

La principal crítica al aprendizaje profundo es que muchos métodos carecen de sustento teórico. La mayoría de las arquitecturas profundas son sólo variaciones del descenso de gradientes. Aunque el descenso de gradiente se ha estudiado en profundidad, otros algoritmos involucrados en la teoría, como el algoritmo de divergencia contrastiva, no se han estudiado en profundidad y cuestiones como su convergencia no están claras. Los métodos de aprendizaje profundo a menudo se consideran cajas negras y la mayoría de las conclusiones se confirman a través de la experiencia más que de la teoría.

Algunos académicos también creen que el aprendizaje profundo debe considerarse como un verdadero enfoque hacia la inteligencia artificial en lugar de una solución integral. Aunque el aprendizaje profundo es poderoso, todavía carece de muchas capacidades importantes en comparación con la verdadera inteligencia artificial. El psicólogo teórico Gary Marcus señala:

De hecho, el aprendizaje profundo es sólo una parte del desafío más amplio de construir máquinas inteligentes. Estas técnicas carecen de los medios para expresar relaciones de causa y efecto...métodos de razonamiento lógico y están lejos de un conocimiento abstracto integral, como información sobre la naturaleza, representación y usos típicos de los elementos. Los sistemas de inteligencia artificial más potentes, como el sistema de inteligencia artificial Watson de IBM, sólo utilizan el aprendizaje profundo como componente de un conjunto complejo de técnicas que incluyen el razonamiento bayesiano y el razonamiento deductivo [54].