La Red de Conocimientos Pedagógicos - Currículum vitae - Papel Lstm

Papel Lstm

Artículo: ¿Búsqueda eficiente de arquitectura neuronal mediante el uso compartido de parámetros

? Actualmente, la búsqueda de estructuras de redes neuronales (NAS) ha logrado grandes logros en el diseño de estructuras de modelos para la clasificación de imágenes, pero requiere mucho tiempo y se dedica principalmente a entrenar los submodelos buscados. El trabajo principal de este artículo es proponer una Búsqueda de Arquitectura Neural Eficiente (ENAS), que obliga a todos los submodelos a disfrutar de pesos * * * para evitar el entrenamiento desde cero, logrando así el propósito de mejorar la eficiencia. Aunque diferentes modelos utilizan pesos diferentes, a juzgar por los resultados de la investigación sobre el aprendizaje por transferencia y el aprendizaje multitarea, es factible aplicar los parámetros aprendidos por el modelo A de la tarea actual al modelo B de otras tareas. Desde el punto de vista experimental, disfrutar de los parámetros no solo es factible, sino que también aporta un gran rendimiento. El experimento solo utilizó una sola página de 1080Ti, que es 1000 veces más rápido que NAS.

? Los resultados de búsqueda de NAS pueden considerarse como un subgrafo en un gráfico más grande y el espacio de búsqueda se puede representar mediante un gráfico acíclico unidireccional (DAG). La estructura de cada búsqueda se puede ver como una subred del DAG en la Figura 2. El DAG definido por ENAS es una superposición de todas las subredes, donde cada nodo tiene sus propios parámetros para cada tipo de cálculo, que solo se utilizan cuando se activa un método de cálculo específico. Por lo tanto, ENAS está diseñado para permitir que las subredes disfruten de los parámetros * * *, que se presentarán en detalle a continuación.

? Para diseñar la unidad recursiva se utiliza un DAG de nodos, donde los nodos representan el tipo de cálculo y los bordes representan la dirección del flujo de información. El controlador de ENAS también es RNN, que se define principalmente como: 1) los bordes activados. 2) el tipo de cálculo de cada nodo. En NAS (Zoph 2017), el espacio de búsqueda de la unidad cíclica está en una topología (árbol binario) con una estructura predefinida y solo aprende el tipo de cálculo de cada nodo, mientras que NAS aprende la topología y el tipo de cálculo al mismo tiempo. que es más flexible.

? Para crear una unidad recurrente, el controlador RNN primero muestrea los resultados de un bloque, obtiene información sobre la unidad actual (como incrustaciones de palabras) y la genera para la capa oculta del paso de tiempo anterior. Los pasos específicos son los siguientes:

? Tenga en cuenta que cada par de nodos() tiene parámetros independientes y el parámetro que se utiliza se determina en función del índice seleccionado. Por lo tanto, todas las unidades de bucle de ENAS pueden compartir el mismo conjunto de parámetros. El espacio de búsqueda de este artículo contiene un número exponencial de configuraciones. Suponiendo que hay n nodos y cuatro funciones de activación, hay tres configuraciones.

? El controlador de ENAS es un LSTM con 100 unidades ocultas y la decisión de selección se realiza de forma autorregresiva a través de un clasificador softmax. La salida del paso anterior se incrusta como entrada del siguiente paso, y el primer paso del controlador acepta una entrada de incrustación vacía. Los parámetros de aprendizaje incluyen principalmente los parámetros del controlador LSTM y los pesos compartidos de subred * * *. La formación de ENAS se divide en dos fases superpuestas. La primera etapa es aprender los pesos compartidos en el conjunto de entrenamiento completo y la segunda etapa es entrenar los parámetros del controlador LSTM.

? La política del controlador es fija y luego se realiza un descenso de gradiente estocástico para minimizar el valor esperado de la función de pérdida de entropía cruzada. Para la pérdida de entropía cruzada de modelos de mini lotes, el modelo se deriva del muestreo.

? El gradiente se calcula como 1, que se deriva del muestreo y la actualización de los gradientes de todos los modelos. La Fórmula 1 es una estimación insesgada del gradiente, pero la varianza es muy grande (al igual que NAS, el rendimiento del modelo de muestreo también es diferente. El efecto del entrenamiento no es malo cuando se usa).

? Los parámetros de la estrategia se han revisado y actualizado con el objetivo de maximizar los rendimientos esperados. Utilice el optimizador Adam, utilice el método de refuerzo Williams para el cálculo del gradiente y agregue una media móvil exponencial para reducir la varianza. Los cálculos se realizan en un conjunto de validación independiente que es esencialmente el mismo que el NAS de Zoph.

? ENAS bien capacitado para la construcción de nuevos modelos. En primer lugar, se extraen varias estructuras nuevas de la política de formación. Para cada modelo muestreado, la precisión se calcula para un mini lote del conjunto de validación y el modelo con la mayor precisión se vuelve a entrenar desde cero. Todas las redes de muestra se pueden entrenar desde cero, pero el método descrito en este artículo tiene una precisión similar y mayores beneficios económicos.

? Para crear una red convolucional, cada bloque de decisión del controlador toma dos decisiones, que constituyen una capa de la red convolucional:

? Se realiza una selección secundaria para generar una red para esta capa, un * * tipo de red. En el experimento, L se establece en 12.

? NASNet propuso diseñar módulos pequeños y luego apilarlos en una red completa, diseñando principalmente unidades de convección y unidades de reducción.

? Utilice ENAS para generar una unidad convolucional y construya un DAG del nodo B para representar el cálculo dentro de la unidad, donde el nodo 1 y el nodo 2 representan la entrada de la unidad, que son las salidas de las dos primeras unidades en la red completa, y predice las dos opciones para los nodos restantes: 1) Seleccione los dos nodos anteriores como entrada del nodo actual 2) Seleccione el tipo de cálculo para las dos entradas, * * * Cinco operadores: Identidad del tamaño del núcleo convolución separable con 3×3 y 5×5 y el tamaño del kernel sea una agrupación promedio y una agrupación máxima de 3 × 3, luego agregue los resultados del operador. Para ello, el proceso de búsqueda es el siguiente:

? Para la unidad de reducción, la generación del espacio de búsqueda anterior se puede realizar de la misma manera: 1) El muestreo a se calcula como se muestra en la Figura 5; Figura 2) Cambie el tamaño de paso de todos los cálculos a 2; De esta manera, la unidad reductora puede reducir la entrada a 1/2 y el controlador predice el bloqueo.

? Finalmente, calcule la complejidad del espacio de búsqueda. Para el nodo I, el troller primero selecciona dos nodos y luego selecciona dos de los cinco operadores, que son * * * celdas de pozo. Debido a que las dos unidades son independientes, el tamaño del espacio de búsqueda depende en última instancia del tipo de red.

? Se realizaron algunas modificaciones en el cálculo de nodos, por ejemplo, agregando conexiones de carreteras a, donde está la multiplicación por elementos. Los resultados de la búsqueda se muestran en la Figura 6, que son interesantes: 1) todos los métodos de activación son tanh o Relu; 2) la estructura puede ser óptima localmente y el reemplazo aleatorio de las funciones de activación del nodo causará una degradación significativa del rendimiento; es un promedio de seis nodos, similar al contexto mixto (MoC).

? Single 1080Ti ha sido entrenado durante 10 horas. Los resultados de Penn Treebank se muestran en la Tabla 1. Cuanto menor sea el PPL, mejor será el rendimiento. Se puede ver que ENAS tiene baja complejidad y una pequeña cantidad de parámetros.

? El primer bloque en la Tabla 2 es la estructura de la red de clasificación óptima DenseNet, el segundo bloque es el resultado de que ENAS diseñe toda la red convolucional (creo que no debería haber espacio de microbúsqueda aquí) y el tercer bloque es el resultado de la unidad de diseño.

? La estructura óptima de toda la búsqueda de la red se muestra en la Figura 7, con una tasa de error del 4,23%, que es mejor que NAS. Una búsqueda con una sola tarjeta tarda aproximadamente 7 horas, lo que es 50.000 veces más rápido que el NAS.

? La estructura de la búsqueda de unidades se muestra en la Figura 8. Una búsqueda con una sola tarjeta tomó 11,5 horas y la tasa de error fue del 3,54%. Con aumento de cizallamiento, es mejor que NASNet. Se descubrió que la estructura de búsqueda de ENAS es óptima localmente y las modificaciones reducirán el rendimiento. Sin embargo, ENAS no toma muestras de múltiples redes para el entrenamiento, lo que aporta grandes mejoras de rendimiento a NAS.

?

? NAS es un método importante para diseñar automáticamente estructuras de red, pero requiere enormes recursos, lo que impide que se utilice ampliamente. La búsqueda eficiente de arquitectura neuronal (ENAS) propuesta en este artículo disfruta de los parámetros de la subred y es más de 1.000 veces más rápida que NAS. La búsqueda en una sola tarjeta tarda menos de medio día y el rendimiento no disminuye sino que aumenta. lo cual es muy digno de referencia.

?

?

?