La Red de Conocimientos Pedagógicos - Aprendizaje de inglés - Sobre la investigación sobre la poda

Sobre la investigación sobre la poda

Este artículo habla principalmente sobre el desarrollo actual de la poda en varios artículos y blogs, y habla sobre los resultados experimentales de la poda real de algunas de mis propias prácticas.

La base teórica de la poda es la sobreparametrización. En el aprendizaje automático tradicional, la sobreparametrización significa sobreajuste.

Sin embargo, la parametrización es indispensable en el aprendizaje profundo.

(El siguiente contenido proviene del blog [Algunas intuiciones sobre la parametrización excesiva]/P/40516287))

En el aprendizaje profundo, es necesario comenzar con una gran cantidad de datos sobreparametrizados. entrenamiento de modelos parametrizados, porque dichos modelos tienen fuertes capacidades de representación y optimización. Una vez que el entrenamiento alcanza la etapa de inferencia, no necesitamos tantos parámetros. Esta suposición respalda que podemos simplificar el modelo antes de su implementación. Los métodos de poda y cuantificación en la compresión de modelos se basan en esta premisa.

El siguiente contenido es un extracto de la poda de red de la compresión del modelo Bagua)

La cuestión central de la poda es cómo cortar eficazmente el modelo para minimizar la pérdida de precisión.

De hecho, este no es un problema nuevo. La poda de redes neuronales se estudió a finales de los 80 y principios de los 90. Por ejemplo, el artículo "Comparación de sesgos en la construcción y retropropagación de redes mínimas" propone un método de poda basado en el tamaño que minimiza el tamaño de las unidades ocultas aplicando a cada unidad oculta en la red una disminución de peso relacionada con su cantidad absoluta. Otro ejemplo son los artículos clásicos "Optimal Brain Injury" y "Second Derivative of Network Pruning: Optimal Brain Surgeon" de principios de la década de 1990, que propusieron métodos OBD y OBS respectivamente. Miden la importancia de los pesos en la red basándose en la segunda derivada de la función de pérdida con respecto a los pesos (la matriz de Hesse del vector de pesos) y luego la cortan. Pero en el entorno general de esa época, las redes neuronales (no existían redes neuronales profundas en ese momento, solo redes neuronales o redes neuronales en la sombra para diferenciación) no eran una rama particularmente convencional del aprendizaje automático, por lo que durante mucho tiempo hubo No Aparecieron muchas ramas y hojas, pero sus definiciones e ideas para la resolución de problemas tuvieron un profundo impacto en muchos trabajos más de 20 años después.

En 2012, todos sabemos que el aprendizaje profundo se ha hecho famoso y brilla.

Después de eso, la tendencia de hacer trampa en las clasificaciones surgió y se volvió cada vez más intensa, y todos se concentraron en mejorar la tasa de precisión. Por lo tanto, la tendencia general es profundizar la red ponderada para mejorar la precisión, y la precisión de ImageNet alcanza nuevos máximos cada año.

Durante 2015-16, Hang Song y otros publicaron una serie de trabajos sobre la compresión profunda de modelos de redes neuronales. Como "Pesos de aprendizaje y conexiones para redes neuronales eficientes" y "EIE: un motor de influencia eficiente en redes neuronales profundas comprimidas".

Entre ellos, "Compresión profunda: compresión de redes neuronales profundas mediante poda, cuantificación de entrenamiento y codificación Huffman" ganó el mejor artículo en ICLR 2016. Entre ellas, se encuentran comprimidas las redes clásicas AlexNet y VGG. Combinando poda, cuantificación, codificación Huffman y otros métodos, el tamaño de la red se comprime varias veces y el rendimiento mejora varias veces. Entre ellos, el método de poda iterativa se utiliza para compensar la pérdida de precisión causada por la poda, lo que casi no puede provocar ninguna pérdida de precisión. Esto hizo que todos se dieran cuenta de que la redundancia de los parámetros DNN es tan grande que se puede extraer tanto petróleo. En los años siguientes, el campo de la compresión de modelos se hizo más abundante y cada vez más trabajos relacionados dieron origen a varios métodos de juego.

Según si la estructura podada sigue siendo simétrica, la poda se puede dividir en poda estructurada y poda no estructurada.

Desde la perspectiva de la granularidad de la poda, se puede dividir en:

La poda reduce principalmente los parámetros sin importancia, entonces, cómo medir la importancia de los parámetros. La clasificación de los métodos de poda aquí se deriva principalmente de la poda de red comprimida por el modelo de chismes.

Una de las heurísticas más simples es evaluar la importancia en función del valor absoluto del parámetro (o resultado de la característica) y luego utilizar un método codicioso para eliminar esa parte. Esta es la llamada magnitud. Poda de peso a base.

En este caso, a menudo se requieren parámetros escasos, por lo que la regularización r se agrega a la pérdida de entrenamiento, especialmente la regularización L1 r, para hacer que los pesos sean escasos. Para la poda estructurada, esperamos obtener pesos dispersos estructurados, por lo que a menudo usamos lazo de grupo para obtener pesos dispersos estructurados.

Para podar la red con parámetros más pequeños, se puede reducir el número de adopciones en la capa convolucional, como aprender la escasez estructurada en redes neuronales profundas. Los parámetros de la capa BN se pueden entrenar escasamente, como el artículo de 2017 "Aprendiendo redes de convección eficientes a través del adelgazamiento de redes".

También se pueden emitir funciones de activación. Las funciones de activación como Relu tienden a producir activaciones escasas, que eliminan las capas de canales anteriores, como el artículo de 2016 "Network Pruning: A Data-Driven Neuron Pruning Method for Efficient Deep Architectures".

Este método supone que cuanto menor sea el valor absoluto del parámetro, menor será el impacto en el resultado final. A esto lo llamamos el criterio "una especificación más pequeña es menos importante". Sin embargo, es posible que esta suposición no se cumpla (por ejemplo, como se analiza en el artículo de 2018 Rethinking the Miller Norm Informativity Assumption in Channel Pruning of Convolutional Layers).

A principios de la década de 1990, los artículos clásicos "Optimal Brain Damage" y "Second Derivatives of Network Pruning: Optimal Brain Surgeon" propusieron los métodos OBD y OBS respectivamente. Miden la importancia de los pesos en la red basándose en la segunda derivada de la función de pérdida con respecto a los pesos (la matriz de Hesse del vector de pesos) y luego la cortan.

Ambos métodos requieren el cálculo de la matriz de Hesse o su aproximación, lo que requiere mucho tiempo. En los últimos años se han estudiado y propuesto algunos métodos basados ​​en esta idea. Por ejemplo, el artículo de 2016 "Convective Neural Network Pruning for Resource Efficient Transfer Learning" también se basa en la expansión de Taylor, pero utiliza el valor absoluto del término de primer orden en la expansión de la función objetivo relativa a la activación como poda. criterio. Esto evita el cálculo del término de segundo orden (matriz de Hesse). Recorte de papel: 2065 438+08 La poda de red de un solo disparo basada en la sensibilidad de la conexión utiliza el valor absoluto de la derivada de la función objetivo normalizada con respecto a los parámetros como medida de importancia.

El impacto en la reconstrucción de la salida de la característica es minimizar el error de reconstrucción de la red para la salida de la característica recortada. La intuición es que si se recorta la capa actual, si no tiene ningún impacto en la salida posterior, significa que se recorta información menos importante. Ejemplos típicos son los artículos Thin: 2017 "Método de poda a nivel de filtro para la compresión profunda de redes neuronales" y "Poda acelerada de canales de redes neuronales extremadamente profundas". s determina qué canal debe recortarse minimizando el error de reconstrucción de características.

Un artículo recortado "Filtrar poda mediante medianas geométricas para aceleración de redes neuronales de convección profunda" presentado por CVPR en 2019 reexamina el principio de que las normas más pequeñas no importan. El requisito básico de este principio es

Debido a que la mayoría de las redes no pueden cumplir con este requisito, se propone un nuevo ángulo. Si un filtro puede representarse mediante otros filtros en la misma capa, esta capa es redundante y se puede eliminar. La eliminación de capas redundantes tiene un impacto mínimo en toda la capa y la información de las capas redundantes se puede restaurar rápidamente a través de otros filtros.

Entonces, ¿qué tipo de filtro es una capa redundante? ¿Qué capa se puede caracterizar por otros filtros en la misma capa?

La respuesta es el centro geométrico de la capa o un filtro cercano al centro geométrico. En la Cumbre CVPR de 2008, el artículo "Estadísticas robustas sobre variedades de Riemann a través de la mediana geométrica" ​​mencionó que el centro geométrico se puede caracterizar mediante otros filtros cerca del centro geométrico, lo que sentó las bases teóricas para este artículo.

La proporción de poda es la proporción entre los parámetros podados y los parámetros originales.

La poda se puede dividir en poda estática y poda dinámica.

En las estrategias tradicionales de poda estática, investigaciones anteriores han descubierto que es difícil lograr la misma precisión que antes de la poda reiniciando los pesos de la estructura de red podada y luego entrenando. Sin embargo, después de cada poda, menos rondas de entrenamiento de ajuste fino pueden hacer que la estructura de la red después de la misma poda alcance o sea solo un poco más baja que la estructura de la red antes de la poda. Entonces, entendemos que la estructura de la red y los pesos de los parámetros de la red que quedan después de la poda son importantes.

Pero el mejor artículo de ICLR2019, "Lottery Hypothesis", planteó objeciones por primera vez.

Este artículo llevó a cabo un experimento de este tipo:

Sin embargo, otro artículo "Repensar el valor de la poda de redes" en la misma conferencia del mismo año ofreció una visión similar pero algo diferente. Este artículo también niega la importancia de conservar los pesos después de la poda, pero también niega la necesidad de conservar los parámetros de inicialización. Se cree que el efecto del modelo obtenido mediante el ajuste fino después de la poda suele ser peor que el obtenido entrenando el modelo podado directamente desde cero, aunque el modelo con estructura podada desde cero a menudo requiere más rondas de entrenamiento.

¿Por qué en los experimentos en papel anteriores, el efecto experimental del entrenamiento desde cero no fue tan bueno como el efecto experimental del uso de parámetros después de la poda? Debido al pensamiento que se da por sentado, los experimentos anteriores de "entrenamiento desde cero" no seleccionaron cuidadosamente los hiperparámetros y las estrategias de expansión de datos, ni proporcionaron suficiente tiempo de computación y rondas de entrenamiento desde cero (porque el autor mencionó que el entrenamiento desde cero requiere Se requieren más rondas para lograr una precisión similar para realizar ajustes utilizando parámetros de poda)

Otra conclusión de los experimentos que reflejan el valor de la poda de red es que la función de la poda de red es la búsqueda de la estructura de la red.

El autor realizó cinco entrenamientos aleatorios sobre el artículo "Aprendiendo redes de convección eficientes a través del adelgazamiento de redes" y descubrió que si se especifica la proporción de poda, el número de capas retenidas de cada capa después de cinco podas siempre es mágicamente similar. Demuestra que este método de hecho puede obtener una estructura más eficiente y estable.

Los experimentos que reflexionan sobre el valor de la poda de red muestran que en la red VGG, la estrategia de poda dispersa de la red es peor que la poda proporcional de cada capa, mientras que en ResNet y DenseNet, la estrategia de poda dispersa de la red puede no ser tan bueno como cada capa Poda proporcional.

El autor analizó las estructuras de estas redes después de la poda y encontró que esta estructura tiende a podar cada capa en proporciones iguales. Esto puede deberse a que el efecto de esta estrategia después de la poda es diferente al de la poda en partes iguales. proporciones. El efecto de las capas es aproximadamente equivalente. Sin embargo, la redundancia de cada capa de la red VGG está desequilibrada, por lo que la estrategia de poda es efectiva.

Como muestra la investigación actual.