La Red de Conocimientos Pedagógicos - Aprendizaje de japonés - Papel de deconvolución

Papel de deconvolución

Documento: Reparametrización de convección en línea

[Error en la carga de la imagen...(Picture-306069-1652190795979)]

? Además de la precisión, la velocidad de inferencia del modelo también es importante. Para obtener modelos fáciles de implementar y de alta precisión, muchos estudios recientes han propuesto mejorar el rendimiento del modelo basándose en la reparametrización estructural. Los modelos utilizados para la reparametrización estructural tienen diferentes estructuras en la fase de entrenamiento y en la fase de inferencia. Durante el entrenamiento, se utilizan estructuras complejas para obtener alta precisión y, después del entrenamiento, las estructuras complejas se comprimen en capas lineales que se pueden razonar rápidamente mediante transformaciones equivalentes. Los modelos de compresión suelen tener arquitecturas concisas, como estructuras tipo VGG o tipo red Lacey. Desde esta perspectiva, las estrategias de reparametrización pueden mejorar el rendimiento del modelo sin introducir una sobrecarga de tiempo de inferencia adicional. La cuenta oficial de WeChat publicó anteriormente un artículo sobre RepVGG explicando RepVGG: ¡VGG, el Dios eterno! | Nuevos artículos en 2021, si estás interesado puedes consultarlo.

[Error en la carga de la imagen...(image-aab 93 a-1652190795979)]

? La capa BN es un componente clave del modelo multiparamétrico. Agregue una capa BN después de cada capa convolucional, como se muestra en la Figura 1b. Eliminar la capa BN provocará una disminución importante en la precisión. Durante la etapa de inferencia, las estructuras complejas se pueden comprimir en una única capa convolucional. Durante la fase de entrenamiento, dado que la capa BN necesita dividir de forma no lineal el mapa de características por su desviación estándar, cada rama solo se puede calcular individualmente. Por lo tanto, hay una gran cantidad de operaciones de cálculo intermedias (FLOPS grandes) y mapas de características almacenados en búfer (uso elevado de memoria), lo que genera una enorme sobrecarga computacional. Peor aún, el alto costo de la capacitación dificulta la exploración de estructuras reparametrizadas más complejas y potencialmente más poderosas.

? ¿Por qué las capas BN son tan importantes para la reparametrización? A través de experimentos y análisis, se descubrió que el factor de escala de la capa BN puede diversificar las direcciones de optimización de diferentes ramas. Con base en este hallazgo, este artículo propone un método de reparametrización en línea OREPA, como se muestra en la Figura 1c, que incluye dos pasos:

? OREPA reduce la sobrecarga informática y de almacenamiento causada por la capa intermedia, lo que puede reducir significativamente el consumo de capacitación (ahorro de memoria entre un 65% y un 75%, aumento de velocidad entre 1,5 y 2,3 veces), tiene poco impacto en el rendimiento y permite explorar una reparametrización más compleja. los resultados se vuelven posibles. Para verificar esto, este artículo propone además varios componentes reparametrizados para obtener un mejor rendimiento.

? Las contribuciones de este artículo incluyen los siguientes tres puntos:

[Error en la carga de la imagen...(Picture-9cc 5d 8-1652190795979)]

? OREPA puede simplificar la estructura compleja durante el entrenamiento en una única capa convolucional manteniendo la misma precisión. El proceso de transformación de OREPA se muestra en la Figura 2, que incluye dos pasos: linealización de bloques y extrusión de bloques.

[Error en la carga de la imagen...(Picture-86e6f 1-1652190795979)]

? La capa BN es la estructura clave de la estructura de múltiples capas y ramas de parámetros pesados ​​y es la base para el rendimiento del modelo de parámetros pesados. Tomando DBB y RepVGG como ejemplos, después de eliminar la capa BN (cambiando a operación BN unificada de múltiples sucursales), el rendimiento disminuirá significativamente, como se muestra en la Tabla 1.

? Sorprendentemente, el uso de capas BN conlleva costes de formación excesivos. Durante la fase de inferencia, todas las operaciones intermedias en estructuras multiparamétricas son lineales y pueden combinarse. Durante la fase de entrenamiento, dado que la capa BN no es lineal (debe dividirse por la desviación estándar del mapa de características), no se pueden realizar cálculos combinados. Si no se fusiona, las operaciones intermedias se calcularán por separado, lo que provocará un gran consumo computacional y una sobrecarga de memoria. Además, el elevado coste también dificulta la exploración de estructuras más complejas.

? Aunque la capa BN evita la combinación de cálculos durante el entrenamiento, aún no se puede eliminar directamente debido a problemas de precisión. Para resolver este problema, se introduce el escalado lineal del canal como un reemplazo lineal de la capa BN y el mapa de características se escala con vectores que se pueden aprender. La capa de escala lineal tiene un efecto similar a la capa BN, guiando múltiples ramas para optimizar en diferentes direcciones, que es el núcleo del rendimiento de reparametrización.

[Error en la carga de la imagen...(Imagen-e 04663-1652190795979)]

? Según la capa de escala lineal, la estructura reparametrizada se modifica mediante los siguientes tres pasos, como se muestra en la Figura 3:

? Después de la operación de linealización del bloque, solo hay una capa lineal en la estructura multiparamétrica, lo que significa que todos los componentes de la estructura se pueden fusionar durante la fase de entrenamiento.

? La compresión de bloques transforma operaciones en mapas de características intermedias que requieren demasiado cálculo y almacenamiento en operaciones más rápidas en un único núcleo de convolución, lo que significa que el costo de capacitación adicional de parámetros pesados ​​en términos de cálculo y almacenamiento aumenta del 100% al 100%. Aquí está la forma del núcleo de convolución.

? En términos generales, no importa cuán compleja sea la estructura lineal multiparamétrica, las dos propiedades siguientes siempre se mantienen:

[Error en la carga de la imagen...(Picture-fa8e 1d-1652190795979)]

? Con las dos propiedades anteriores, se pueden comprimir múltiples capas (es decir, estructura secuencial) y múltiples ramas (es decir, estructura paralela) en una sola convolución, como se muestra en las Figuras 4a y 4b. El texto original tiene algunas pruebas de fórmulas de conversión. Aquellos que estén interesados ​​pueden leer los capítulos correspondientes del texto original, lo que no afectará la comprensión de las ideas de Block Squeezing.

? Este artículo analiza el papel de la linealización de bloques y ramas múltiples desde la perspectiva de la regresión de gradiente. Si está interesado, puede leer los capítulos correspondientes del texto original. Hay dos conclusiones principales aquí:

? La conclusión anterior muestra la importancia del paso de linealización del bloque. Después de eliminar la capa BN, la capa de escala puede mantener la diversidad de direcciones de optimización y evitar que múltiples ramas degeneren en una sola rama.

? Dado que OREPA ahorra una gran cantidad de consumo de formación, ofrece la posibilidad de explorar estructuras de formación más complejas. Basado en DBB, se diseñó un nuevo módulo de parámetros pesados ​​OREPA-ResNet, agregando los siguientes componentes:

[Error en la carga de la imagen...(Picture-75fb2e-1652190795979)]

[Error al cargar la imagen...(Imagen-bb4d 60-1652190795979)]

? El diseño del bloque en OREPA-ResNet se muestra en la Figura 6. Debe ser un bloque reducido y finalmente fusionado en una convolución de 3 × 3 para entrenamiento e inferencia.

[Error en la carga de la imagen...(Imagen-e30 EFC-1652190795979)]

? Experimentos comparativos de cada componente.

[Error en la carga de la imagen...(Imagen-132 b64-1652190795979)]

? El efecto de escalar la capa sobre la similitud de cada rama en cada capa.

[Error en la carga de la imagen...(Picture-35E6fb-1652190795979)]

? En comparación con la estrategia de expansión lineal, la expansión de canales es la mejor.

[Error en la carga de la imagen...(Imagen-8e 6901-1652190795979)]

? Comparación del consumo de tiempo de entrenamiento de parámetros pesados ​​en línea y fuera de línea.

[Error en la carga de la imagen...(image-dad8de-1652190795979)]

? En comparación con otras estrategias de parámetros pesados.

[Error en la carga de la imagen...(Picture-9EE25-1652190795979)]

? Comparación de tareas de detección y segmentación.

? Este artículo propone un método de reparametrización en línea, OREPA, que puede convertir una reparametrización estructural compleja en una única capa convolucional durante la fase de entrenamiento, reduciendo así una gran cantidad de tiempo de entrenamiento. Para lograr este objetivo, se utiliza una capa de escala lineal en lugar de la capa BN en el entrenamiento, manteniendo la diversidad de direcciones de optimización y la capacidad de expresar características. A juzgar por los resultados experimentales, OREPA tiene buena precisión y eficiencia en diversas tareas.

?

?

?

?