Papel de función de activación suelta
? BatchNorm es el componente informático central del aprendizaje profundo y se utiliza en la mayoría de los modelos de imágenes SOTA. Tiene las siguientes ventajas:
? Sin embargo, aunque BatchNorm es bueno, todavía tiene las siguientes deficiencias:
? Actualmente, muchos estudios han comenzado a buscar capas de normalización para reemplazar BatchNorm, pero estas capas de reemplazo funcionan mal o traen nuevos problemas, como aumentar el consumo computacional de inferencia. Otras investigaciones intentan eliminar la capa de normalización, como inicializar el peso de la rama diferencial residual para que su salida sea cero para garantizar que la mayor parte de la información se transfiera a través de la ruta de salto en las primeras etapas del entrenamiento. Aunque se pueden entrenar redes profundas, las redes que utilizan métodos de inicialización simples tienen poca precisión y dicha inicialización es difícil de usar para redes más complejas.
? Por lo tanto, este artículo espera encontrar un método eficaz para entrenar redes residuales profundas sin procesamiento por lotes, y el rendimiento del conjunto de prueba puede ser comparable al SOTA actual. Las principales aportaciones del artículo son las siguientes:
? Muchos estudios han analizado teóricamente la propagación de la señal de ResNet, pero pocos han verificado en el campo la escala de características de diferentes capas al diseñar o transformar la red. De hecho, utilizar cualquier entrada para el razonamiento directo y luego registrar la información estadística de las características de diferentes ubicaciones en la red puede comprender intuitivamente la situación de propagación de la información y detectar problemas ocultos lo antes posible sin la necesidad de un largo entrenamiento de fallas. Por lo tanto, este artículo propone diagramas de propagación de señales (SPP), en los que se ingresan entradas gaussianas aleatorias o muestras de entrenamiento reales, y luego se cuenta por separado la siguiente información generada por cada bloque residual:
? Este artículo realiza pruebas estadísticas sobre la estructura BN-ReLU-Conv común y la estructura ReLU-BN-Conv poco común. La red experimental es una ResNet de 600 capas, que se inicializa mediante He y se define como un bloque residual. Los siguientes fenómenos se pueden encontrar en los SPP:
? Si BatchNorm se elimina directamente, la media cuadrática promedio del canal y la varianza promedio del canal continuarán aumentando, razón por la cual las redes profundas son difíciles de entrenar. Por lo tanto, para deshacerse de BatchNorm, debe intentar simular el efecto de transmisión de señal de BatchNorm.
? Basado en SPP anteriores, este artículo diseña un nuevo bloque de corrección, que simula principalmente el rendimiento de BatchNorm en términos de media y varianza, de la siguiente manera:
? Según el diseño anterior, dada la suma, la varianza de la salida del primer bloque residual se puede calcular directamente de acuerdo con la siguiente fórmula. Para simular que la varianza acumulada en ResNet se restablece en el bloque de transición, es necesario reducir la entrada de la ruta de salto del bloque de transición a 0 para garantizar que la varianza de salida del bloque de transición al comienzo de cada etapa está satisfecho. El resnet sin normalizador (NF-resnet) se obtiene aplicando la estrategia de escalado simple anterior a la red restante y eliminando la capa BatchNorm.
? Este artículo realiza un análisis de SPP en NF-ResNet inicializado con Ho. Los resultados se muestran en la Figura 2 y se descubrieron dos fenómenos inesperados:
? Para verificar el fenómeno anterior, este artículo elimina el ReLU de la red y lo analiza con SPP. Como se muestra en la Figura 7, después de eliminar ReLU, el cuadrado medio del canal promedio está cerca de 0 y la salida de la rama diferencial restante está cerca de 1, lo que indica que ReLU causa el fenómeno de cambio medio.
? El artículo también analiza este fenómeno desde una perspectiva teórica. Primero, la transformación se define como una matriz fija arbitraria, que es una función de activación de elementos que actúa sobre las entradas i.i.d., por lo que también es i.i.d. Suponiendo que cada dimensión tiene una suma, la media y la varianza del resultado son:
? donde la suma es la media y la varianza del fan-in:
? Cuando la función ReLU está activada, significa que las entradas a las capas lineales posteriores son todas promedios positivos. Si es así, entonces. Porque, si también es distinto de cero, también hay una media distinta de cero. Cabe señalar que incluso si toma muestras de una distribución con media cero, la media real de la matriz definitivamente no será cero, por lo que la salida de cualquier dimensión de la rama diferencial residual no será cero y, a medida que aumenta la profundidad de la red, la El entrenamiento se vuelve cada vez más difícil.
? Para eliminar el fenómeno de cambio medio y garantizar que la rama residual tenga las características de invariancia de varianza, este artículo se basa en la estandarización de peso y la estandarización de peso central, y propone el método de estandarización de peso proporcional (Scaled WS) para reinicializar el peso de la capa de convolución como:
? La suma es la media y la varianza del fan-in del núcleo de convolución, y el peso es inicialmente un peso gaussiano, que es una constante fija. Sustituyendo en la fórmula 1, se puede concluir que sí, se elimina el fenómeno de deriva media. Además, la varianza se vuelve, el valor está determinado por la función de activación utilizada y la varianza se puede mantener sin cambios.
? Scaled WS tiene muy poca sobrecarga adicional en el entrenamiento y no tiene nada que ver con datos por lotes, y no hay sobrecarga adicional en la inferencia. Además, la lógica de cálculo durante el entrenamiento y las pruebas es consistente y también es compatible con el entrenamiento distribuido. Como se puede ver en la curva SPP en la Figura 2, el rendimiento de NF-ResNet-600 con WS escalado es muy similar al de ReLU-BN-Conv.
? El último factor es determinar el valor para garantizar que la varianza de la producción diferencial residual de la rama sea cercana a 1 en la etapa inicial. Este valor está determinado por el tipo de activación no lineal utilizada por la red. Suponiendo una entrada no lineal, la salida de ReLU es equivalente a un muestreo de una distribución gaussiana con varianza. Porque puedes establecer la garantía. Aunque la entrada real no es completamente consistente, las configuraciones anteriores aún funcionan bien en la práctica.
? Para otras activaciones no lineales complejas, como Loos y Swish, la derivación de fórmulas implicará integrales complejas o incluso será imposible de derivar. En este caso, se pueden utilizar aproximaciones numéricas. Primero tome una muestra de vectores multidimensionales de una distribución gaussiana, calcule la varianza real de la salida activa para cada vector y luego tome la raíz cuadrada de la media de las varianzas reales.
? El núcleo de este artículo es mantener la transmisión de información correcta, por lo que es necesario modificar muchas estructuras de red comunes. Al igual que la elección de valores, las modificaciones necesarias se pueden juzgar mediante el análisis o la práctica. Por ejemplo, la salida del módulo SE debe multiplicarse por el peso, lo que da como resultado una transmisión de información debilitada y una red inestable. Un análisis separado que utilizó las aproximaciones numéricas mencionadas anteriormente encontró que la varianza esperada es 0,5, lo que significa que la salida debe multiplicarse por 2 para restaurar la transferencia correcta de información.
? De hecho, a veces modificaciones relativamente simples de la estructura de la red pueden mantener una buena transmisión de información y, a veces, incluso sin modificar la estructura de la red, la red en sí puede ser muy robusta a la atenuación de la información causada por la estructura de la red. Por lo tanto, este artículo también intenta probar la máxima relajación de las restricciones de la capa escalable de WS mientras se mantiene la estabilidad del entrenamiento. Por ejemplo, para restaurar parte de la expresividad convolucional de la capa WS escalada, se agregaron factores de escala aprendibles y sesgos para la multiplicación de peso y la suma de salida no lineal, respectivamente. Cuando estos parámetros de aprendizaje no están restringidos, la estabilidad del entrenamiento no se ve muy afectada, pero es útil para el entrenamiento de redes con más de 150 capas. Por lo tanto, NF-ResNet relaja directamente las restricciones y agrega dos parámetros que se pueden aprender.
? El apéndice del documento contiene detalles detallados de implementación de la red. Si está interesado, puede consultarlo.
? En resumen, el núcleo de ResNet sin normalizador tiene los siguientes puntos:
? En comparación con otros métodos, la variante sin normalizador de RegNet es casi idéntica a EfficientNet, pero muy parecida.
? Este artículo propone NF-ResNet, que analiza la transmisión de señal real de la red, simula el rendimiento de BatchNorm en transmisión media y varianza y luego reemplaza BatchNorm. Los experimentos y análisis del artículo son muy suficientes y los resultados son muy buenos. Los efectos teóricos de algunos métodos de inicialización son correctos, pero habrá desviaciones en el uso real. Este artículo encuentra este punto a través de un análisis práctico para complementar e implementar el principio de que la práctica produce conocimiento verdadero.
?
?
?
?