Consejos de clasificación de imágenes de CNN (2): disminución de la tasa de aprendizaje del coseno
En la formación de aprendizaje profundo, el ajuste de la tasa de aprendizaje es muy importante. La caída exponencial de lr es la más utilizada y ampliamente utilizada, y sus cambios en la tasa de aprendizaje se muestran en la siguiente figura:
La línea roja muestra la caída exponencial de lr estándar. La línea azul es la caída escalonada de lr que mantiene constante la tasa de aprendizaje durante un período de tiempo. La ventaja de este método de atenuación es que converge rápidamente y es sencillo.
Loshilov propuso la estrategia de recocido del coseno. Una versión simplificada de esto es reducir la tasa de aprendizaje del valor inicial a cero según la función coseno. Suponiendo que el número total de lotes es, dentro de un lote, la tasa de aprendizaje se puede calcular de acuerdo con la siguiente fórmula:
Como se muestra en la figura, la caída del coseno reduce lentamente la tasa de aprendizaje al principio. es casi lineal en el medio y es casi lineal al final, disminuya lentamente la tasa de aprendizaje nuevamente.