Tasa de aprendizaje durante el aprendizaje por refuerzo
w := w - \alpha \frac{\partial}Pérdida (w).
¿Aquí? \¿alfa? Es la tasa de aprendizaje. Si la tasa de aprendizaje es demasiado pequeña, la pérdida de la red disminuirá muy lentamente. Si la tasa de aprendizaje es demasiado grande, la magnitud de las actualizaciones de parámetros será grande, lo que hará que la red converja a un óptimo local, o la pérdida comenzará a aumentar directamente.
La sección 3.3 del artículo de Leslie N. Smith "Tasa de aprendizaje cíclico para el entrenamiento de redes neuronales" de 2015 describe un método excelente para encontrar la tasa de aprendizaje inicial. Le recomiendo que lea este artículo. Hay algunos contenidos muy esclarecedores en. eso. La idea de establecer la tasa de aprendizaje.
Este artículo utiliza este método para estimar las tasas de aprendizaje mínimas y máximas permitidas por la red. También podemos usarlo para encontrar nuestra tasa de aprendizaje inicial óptima. El método es muy sencillo. Primero establecemos una pequeña tasa de aprendizaje inicial, como 1e-5. Luego actualizamos la red después de cada lote, aumentamos la tasa de aprendizaje y contamos la pérdida calculada para cada lote. Finalmente, se pueden trazar la curva de aprendizaje y la curva de pérdida, a partir de las cuales se puede encontrar la tasa de aprendizaje óptima.
A medida que la tasa de aprendizaje aumenta de pequeña a grande, la pérdida de la red también cambiará de una posición relativamente grande a una posición relativamente pequeña, y aumentará al mismo tiempo. La tasa de aprendizaje es demasiado pequeña y la pérdida disminuye. Si es demasiado lenta y la tasa de aprendizaje es demasiado grande, la pérdida puede aumentar. De la figura anterior, podemos encontrar una tasa de aprendizaje inicial relativamente razonable, 0,1.
Puede funcionar porque el impacto de una tasa de aprendizaje pequeña en las actualizaciones de parámetros es muy pequeño en comparación con una tasa de aprendizaje grande. Por ejemplo, en la primera iteración, la tasa de aprendizaje es 1e-5 y los parámetros se actualizan. Luego, en la segunda iteración, la tasa de aprendizaje pasa a ser 5e-5 y los parámetros se actualizan nuevamente. Por lo tanto, esta vez se puede considerar que la actualización de parámetros se realiza en los parámetros más originales. La tasa de aprendizaje posterior es mayor y los parámetros se actualizan. Es por esta razón que la configuración de la tasa de aprendizaje debe cambiarse de pequeña a grande. Si la configuración de la tasa de aprendizaje se invierte, de grande a pequeña, la curva de pérdida no tendrá ningún significado.