DDPG y TD3
DDPG recientemente aprendió una función Q y una política.
DDPG y Q-learning son muy similares. Ambos esperan conocer la función del valor de la acción y obtener la acción en un estado determinado.
En el espacio discreto, se puede calcular el valor Q y seleccionar el valor máximo, pero en el espacio de acción continuo, no se puede evaluar todo el espacio de acción y es difícil optimizarlo.
En el espacio de acción continua, es diferenciable con respecto a los parámetros de acción, lo que nos permite derivar políticas basadas en criterios de aprendizaje de gradiente para estimar acciones.
Ecuación de Bellman:
Indica que se muestrea el siguiente estado.
Asuma una red neuronal como estimación, registro y parámetros de la función Q. Hay datos recopilados. Medida en términos del error cuadrático medio de Bellman, la ecuación de Bellman estimada puede satisfacerse.
Los aproximadores de funciones de los algoritmos Q-learning, como DQN y sus variantes, se basan en gran medida en minimizar la función de pérdida MSBE. Las técnicas comúnmente utilizadas incluyen buffers de reproducción y redes de destino.
Además, es difícil lograr el máximo funcionamiento del espacio de acción continua mencionado anteriormente en DDPG. DDPG utiliza la red de políticas de destino para calcular que una acción se puede maximizar aproximadamente (red de destino de función Q). La síntesis se puede escribir de la siguiente forma:
Para la política de destino.
Aprendizaje de políticas: Queremos aprender una política que maximice su efectividad. Porque el espacio de acción es continuo. Suponemos que la función Q es diferenciable en acciones y solo necesitamos realizar una optimización del ascenso de gradiente.
Aquí los parámetros de la función Q se tratan como constantes.
DDPG entrena políticas deterministas de manera cerrada. Debido a que la política es determinista, si el agente explora la política desde el principio, puede tener dificultades para intentar una gama más amplia de acciones para explotar señales de aprendizaje útiles. Por lo tanto, para que la política DDPG sea más exploratoria, se agrega ruido a la capacitación para que coincida con la acción.
El artículo del autor original recomienda el ruido OU relacionado con el tiempo. Algunos resultados de investigaciones recientes muestran que el ruido gaussiano de media cero es mejor y es más simple y fácil de implementar. Para obtener inicialmente datos de entrenamiento de mayor calidad, la escala de ruido se puede reducir durante el entrenamiento.
En la fase de prueba, para observar la tasa de utilización del aprendizaje del agente, no se agregó ningún ruido.
La desventaja de DDPG es que generalmente no es lo suficientemente robusto para hiperparámetros y otros ajustes. Una de las principales razones del fracaso es que la función Q sobreestima los valores Q, lo que provoca que la estrategia colapse debido a errores en el uso de la función Q. TD3 introduce las siguientes técnicas para resolver este problema:
Suavizado de políticas de destino
Recorte del aprendizaje de doble Q
Dos funciones q utilizan un objetivo y dos q El valor pequeño obtenido por la función se utiliza como valor objetivo.
Ambos realizan aprendizaje de regresión en el objetivo.
En comparación con DDPG, la fórmula de actualización de la estrategia no ha cambiado: