La Red de Conocimientos Pedagógicos - Currículum vitae - Análisis del entorno del gimnasio: Pendulum-v0

Análisis del entorno del gimnasio: Pendulum-v0

El problema del péndulo invertido es un problema clásico en la literatura de control. En esta versión del problema, el péndulo comienza en una posición aleatoria y el objetivo es girarlo hacia arriba para que permanezca en posición vertical.

Tipo: Control continuo

El estado es la representación interna más primitiva del entorno, y la observación es una función del estado. Por ejemplo, lo que vemos no es necesariamente su verdadero estado en el mundo, sino información procesada por nuestro cerebro.

La ecuación precisa de recompensa:

p >

Normaliza entre y . Por lo tanto,

el costo mínimo es ,

el costo máximo es 0.

Esencialmente, el objetivo es mantener el ángulo cero (vertical) con una velocidad de rotación mínima y una fuerza mínima.

Ángulos aleatorios desde y y velocidades aleatorias entre -1 y 1

No se especifica ningún estado de terminación. Podría ser una buena idea agregar un número máximo de pasos.

Aún no se ha especificado

Primero analice (x pi)(2*pi)-pi e introduzca varios ángulos, como x=pi/4, return=pi / 4; x=3*pi/4, retorno=3*pi/4; x=5*pi/4, retorno=-3*pi/4. De esta forma podemos dibujar lo siguiente [4]: ​​​​

Referencia: