pour chaque épisode:
obs = env.reset()
tant que not done:
action = agent.act(obs) # epsilon-greedy
next_obs, r, term, trunc, _ = env.step(action)
buffer.push(obs, action, r, next_obs, done)
si buffer assez grand:
agent.learn() # sample + backprop
obs = next_obs
epsilon decay
si épisode % target_update == 0:
update target network
L'agent s'entraîne sans erreur et le score moyen augmente au fil du temps.
Objectif
Boucle d'entraînement complète dans
train.py.Boucle
Critère de succès
L'agent s'entraîne sans erreur et le score moyen augmente au fil du temps.