## Objectif Stabiliser l'entraînement avec une target network et gérer l'exploration. ## Tasks - [ ] Créer `target_net` = copie de `q_net` (`copy.deepcopy`) - [ ] Mise à jour périodique : `target_net.load_state_dict(q_net.state_dict())` tous les N épisodes - [ ] Implémenter epsilon-greedy : action aléatoire avec proba epsilon, sinon `argmax(Q(s))` - [ ] Decay : `epsilon = max(epsilon_end, epsilon * epsilon_decay)` après chaque épisode ## Critère de succès Epsilon part de 1.0 et converge vers 0.01 au fil des épisodes.
Objectif
Stabiliser l'entraînement avec une target network et gérer l'exploration.
Tasks
target_net= copie deq_net(copy.deepcopy)target_net.load_state_dict(q_net.state_dict())tous les N épisodesargmax(Q(s))epsilon = max(epsilon_end, epsilon * epsilon_decay)après chaque épisodeCritère de succès
Epsilon part de 1.0 et converge vers 0.01 au fil des épisodes.