## Objectif Evaluation finale de l'agent entraîné. ## Tasks - [ ] Charger `checkpoints/best_model.pt` avec `torch.load()` - [ ] Jouer 100 épisodes avec epsilon = 0 (pure exploitation) - [ ] Calculer : mean score, std, min, max - [ ] Afficher la distribution des scores ## Critère de succès Mean score ≥ 200 sur 100 épisodes consécutifs.
Objectif
Evaluation finale de l'agent entraîné.
Tasks
checkpoints/best_model.ptavectorch.load()Critère de succès
Mean score ≥ 200 sur 100 épisodes consécutifs.