[EVAL-1] Coder eval.py : charger le modèle + 100 épisodes

## Objectif
Evaluation finale de l'agent entraîné.

## Tasks
- [ ] Charger `checkpoints/best_model.pt` avec `torch.load()`
- [ ] Jouer 100 épisodes avec epsilon = 0 (pure exploitation)
- [ ] Calculer : mean score, std, min, max
- [ ] Afficher la distribution des scores

## Critère de succès
Mean score ≥ 200 sur 100 épisodes consécutifs.