## Objectif Stockage et sampling des expériences passées. ## Tasks - [ ] Créer la classe `ReplayBuffer(capacity)` - [ ] Méthode `push(state, action, reward, next_state, done)` - [ ] Méthode `sample(batch_size)` → batch aléatoire - [ ] Utiliser `collections.deque` avec `maxlen=capacity` ## Critère de succès Le buffer stocke 50 000 transitions et retourne des batchs de la bonne shape.
Objectif
Stockage et sampling des expériences passées.
Tasks
ReplayBuffer(capacity)push(state, action, reward, next_state, done)sample(batch_size)→ batch aléatoirecollections.dequeavecmaxlen=capacityCritère de succès
Le buffer stocke 50 000 transitions et retourne des batchs de la bonne shape.