[DQN-2] Coder le Replay Buffer dans agent.py

## Objectif
Stockage et sampling des expériences passées.

## Tasks
- [ ] Créer la classe `ReplayBuffer(capacity)`
- [ ] Méthode `push(state, action, reward, next_state, done)`
- [ ] Méthode `sample(batch_size)` → batch aléatoire
- [ ] Utiliser `collections.deque` avec `maxlen=capacity`

## Critère de succès
Le buffer stocke 50 000 transitions et retourne des batchs de la bonne shape.