[DQN-4] Intégrer l'agent dans train.py + boucle complète

## Objectif
Boucle d'entraînement complète dans `train.py`.

## Boucle
```
pour chaque épisode:
  obs = env.reset()
  tant que not done:
    action = agent.act(obs)         # epsilon-greedy
    next_obs, r, term, trunc, _ = env.step(action)
    buffer.push(obs, action, r, next_obs, done)
    si buffer assez grand:
      agent.learn()                 # sample + backprop
    obs = next_obs
  epsilon decay
  si épisode % target_update == 0:
    update target network
```

## Critère de succès
L'agent s'entraîne sans erreur et le score moyen augmente au fil du temps.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[DQN-4] Intégrer l'agent dans train.py + boucle complète #10

Objectif

Boucle

Critère de succès

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[DQN-4] Intégrer l'agent dans train.py + boucle complète #10

Description

Objectif

Boucle

Critère de succès

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions