[DQN-3] Coder la Target Network + epsilon-greedy decay

## Objectif
Stabiliser l'entraînement avec une target network et gérer l'exploration.

## Tasks
- [ ] Créer `target_net` = copie de `q_net` (`copy.deepcopy`)
- [ ] Mise à jour périodique : `target_net.load_state_dict(q_net.state_dict())` tous les N épisodes
- [ ] Implémenter epsilon-greedy : action aléatoire avec proba epsilon, sinon `argmax(Q(s))`
- [ ] Decay : `epsilon = max(epsilon_end, epsilon * epsilon_decay)` après chaque épisode

## Critère de succès
Epsilon part de 1.0 et converge vers 0.01 au fil des épisodes.

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

[DQN-3] Coder la Target Network + epsilon-greedy decay #9

Objectif

Tasks

Critère de succès

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

[DQN-3] Coder la Target Network + epsilon-greedy decay #9

Description

Objectif

Tasks

Critère de succès

Metadata

Metadata

Assignees

Labels

Type

Fields

Projects

Milestone

Relationships

Development

Issue actions