Skip to content

[DQN-3] Coder la Target Network + epsilon-greedy decay #9

@Celz-Pch

Description

@Celz-Pch

Objectif

Stabiliser l'entraînement avec une target network et gérer l'exploration.

Tasks

  • Créer target_net = copie de q_net (copy.deepcopy)
  • Mise à jour périodique : target_net.load_state_dict(q_net.state_dict()) tous les N épisodes
  • Implémenter epsilon-greedy : action aléatoire avec proba epsilon, sinon argmax(Q(s))
  • Decay : epsilon = max(epsilon_end, epsilon * epsilon_decay) après chaque épisode

Critère de succès

Epsilon part de 1.0 et converge vers 0.01 au fil des épisodes.

Metadata

Metadata

Assignees

No one assigned

    Labels

    Type

    No type
    No fields configured for issues without a type.

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions