reinforcement learning Archives

Deep Q Learning : Guide Complet — Q-Learning Profond

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

Le Deep Q Learning approxime la fonction Q avec un réseau de neurones pour gérer des espaces d’états complexes. Guide complet avec experience replay et target network.

Lire

Python & Stuff

TD3 : Guide Complet — Twin Delayed Deep Deterministic Policy Gradient

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

TD3 corrige les failles du DDPG avec double critic et mise à jour retardée de l’actor. Guide complet avec code PyTorch.

Lire

Python & Stuff

SAC : Guide Complet — Actor-Critic avec Entropie Maximale

09/04/2026 - by Salah YAHIAOUI - Leave a Comment

SAC maximise récompense ET entropie pour une exploration efficace dans les espaces continus. Guide complet avec code PyTorch.

Lire

Python & Stuff

DDPG : Guide Complet — Gradient de Politique Déterministe Profond

09/04/2026 - by Salah YAHIAOUI - Leave a Comment

DDPG étend le DQN aux espaces d’action continus avec un actor-critic déterministe et des cibles stables. Guide complet avec PyTorch.

Lire

Python & Stuff

PPO : Guide Complet — Optimisation Proximale par Renforcement

09/04/2026 - by Salah YAHIAOUI - Leave a Comment

PPO est l’algorithme de reinforcement learning le plus utilisé pour l’entraînement stable d’agents. Guide complet avec code PyTorch.

Lire

Python & Stuff

Deep Q-Network : Guide Complet — DQN et Deep Reinforcement Learning

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

Le DQN combine Q-Learning et réseaux de neurones profonds pour apprendre à jouer à des jeux directement à partir des pixels. Guide complet avec code Python.

Lire

Python & Stuff

PPO : Guide Complet — Proximal Policy Optimization

09/04/2026 - by Salah YAHIAOUI - Leave a Comment

PPO est l’algorithme de reinforcement learning le plus utilisé en 2026. Guide complet avec fonction de surrogaît et clipping, implémentation PyTorch.

Lire

Python & Stuff

A3C : Guide Complet — Acteur-Critique Asynchrone

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

L’A3C utilise plusieurs agents parallèles pour apprendre plus rapidement par renforcement. Guide complet avec actor-critic et code PyTorch.

Lire

Python & Stuff

Policy Gradient : Guide Complet — Optimisation Directe de la Politique

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

Le Policy Gradient optimise directement la politique d’un agent sans passer par une fonction de valeur. Guide complet avec REINFORCE et code Python.

Lire

Python & Stuff

Deep Q-Network (DQN) : Guide Complet — Q-Learning Profond

09/04/202609/04/2026 - by Salah YAHIAOUI - Leave a Comment

Le DQN remplace la table Q par un réseau de neurones pour gérer des espaces d’états complexes. Guide complet avec experience replay et target network.

Lire