-
Notifications
You must be signed in to change notification settings - Fork 2.2k
Open
Description
DQN程序运行结果如下:

reward反复经历上升下降的过程,最后逐渐收敛处也不是奖励最大的值,我理解正确的图应该像样例中收敛到最大值不变。
代码直接使用仓库中notebooks/DQN.ipynb的代码,只进行了gym -> gymnasium的替换,以及相应的设置seed时候的一些小更正
环境:
pytorch版本: 2.8.0+cu129
CUDA版本: 13.0
GPU: NVIDIA GeForce RTX 5070 Ti
理论和程序都在自学,如有提问不到之处还请指教,非常感谢!
运行代码附下:
DQN_example.ipynb
Metadata
Metadata
Assignees
Labels
No labels