Skip to content

DQN code运行结果和样例不同 #183

@Arpicle

Description

@Arpicle

DQN程序运行结果如下:

Image
reward反复经历上升下降的过程,最后逐渐收敛处也不是奖励最大的值,我理解正确的图应该像样例中收敛到最大值不变。

代码直接使用仓库中notebooks/DQN.ipynb的代码,只进行了gym -> gymnasium的替换,以及相应的设置seed时候的一些小更正

环境:

pytorch版本: 2.8.0+cu129
CUDA版本: 13.0
GPU: NVIDIA GeForce RTX 5070 Ti

理论和程序都在自学,如有提问不到之处还请指教,非常感谢!

运行代码附下:
DQN_example.ipynb

Metadata

Metadata

Assignees

No one assigned

    Labels

    No labels
    No labels

    Type

    No type

    Projects

    No projects

    Milestone

    No milestone

    Relationships

    None yet

    Development

    No branches or pull requests

    Issue actions