DQN code运行结果和样例不同

DQN程序运行结果如下：

![Image](https://github.com/user-attachments/assets/4dee94e6-1c56-4a5b-86be-fea3e2d7ac2e)
reward反复经历上升下降的过程，最后逐渐收敛处也不是奖励最大的值，我理解正确的图应该像样例中收敛到最大值不变。

代码直接使用仓库中notebooks/DQN.ipynb的代码，只进行了gym -> gymnasium的替换，以及相应的设置seed时候的一些小更正

环境：
```
pytorch版本: 2.8.0+cu129
CUDA版本: 13.0
GPU: NVIDIA GeForce RTX 5070 Ti
```

理论和程序都在自学，如有提问不到之处还请指教，非常感谢！

运行代码附下：
[DQN_example.ipynb](https://github.com/user-attachments/files/22850970/DQN_example.ipynb)



Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Uh oh!

DQN code运行结果和样例不同 #183

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

DQN code运行结果和样例不同 #183

Description

Metadata

Metadata

Assignees

Labels

Type

Projects

Milestone

Relationships

Development

Issue actions