ppo算法简单实现

张开发

• 2026/4/16 13:20:13 • 15 分钟阅读

分享文章

导入必要的库importtorchimporttorch.nnasnnimporttorch.optimasoptimimporttorch.nn.functionalasFimportgymimportnumpyasnp超参数# --- 超参数 ---learning_rate0.002gamma0.99lmbda0.95# GAE 参数eps_clip0.1# PPO 剪切范围K_epochs3# 同一批数据重复训练次数T_horizon20# 步长周期定义PPO模型classPPO(nn.Module):def__init__(self):super(PPO,self).__init__()self.data[]self.fc1nn.Linear(4,256)self.fc_pinn.Linear(256,2)# 策略头 (Actor)self.fc_vnn.Linear(256,1)# 价值头 (Critic)self.optimizeroptim.Adam(self.parameters(),lrlearning_rate)defpi(self,x,softmax_dim0):xF.relu(self.fc1(x))xself.fc_pi(x)probsF.softmax(x,dimsoftmax_dim)returnprobsdefv(self,x):xF.relu(self.fc1(x))vself.fc_v(x)returnvdefput_data(self,transition):self.data.append(transition)defmake_batch(self):s_lst,a_lst,r_lst,s_prime_lst,prob_a_lst,done_lst[],[],[],[],[],[]fortransitioninself.data:s,a,r,s_prime,prob_a,donetransition s_lst.append(s);a_lst.append([a]);r_lst.append([r])s_prime_lst.append(s_prime);prob_a_lst.append([prob_a]);done_lst.append([done])s,a,r,s_prime,done,prob_atorch.tensor(s_lst,dtypetorch.float),torch.tensor(a_lst),\ torch.tensor(r_lst),torch.tensor(s_prime_lst,dtypetorch.float),\ torch.tensor(done_lst,dtypetorch.float),torch.tensor(prob_a_lst)self.data[]returns,a,r,s_prime,done,prob_adeftrain_net(self):s,a,r,s_prime,done,prob_aself.make_batch()foriinrange(K_epochs):# 计算 TD Target 和 Advantage (GAE 简化版)td_targetrgamma*self.v(s_prime)*(1-done)deltatd_target-self.v(s)deltadelta.detach().numpy()advantage_lst[]adv0.0fordelta_tindelta[::-1]:advgamma*lmbda*advdelta_t[0]advantage_lst.append([adv])advantage_lst.reverse()advantagetorch.tensor(advantage_lst,dtypetorch.float)# 计算 Ratiopiself.pi(s,softmax_dim1)pi_api.gather(1,a)ratiotorch.exp(torch.log(pi_a)-torch.log(prob_a))# PPO 核心损失函数surr1ratio*advantage surr2torch.clamp(ratio,1-eps_clip,1eps_clip)*advantage loss-torch.min(surr1,surr2)F.smooth_l1_loss(self.v(s),td_target.detach())self.optimizer.zero_grad()loss.mean().backward()self.optimizer.step()主循环# --- 主循环 ---defmain():envgym.make(CartPole-v1)modelPPO()score0.0forn_epiinrange(1000):senv.reset()[0]ifisinstance(env.reset(),tuple)elseenv.reset()doneFalsewhilenotdone:fortinrange(T_horizon):probmodel.pi(torch.from_numpy(s).float())mtorch.distributions.Categorical(prob)am.sample().item()step_resultenv.step(a)iflen(step_result)5:s_prime,r,terminated,truncated,infostep_result doneterminatedortruncatedelse:s_prime,r,done,infostep_result model.put_data((s,a,r/100.0,s_prime,prob[a].item(),done))ss_prime scorerifdone:breakmodel.train_net()ifn_epi%200andn_epi!0:print(f# Episode:{n_epi}, Avg Score:{score/20})score0.0env.close()if__name____main__:main()

ppo算法简单实现

最新文章

为什么顶级设计师偏爱“铝镁锰”？揭秘高端屋面的材料美学与性能逻辑

深入解析Android 4G上网的PPP协议与链路建立机制

如何在雀魂游戏中免费解锁全角色皮肤：简单三步教程

大模型API限流设计实战指南（QPS突增200%仍稳如磐石：基于请求语义+Token消耗双维度限流）

终极静音方案：FanControl风扇控制软件深度解析与实战指南

揭秘世界模型：学术界如何构建通用 AI 的‘大脑‘？

推荐文章

ATCODER ABC C题解济

英雄联盟智能辅助工具League Akari：让你轻松成为游戏高手 [特殊字符]✨

同城预约上门服务系统源码：从技术架构到落地实践的深度剖析

PyTorch学习率调度器实战：从基础到高级策略全解析

python开发之路【第四章】：python程序流程控制督

跑得越慢反而越牛？你的身体其实在偷偷“扩容带宽”

相关文章

无损音乐下载与高品质音频管理：tidal-dl-ng的核心能力探索

LyricsX：让歌词如影随形的桌面歌词助手

如何利用自动化抢票工具突破大麦网90%的抢票失败率：从绝望到成功的完整指南

电子设计竞赛必备：RC、运放、TTL信号处理电路实战指南（附避坑技巧）

从RoboMaster到智能仓储：深入聊聊麦克纳姆轮底盘的那些‘坑’与最佳实践

libhv实战：从零构建一个高效的WebSocket客户端

分享文章

更多文章

从‘炼丹’到‘理解’：为什么说扩散模型的本质是流形学习？一个玩具实验带来的启发

Cesium里billboard图片总被遮挡？一个Canvas合并图片的异步操作避坑指南

学习记录：RISC-V CPU实践——从零开始（二）编写汇编程序和C程序

终极指南：如何使用环境变量自定义mdp列表字符的完整教程

3分钟掌握IP地址定位：零门槛的PHP离线定位解决方案

NewJob智能识别插件：让求职效率翻倍的时间管理工具

Linux的gpio子系统

TFT-LCD制程之CF制程：从黑色矩阵到Photo Spacer的全面解析

mdp配置完全手册：自定义颜色、键绑定和列表字符的终极指南

如何快速构建智能问答系统：Synonyms中文近义词工具包完全指南

Qwen3-0.6B-FP8商业应用：轻量级客服机器人在电商售后中的落地案例

解锁Linux游戏潜力：DXVK配置实战指南