2026/5/26 23:49:11
网站建设
项目流程
网站建设哈尔滨,ui设计学费多少 要学多久,网站模板html下载,网站建设中的问题PPO 是 Proximal Policy Optimization#xff08;近端策略优化#xff09;的缩写。它是大语言模型在 RLHF#xff08;基于人类反馈的强化学习#xff09; 阶段中#xff0c;用来具体执行“参数修改”的核心算法。如果说 RLHF 是一个宏大的“教学方针”#xff08;用奖励来…PPO是Proximal Policy Optimization近端策略优化的缩写。它是大语言模型在RLHF基于人类反馈的强化学习阶段中用来具体执行“参数修改”的核心算法。如果说RLHF是一个宏大的“教学方针”用奖励来训练 AI那么PPO就是执行这个方针的具体“教学手段”或“数学公式”。它是 OpenAI 用来训练 ChatGPT 的功勋算法曾被视为 AI 对齐领域的“黄金标准”。1. 名字拆解它到底在干嘛为了理解 PPO我们把这三个词拆开来看Policy策略在强化学习里“策略”指的就是AI 模型本身即面对一个问题它决定说什么话的概率分布。优化策略 优化 AI 模型。Optimization优化这个很好理解就是让模型得分更高让奖励模型更喜欢它的回答。Proximal近端/邻近—— 这是最核心的魔法它的意思是“不要改得太猛要保持在原来的附近。”2. 核心逻辑为什么不能“改得太猛”在训练 AI 时我们面临一个巨大的风险模型很容易“学偏”或“崩溃”。 形象的比喻学高尔夫球假设你是一个高尔夫球手AI教练奖励模型告诉你“刚才那杆打得不好扣分。”如果没有 PPO普通强化学习你会因为想要高分彻底改变你的挥杆姿势甚至尝试用脚踢球。结果就是动作完全变形连球都碰不到了模型崩溃。有了 PPO近端优化算法会限制你“你必须在原有姿势的基础上只做微小的调整Proximal。”不管你怎么改你的新姿势不能偏离旧姿势太远。这样虽然进步慢一点但非常稳不会突然都不会打球了。在 LLM 训练中PPO 的作用就是限制每一次参数更新的幅度Clipping防止 AI 为了刷分而彻底忘记了人话怎么说。3. ⚙️ PPO 的工作流程三步走PPO 在 RLHF 流程中是这样工作的生成AI (Actor) 针对一个问题生成回答。打分奖励模型 (Critic) 给这个回答打个分比如 7 分。更新 (PPO Step)PPO 算法计算为了下次能得 8 分参数该怎么改关键约束 (KL 散度)PPO 会检查一下改完后的模型和没改之前的模型差别大不大如果差别太小→ 大胆一点多改点。如果差别太大超过了安全区域/近端范围 →砍掉 (Clip)多余的修改量只许改一点点。4. ⚔️ PPO vs. DPO新老之争PPO 和 DPO 是目前两条主要的技术路线特性PPO (近端策略优化)DPO (直接偏好优化)地位老牌霸主(ChatGPT, GPT-4 早期使用)。新晋网红(Llama 3 微调版, Qwen 等使用)。复杂度极高。需要同时跑 4 个模型显存占用大训练极其不稳定很难调参。低。数学上绕过了奖励模型像普通的微调一样简单稳定。稳定性容易崩溃需要极高的工程技巧。非常稳定容易上手。效果理论上限极高如果调得好效果通常最好。效果逼近 PPO但胜在性价比高。现在的趋势是开源社区和中小企业疯狂拥抱 DPO而像 OpenAI 这样的巨头可能仍在深度魔改 PPO或者结合两者的优点。总结PPO 是一个“稳健派”的 AI 训练算法。它在让 AI 追求高分讨好人类的同时给 AI 戴上了一个“紧箍咒”Proximal 约束强迫 AI 只能一步一个脚印地改进防止它因为步子迈得太大而“走火入魔”。