Meta 发布 CGPO：克服奖励欺骗，提升多任务学习效率

AI设计

3周前

近年来，随着大规模语言模型（LLMs）的发展，特别是通用大模型的应用场景愈发广泛，RLHF 逐渐成为调整和优化语言模型输出的主流方法。尽管 RLHF 在处理复杂任务时表现出色，但其在多任务学习（MTL）中的表现却受限于「奖励欺骗」以及多目标优化中的矛盾问题。传统的 RLHF 方法依赖于线性组合的奖励模型，不仅需要人工调参，且容易导致模型被某一任务的奖励优化「误导」。最近 Meta GenAI 和 FAIR 团队提出了一个全新的后训练范式 ——Constrained Generative Policy Optimization （CGPO），通过引入「混合评审机制」（Mixture of Judges, MoJ）与高效的约束优化器，全面提升了 RLHF 在多任务环境中的表现。

CGPO 的核心在于它突破了传统 RLHF 对多任务学习的局限性，尤其是在奖励优化与任务目标冲突之间找到了新的平衡。通过混合评审机制，CGPO 能够有效识别并消除「奖励欺骗」行为，即模型在某些任务中过度优化特定的奖励指标，进而导致其他任务的表现下降。此外，CGPO 的约束优化器具备自动化调节能力，使其可以在不依赖人工经验的情况下，找到不同任务间的最优平衡点。

CGPO 采用了基于规则和 LLM 的双重评审机制。在规则评审中，预先定义的规则能够有效检测出模型生成结果是否符合任务需求，如解决数学问题的正确性、代码生成的准确性等；而 LLM 评审则利用语言模型的内在判断能力，检测生成内容的事实性、响应的安全性等，这对于处理复杂对话和开放性问题尤为重要。

CGPO 的设计从根本上解决了 RLHF 在多任务优化中的两大难题：

1. 奖励欺骗的防范
CGPO 通过混合评审机制，在模型生成的过程中持续监控奖励欺骗行为，保证模型不会过度优化某一任务的奖励，而牺牲其他任务的表现。不同于传统 RLHF 方法，CGPO 能够智能检测出不合规的生成内容，并通过约束策略进行调整。

2. 极端多目标优化问题的解决
多任务学习通常涉及多个甚至冲突的目标，传统的 RLHF 框架难以处理这些目标之间的平衡。而 CGPO 通过为每个任务单独设定评审和优化器，确保各任务能够独立优化其目标，避免了不同任务目标之间的相互妥协。最终，CGPO 为多任务学习提供了更优的帕累托前沿解。

CGPO 框架的核心包括两个部分：多目标奖励建模和多专家对齐。

1. 多目标奖励建模
CGPO 的多目标奖励建模不同于传统 RLHF（在多目标场景中的方法。传统方法通常为所有任务使用统一的线性组合奖励模型，而 CGPO 则先将提示集 D 按照性质分类为不同、不重叠的子集，即 D = {D1, D2,..., DL}，每个子集 Di 对应一个特定任务，例如包含有害意图的提示归为“有害意图”任务，而一般对话提示归为「普通对话」任务。然后，针对每个任务，选择一个合适的奖励模型进行训练，以确保每个任务在优化过程中只关注自身的目标指标，避免其他任务目标的干扰。通过这种分类和奖励模型定制，CGPO 能更好地排除不相关或相互矛盾的目标，从而提高在每个任务中达成最优结果的可能性。

2. 多专家对齐
多专家对齐是指为每个任务应用定制化的多任务判定器（MoJs）、奖励模型和优化器设置。在每个任务生成样本后，使用专门为该任务定制的判定器来筛选不符合标准的生成结果。判定器的选择因任务而异，以反映各奖励模型的具体缺点和对 LLM 的预期标准。例如，在「普通对话」任务中，判定器会专注于评估回复的真实性和拒答情况，从而提升模型的响应性和可靠性。而在「推理」任务中，则使用基于规则的数学 / 编程判定器，以确保输出的准确性。在有约束要求且需要更广泛探索的任务（如指令跟随、数学和编程）中，CGPO 会采用较宽松的 KL 阈值，并允许每个提示生成更多的样本。

Meta 发布 CGPO：克服奖励欺骗，提升多任务学习效率

最新内容