CriticGPT：让 GPT-4 为 GPT-4 挑错

chatgpt2024-07-01 12:51:29594

先做个广告：如需代注册帐号或代充值Chatgpt Plus会员，请添加站长客服微信：pingzi7749

用 GPT-4 发现 GPT-4 的错误

CriticGPT 是一个基于 GPT-4 的模型，它对 ChatGPT 的回答进行批评，以帮助人类训练员在 RLHF 过程中发现错误。

我们训练了一个基于 GPT-4 的模型，名为 CriticGPT，用于捕捉 ChatGPT 代码输出中的错误。我们发现，当人们在审查 ChatGPT 代码时得到 CriticGPT 的帮助，他们 60% 的时间表现优于没有帮助的人。我们正在着手将类似 CriticGPT 的模型整合到我们的 RLHF 标注流程中，为我们的训练员提供明确的 AI 辅助。这是朝着能够评估高级 AI 系统输出的一步，这些输出如果没有更好的工具，人们可能难以评分。

GPT-4 系列模型(为 ChatGPT 提供动力)通过"人类反馈强化学习"(RLHF)来实现有帮助和互动的目标。RLHF 的一个关键部分是收集比较，其中被称为 AI 训练员的人员对不同的 ChatGPT 回答进行相互评分。

随着我们在推理和模型行为方面取得进展，ChatGPT 变得更加准确，而它的错误也变得更加微妙。这可能使 AI 训练员难以发现确实发生的不准确之处，使为 RLHF 提供动力的比较任务变得更加困难。这是 RLHF 的一个根本限制，随着模型逐渐变得比任何可以提供反馈的人更有知识，它可能会使模型的对齐变得越来越困难。

为了应对这一挑战，我们训练了 CriticGPT 来撰写批评，突出 ChatGPT 答案中的不准确之处。

CriticGPT 的建议并不总是正确的，但我们发现它们可以帮助训练员捕捉到比没有 AI 帮助时更多的模型书写答案中的问题。此外，当人们使用 CriticGPT 时，AI 增强了他们的技能，产生的批评比人们单独工作时更全面，比模型单独工作时产生的幻觉错误更少。在我们的实验中，第二个随机训练员超过 60% 的时间更倾向于人类+CriticGPT 团队的批评，而不是未经辅助的人的批评。

方法

CriticGPT 也是通过 RLHF 训练的，类似于 ChatGPT。但与 ChatGPT 不同的是，它看到了大量包含错误的输入，然后必须对这些错误进行批评。我们要求 AI 训练员手动将这些错误插入到 ChatGPT 编写的代码中，然后写出示例反馈，就好像他们刚刚发现了他们插入的错误。然后，同一个人比较了对修改后代码的多个批评，这样他们就可以轻松地判断出哪个批评捕捉到了他们插入的错误。在我们的实验中，我们既研究了 CriticGPT 是否能捕捉到插入的错误，也研究了先前训练员捕捉到的 ChatGPT"自然发生"的错误。我们发现，在自然发生的错误上，训练员在 63% 的情况下更喜欢 CriticGPT 的批评而不是 ChatGPT 的批评，部分原因是新的批评者产生的"吹毛求疵"(不太有帮助的小抱怨)更少，幻觉出问题的频率也更低。

我们还发现，通过对批评奖励模型使用额外的测试时搜索，我们可以生成更长、更全面的批评。这种搜索程序允许我们平衡我们在代码中寻找问题的积极程度，并在幻觉和检测到的错误数量之间配置精确度-召回率权衡。这意味着我们可以生成对 RLHF 尽可能有帮助的批评。更多细节请参见我们的研究论文。

局限性