OpenAI揭露可用来发现ChatGPT生成程序码臭虫的CriticGPT模型

图片来源:

OpenAI

OpenAI周四（6/27）揭露一个奠基于GPT-4的新模型CriticGPT，它目前扮演人类训练师的AI助手角色，可用来审查ChatGPT所生成的程序码，并找出错误。

现阶段的ChatGPT也是基于GPT-4模型，它藉由人类反馈的强化学习（Reinforcement Learning from Human Feedback，RLHF）来调整其输出表现，亦即由人类训练师根据模型的行动来提供反馈或意见，而CriticGPT也能用来审核ChatGPT输出程序码时的表现，OpenAI正在将CriticGPT整合到RLHF的标籤管道中，以替人类训练师提供明确的AI说明。

OpenAI指出，随着模型行为与推论的进步，ChatGPT变得更加精确，错误也变得更为微妙，令人类的AI训练师更难找出其错误之处，并对RLHF方法造成了挑战，使得模型的调整愈来愈困难，这使得他们训练CriticGPT来进行评论，以突显ChatGPT输出的错误。

根据OpenAI的测试，人类训练师在取得CriticGPT的协助之后，审核ChatGPT生成程序码的表现在大多数时候（60%），优于没有CriticGPT帮忙的时候。

总之，OpenAI发现，在CriticGPT的协助下，人类训练师不仅得以发现更多的问题，而且还能藉由CriticGPT强化人类的技能，提出更全面的批评，还能减少幻觉错误。

只是CriticGPT现阶段仍有其侷限性，例如所支援的答案很短，也还会产生幻觉，尚未能解决分散的错误，也还无法处理过于複杂的任务或回应。

CB科技站

OpenAI揭露可用来发现ChatGPT生成程序码臭虫的CriticGPT模型

与本文相关的文章