OpenAI 的新突破:Prover-Verifier Games 和“草莓”项目

元描述: OpenAI 的 Prover-Verifier Games(PVG) 框架和代号为“草莓”的项目,旨在提高大模型的准确性和推理能力,并朝着实现通用人工智能(AGI)的目标迈进。

引言: 随着 ChatGPT 等大模型在各行各业的广泛应用,确保其输出的安全、准确和可理解性变得至关重要。然而,由于神经网络的复杂性,我们难以验证其生成内容的准确性,这引发了对“黑盒”输出的担忧。为了克服这一挑战,OpenAI 推出了新的训练框架 Prover-Verifier Games(PVG) 和代号为“草莓”的项目,旨在提升大模型的准确性和推理能力,并最终实现通用人工智能(AGI)。

Prover-Verifier Games:确保输出质量的新方法

PVG 是一种基于博弈论的训练方法,通过模拟证明者和验证者之间的互动,提高模型的输出质量。

  • 证明者(Prover) 负责生成内容,而 验证者(Verifier) 则负责判断这些内容是否正确。
  • 这种机制旨在让验证者学会如何从大量内容中识别出正确的答案。
  • 证明者和验证者相互依赖,证明者需要生成能够说服验证者的内容,而验证者则需要具备足够的判断力来识别出正确的内容。
  • 训练过程中,验证者和证明者轮流进行优化。验证者通过监督学习预测内容的正确性,而证明者则通过强化学习优化其生成的内容。

PVG 的实际应用

例如,当用户提出问题“肖娜的父亲的年龄是肖娜的5倍。肖娜目前的年龄是阿莉亚的3倍。如果阿莉亚3岁,肖娜的父亲有多大?”,GPT-4 可能会输出 45 岁。

  • 验证者模型 GPT-3 需要根据阿莉亚的年龄计算出肖娜的年龄,最后再根据肖娜的年龄计算出肖娜父亲的年龄,整个过程需要多轮验证。
  • OpenAI 还引入了 “可检查性训练”(checkability training) 方法,通过交替训练验证器和证明者模型,以增强验证器的健全性和证明者的清晰度。

大模型的数学能力:挑战与机遇

尽管大模型在许多领域展现出令人惊叹的能力,但在数学能力方面仍然存在缺陷。

  • 最近有报道称,一些大模型在比较数字大小、进行简单的数学运算时出现了错误,例如,将 9.9 与 9.11 比较错误。
  • 这些错误可能是由于训练数据偏差、输入处理与理解、模型幻觉以及推理能力不足等原因造成的。
  • 大模型企业人士表示,这并非无法解决的技术难点,只要提供足够的训练数据,就能提高大模型的数学能力,但目前大部分大模型厂商并未将这方面训练作为重点,因此出现了错误回答。

OpenAI 的“草莓”项目:迈向AGI的关键一步

OpenAI 正在一个代号为“草莓”的项目中开发一种新的 AI 模型,旨在赋予大模型更接近人类的推理能力。

  • 该项目细节尚未公开,但据知情人士透露,OpenAI 正在努力展示其模型能够提供高级推理能力。
  • “草莓”项目旨在使 AI 模型不仅能生成查询的答案,还能提前做好计划,自主、可靠地在互联网上导航,以执行 OpenAI 所说的“深度研究”。
  • OpenAI 并未直接回应有关“草莓”项目的疑问,但确认正在研究新的 AI 能力,并相信这些系统的推理能力会随着时间的推移而提高。

“草莓”项目与 Q* 的关系

“草莓”项目此前名为 Q,而 Q 正是去年 OpenAI CEO 奥特曼被解雇的导火索。

  • 据称,Q 项目取得重大突破,让人类实现通用人工智能(AGI)的步伐大大提速,但奥特曼可能没有向董事会详细披露 Q 的进展,引发了董事会的担忧。
  • 内部人士警告称,Q* 的重大发现可能威胁全人类。
  • 媒体猜测,Q* 可能具备 GPT-4 所不具备的基础数学能力,并拥有与人类智能相媲美的推理能力,这可能代表 OpenAI 迈向 AGI 目标的一大步。

OpenAI 的 AGI 目标

OpenAI 计划在 2027 年以前,开发出人类水平的 AGI。

  • 他们从 2022 年开始训练一个名为 Arrakis 或 Q* 的 125 万亿参数多模态模型,原计划在 2025 年作为 GPT-5 发布,但由于推理成本高而取消。
  • OpenAI 计划在 2027 年发布 Q 2025(GPT-8),实现完全的 AGI。
  • OpenAI 开发了一套系统来“自定义” AI 进化等级,以此追踪开发人类级别 AI 的进展。

关于 Prover-Verifier Games 和“草莓”项目的常见问题解答

Q1:PVG 如何改善大模型的输出质量?

A1: PVG 通过模拟证明者和验证者之间的互动,提高模型生成内容的准确性和可理解性。验证者学会识别正确答案,而证明者则优化其生成的内容,从而确保输出质量。

Q2:为什么大模型在数学能力方面存在缺陷?

A2: 大模型在数学能力方面存在缺陷,可能是由于训练数据偏差、输入处理与理解、模型幻觉以及推理能力不足等原因造成的。

Q3:OpenAI 的“草莓”项目有何特别之处?

A3: “草莓”项目旨在赋予大模型更接近人类的推理能力,使 AI 模型能够自主、可靠地在互联网上导航,执行“深度研究”。

Q4:OpenAI 如何衡量 AI 的进化等级?

A4: OpenAI 开发了一套系统来“自定义” AI 进化等级,追踪开发人类级别 AI 的进展。

Q5:OpenAI 的 AGI 目标是什么?

A5: OpenAI 计划在 2027 年以前,开发出人类水平的 AGI,并计划在 2027 年发布 Q 2025(GPT-8)来实现完全的 AGI。

Q6:OpenAI 的“草莓”项目会带来哪些潜在风险?

A6: “草莓”项目可能带来的潜在风险包括:

  • 信息安全风险: 能够自主导航互联网的 AI 模型可能被用于获取敏感信息或进行恶意操作。
  • 伦理风险: 拥有高度推理能力的 AI 模型可能会做出与人类价值观相冲突的决定。
  • 社会影响: 高度智能的 AI 模型可能会取代人类的工作,并导致社会结构的改变。

结论:

OpenAI 的 PVG 框架和“草莓”项目代表着 AI 技术的重大进步,它们旨在提高大模型的准确性和推理能力,并最终实现通用人工智能(AGI)。然而,随着 AI 技术的不断发展,我们也需要关注其带来的潜在风险,并制定相应的安全措施和伦理规范。OpenAI 的努力和创新表明,未来 AI 的发展将继续为人类带来惊喜和挑战,我们期待见证 AI 技术的不断进步,并探索其在各个领域的应用。