8 月 8 日凌晨, GPT-5 正式发布。OpenAI 宣称 GPT-5 是其迄今为止最强大的人工智能系统,在编程、数学、写作、健康、视觉感知等多领域性能领先。
OpenAI 联合创始人、首席执行官萨姆・奥尔特曼将 GPT-5 类比为可以按需召唤的 “博士级专家”,能够随时助力用户达成各种复杂目标,并且声称 GPT-5 在超高难度的科学问题上刷新了世界纪录,在与人类专家的对比测试中,近 70% 的场景表现更优。
8 月 8 日,AiPy 对 GPT-5 进行系统测评。测评沿用涵盖 10 项真实任务、五大场景(信息获取、交互操作、系统分析、数据处理、可视化分析)的标准与方法,并以成功率(80% 权重)、Tokens 效率(10%)、时间效率(10%)为核心评估指标。结果显示,GPT-5 成功率达到 90%,相比 GPT-4.1 ,进步值得肯定。
但令人遗憾的是,其仍低于 GLM-4.5 的 100% 成功率。这意味着在真实业务场景下的可靠性方面,GPT-5 未能做到极致,与国产顶尖模型 GLM-4.5 存在差距。
进一步分析发现,GPT-5 在信息获取、系统分析、数据处理、可视化分析四大类任务中表现较为稳定准确,可一旦涉及交互操作类任务,便暴露出明显短板。
例如在 “打开 Windows 系统默认画图软件,控制鼠标绘制一幅身材优美的铅笔画女性” 任务中,GPT-5 虽成功打开画图板,却因代码执行质量不足,即生成的代码存在逻辑错误或执行异常,最终未完成绘制,导致任务失败。
在 AiPy 第三期测评的 13 个参评大模型中,仅有 GLM-4.5、Doubao-Seed-1.6、Claude Sonnet 4 在交互操作类任务中表现优异,GPT-5 在此方面的不足,极大拉低了其整体竞争力。
分析GPT-5 不及预期的原因,我觉得主要有这几点:
一方面,大模型的发展正面临 “数据墙” 问题,高质量的公共训练数据逐渐耗尽,这限制了模型进一步提升的空间。另一方面,算力成本的指数级增长,使得以往通过大规模算力投入实现性能突破的方式难以为继。GPT-5 的研发或许也受到这些客观物理限制的影响,导致其难以实现代际间的巨大飞跃。例如在模型训练过程中,由于缺乏足够丰富和高质量的数据,使得模型在某些复杂任务的理解和执行上存在偏差。
此外,从研发过程看,GPT-5 的发布严重延期,原本计划作为 GPT-5 发布的 “Orion” 模型因性能未达预期,最终被降档为 GPT-4.5 发布。这一过程反映出 OpenAI 在研发过程中可能遇到了诸多技术难题,且未能有效解决,导致产品最终呈现的效果与最初设定的目标存在差距。
总之,GPT-5 总算亮相了。只是它并没有带来我想象中的那种跨时代冲击,反而更像是把 GPT-4o 与 o3 的优势揉在一起,减少了幻觉,换了新数据,性能对齐了第一梯队。
评论前必须登录!
注册