上云资讯 - 来上云吧，企业上云一站式服务

2025-08-16 10:10:22 243人关注

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

近期，一个新的 AI 评测基准 FormulaOne 引发了广泛关注。这个基准由专注于超智能与高级 AI 系统的研究机构 AAI 推出，挑战了一众顶尖的 AI 模型，如 GPT-5、Grok4和 o3Pro 等，结果却让人瞠目结舌:这些模型在测试中全都得了零分!

2025-01-23 17:31:10 611人关注

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。