- 上云资讯 -
2025-04-07 10:31:39 41人关注
Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭
Meta周六发布了其新旗舰AI模型Maverick,该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而,多位AI研究人员很快发现,Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。
2025-04-03 16:15:26 135人关注
Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型
2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。