- 上云资讯 -
2025-08-30 09:26:12 121人关注
美团发布Meeseeks评测基准!o3-mini霸榜,DeepSeek-R1意外垫底引发热议
近年来,随着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型语言模型的快速发展,人工智能的知识和推理能力备受关注。然而,很多用户在实际使用中发现,这些模型有时未能完全按照输入的指令执行,导致输出结果虽然内容不错,却并未满足具体的格式或内容要求。为了深入研究和评估这些模型的指令遵循能力,美团 M17团队推出了全新的评测基准 ——Meeseeks。
大模型评测基准 指令遵循能力评估 美团M17团队 Meeseeks评测 OpenAI o系列模型 Claude3.5Sonnet DeepSeek-R1