上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-08-30 09:26:12 403人关注

美团发布Meeseeks评测基准！o3-mini霸榜，DeepSeek-R1意外垫底引发热议

近年来，随着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型语言模型的快速发展，人工智能的知识和推理能力备受关注。然而，很多用户在实际使用中发现，这些模型有时未能完全按照输入的指令执行，导致输出结果虽然内容不错，却并未满足具体的格式或内容要求。为了深入研究和评估这些模型的指令遵循能力，美团 M17团队推出了全新的评测基准 ——Meeseeks。

大模型评测基准指令遵循能力评估美团M17团队 Meeseeks评测 OpenAI o系列模型 Claude3.5Sonnet DeepSeek-R1

- 上云资讯 -

美团发布Meeseeks评测基准！o3-mini霸榜，DeepSeek-R1意外垫底引发热议

推荐阅读

上云服务