- 上云资讯 -
2025-08-30 09:26:12 123人关注
美团发布Meeseeks评测基准!o3-mini霸榜,DeepSeek-R1意外垫底引发热议
近年来,随着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型语言模型的快速发展,人工智能的知识和推理能力备受关注。然而,很多用户在实际使用中发现,这些模型有时未能完全按照输入的指令执行,导致输出结果虽然内容不错,却并未满足具体的格式或内容要求。为了深入研究和评估这些模型的指令遵循能力,美团 M17团队推出了全新的评测基准 ——Meeseeks。
大模型评测基准 指令遵循能力评估 美团M17团队 Meeseeks评测 OpenAI o系列模型 Claude3.5Sonnet DeepSeek-R1
2025-01-22 16:26:13 587人关注
字节跳动发布豆包大模型1.5Pro,性能超越GPT-4o与Claude3.5Sonnet
字节跳动正式推出其最新的豆包大模型1.5Pro(Doubao-1.5-pro),这一新模型在多个领域的综合能力上表现出色,成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。
字节跳动豆包大模型 Doubao Model 1.5 Pro GPT4o Claude3.5 Sonnet 大模型技术对比 AI大模型评测