- 上云资讯 -
2025-08-08 13:33:14 242人关注
AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析
根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级) 的得分为9.9%,每项任务成本为0.73美元。而 Grok4(思考型) 的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。
AI模型性能对比 AI模型成本效益分析 ARC-AGI-2基准测试结果 GPT-5与Grok4性能差异 AI推理任务成本评估
2025-04-07 10:31:39 123人关注
Meta被指AI模型"双标":评测版与公开版Maverick表现大相径庭
Meta周六发布了其新旗舰AI模型Maverick,该模型在LM Arena评测中排名第二。LM Arena是一项依靠人类评分者比较不同模型输出并选择偏好的测试平台。然而,多位AI研究人员很快发现,Meta部署到LM Arena的Maverick版本似乎与开发人员广泛使用的版本存在显著差异。
2025-04-03 16:15:26 432人关注
Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型
2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。
2024-12-27 08:43:41 97人关注
英伟达发布了个70B的新AI模型,碾压GPT-4和Claude3.5
Nvidia 悄然推出了一款新型人工智能模型,名为 Llama-3.1-Nemotron-70B-Instruct,表现出色,已经超越了 OpenAI 的 GPT-4和 Anthropic 的 Claude3.5,标志着人工智能领域竞争格局的重大变化。这款模型在知名 AI 平台 Hugging Face 上发布,虽然没有太大的宣传,但其卓越的性能迅速引起了业界的关注。
2024-12-25 18:10:43 102人关注
法国AI创企Les Ministraux发布全新轻量级模型,性能超越Llama 3!
法国AI初创公司Les Ministraux 推出两款全新轻量级模型Ministral3B和Ministral8B,专为边缘设备设计,参数分别为30亿和80亿。这两款模型在指令跟随基准测试中表现出色,Ministral3B超越了Llama38B和Mistral7B,Ministral8B则在除代码能力外其他方面均优于这两个模型。
2024-12-24 10:24:33 88人关注
生图能力超越Flux1.1 Pro!神秘AI模型"红熊猫"Red_panda横空出世
近日,一款代号"red_panda"的神秘AI图像生成模型在众包分析平台Artificial Analysis的基准测试中取得惊人成绩,以显著优势超越了Midjourney、Black Forest Labs和OpenAI等行业领军企业的产品。