上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-05-06 08:34:17 405人关注

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

OpenAI编程限制 AI编程基准测试 OpenAI性能评估 AI编程能力分析 OpenAI技术局限性

2025-01-28 09:23:28 315人关注

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。

AI性能评估 GPT-4历史考试表现 AI大模型缺陷分析 GPT-4考试能力测试 AI模型评估标准

2025-01-21 21:37:30 506人关注

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准阿里AI技术进展 AI模型性能测试

2025-01-10 02:15:25 491人关注

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

知名基准测试工具Geekbench推出了一款全新的跨平台工具，旨在评估设备在AI密集型工作负载下的性能表现。这款名为Geekbench AI的工具通过测试设备的CPU、GPU和NPU（神经网络处理器）性能，来判断其处理机器学习应用的能力。

Geekbench AI性能测试 AI性能测试新标准 Geekbench AI基准测试 AI跑分工具 AI性能评估标准

2024-12-29 00:42:36 411人关注

OpenAI发布AI智能体的评测集：MLE-bench

在近期的一项研究中，OpenAI研究团队推出了名为 MLE-bench 的全新基准测试，旨在评估AI智能体在机器学习工程方面的表现。

OpenAI MLE Bench AI大模型评测机器学习基准测试 OpenAI性能评估 AI模型测试标准

- 上云资讯 -

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

OpenAI发布AI智能体的评测集：MLE-bench

推荐阅读

上云服务

- 上云资讯 -

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

​AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

OpenAI发布AI智能体的评测集：MLE-bench

推荐阅读

上云服务

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%