LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-05-06 08:34:17 105人关注

OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。

OpenAI编程限制 AI编程基准测试 OpenAI性能评估 AI编程能力分析 OpenAI技术局限性

2025-01-28 09:23:28 139人关注

​AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%

近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。

AI性能评估 GPT-4历史考试表现 AI大模型缺陷分析 GPT-4考试能力测试 AI模型评估标准

2025-01-21 21:37:30 149人关注

阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力

近日,阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试,旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展,这一领域的研究者们发现,尽管模型表现出色,但在处理某些困难问题时依然面临挑战。因此,开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准 阿里AI技术进展 AI模型性能测试

2025-01-10 02:15:25 225人关注

Geekbench推出AI性能测试工具:设备AI能力评估迎来新标准

知名基准测试工具Geekbench推出了一款全新的跨平台工具,旨在评估设备在AI密集型工作负载下的性能表现。这款名为Geekbench AI的工具通过测试设备的CPU、GPU和NPU(神经网络处理器)性能,来判断其处理机器学习应用的能力。

Geekbench AI性能测试 AI性能测试新标准 Geekbench AI基准测试 AI跑分工具 AI性能评估标准

2024-12-29 00:42:36 137人关注

OpenAI发布AI智能体的评测集:MLE-bench

在近期的一项研究中,OpenAI研究团队推出了名为 MLE-bench 的全新基准测试,旨在评估AI智能体在机器学习工程方面的表现。

OpenAI MLE Bench AI大模型评测 机器学习基准测试 OpenAI性能评估 AI模型测试标准

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10