上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-01-21 21:37:30 506人关注

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准阿里AI技术进展 AI模型性能测试

2025-01-10 02:15:25 491人关注

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

知名基准测试工具Geekbench推出了一款全新的跨平台工具，旨在评估设备在AI密集型工作负载下的性能表现。这款名为Geekbench AI的工具通过测试设备的CPU、GPU和NPU（神经网络处理器）性能，来判断其处理机器学习应用的能力。

Geekbench AI性能测试 AI性能测试新标准 Geekbench AI基准测试 AI跑分工具 AI性能评估标准

- 上云资讯 -

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

推荐阅读

上云服务