- 上云资讯 -
阿里云云原生
阿里云开发者
腾讯云开发者
火山引擎开发者社区
魔搭ModelScope社区
微软科技
Azure云科技
Zilliz
OpenAI
Anthropic
Gemini
LangChain
Hugging Face
Mistral
2025-01-21 21:37:30 149人关注
阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力
近日,阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试,旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展,这一领域的研究者们发现,尽管模型表现出色,但在处理某些困难问题时依然面临挑战。因此,开发一种有效的监督方法显得尤为重要。
2025-01-10 02:15:25 225人关注
Geekbench推出AI性能测试工具:设备AI能力评估迎来新标准
知名基准测试工具Geekbench推出了一款全新的跨平台工具,旨在评估设备在AI密集型工作负载下的性能表现。这款名为Geekbench AI的工具通过测试设备的CPU、GPU和NPU(神经网络处理器)性能,来判断其处理机器学习应用的能力。