LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-10 10:40:30 109人关注

红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。

RedSeed中国AI评测工具 AI基准测试工具 AI性能评测 中国AI技术评测 AI工具评测标准

2025-04-18 16:32:40 115人关注

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

AI 大模型评测 聊天机器人竞技场 AI 基准测试 大模型性能对比 AI 聊天机器人排名

2025-01-21 21:37:30 149人关注

阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力

近日,阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试,旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展,这一领域的研究者们发现,尽管模型表现出色,但在处理某些困难问题时依然面临挑战。因此,开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准 阿里AI技术进展 AI模型性能测试

2025-01-10 02:42:45 350人关注

新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能

知名的基准测试工具Geekbench近日推出了一款全新的跨平台工具,用于评估设备在处理密集型工作负载时的性能表现。该工具名为Geekbench AI,能够测量设备的CPU、GPU以及NPU(神经处理单元),以评估其在处理机器学习任务时的能力。

Geekbench AI 基准测试 CPU性能测试 GPU性能测试 NPU性能测试 AI基准测试工具

2025-01-10 00:10:36 149人关注

​Geekbench 推出新AI基准测试,评估设备处理AI任务的性能

最近,知名的基准测试工具 Geekbench 发布了一个全新的跨平台工具,专门用于评估设备在 AI 密集型工作负载下的表现。这个新工具被称为 Geekbench AI,它通过测量设备的 CPU、GPU 和 NPU(神经处理单元),来判断设备处理机器学习应用程序的能力。

Geekbench AI 基准测试 设备性能评估 AI 基准测试工具 Geekbench 新功能 设备性能对比

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10