- 上云资讯 -
2025-06-10 10:40:30 35人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-05-02 10:23:24 51人关注
AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta
人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。
AI基准测试 LMarena争议 OpenAI基准测试 Google AI基准测试 Meta AI基准测试 AI大模型评测
2025-01-28 05:35:24 104人关注
AI 基准组织因未及时披露 OpenAI 资金遭批评
近期,开发 AI 数学基准的非营利组织 Epoch AI 因未及时披露其获得 OpenAI 资金而引发争议。该组织于12月20日宣布,OpenAI 资助了名为 FrontierMath 的项目,这是一项旨在测试 AI 数学能力的基准,OpenAI 还利用该基准展示了其即将推出的旗舰 AI 产品 o3。
2025-01-19 22:35:26 45人关注
Anthropic推出新计划,资助新一代AI基准测试的开发
Anthropic 推出了一个计划,资助开发新类型的基准测试,以评估 AI 模型的性能和影响,包括像其自己的 Claude 这样的生成模型。
2025-01-10 02:42:45 247人关注
新的Geekbench AI基准测试可以测试 CPU、GPU 和 NPU 的性能
知名的基准测试工具Geekbench近日推出了一款全新的跨平台工具,用于评估设备在处理密集型工作负载时的性能表现。该工具名为Geekbench AI,能够测量设备的CPU、GPU以及NPU(神经处理单元),以评估其在处理机器学习任务时的能力。
2025-01-10 00:10:36 88人关注
Geekbench 推出新AI基准测试,评估设备处理AI任务的性能
最近,知名的基准测试工具 Geekbench 发布了一个全新的跨平台工具,专门用于评估设备在 AI 密集型工作负载下的表现。这个新工具被称为 Geekbench AI,它通过测量设备的 CPU、GPU 和 NPU(神经处理单元),来判断设备处理机器学习应用程序的能力。