- 上云资讯 -
2025-06-10 10:40:30 36人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-01-23 17:31:10 138人关注
智源与腾讯推出长文本理解基准测试模型LongBench v2
在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。
2025-01-08 05:15:41 57人关注
美国媒体巨头Gannett关闭产品评测网站Reviewed,被指发布AI评测
最近,美国媒体巨头 Gannett 宣布将于11月1日关闭其旗下的产品评测网站 Reviewed。这一决定令许多人感到震惊,因为 Reviewed 一直提供从鞋子到家用电器等各种产品的推荐,并且雇佣专业记者进行测试和评测。然而,Reviewed 最近却卷入了一场关于内容来源的争议,引发了外界的质疑。