上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-08-16 10:10:22 243人关注

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

近期，一个新的 AI 评测基准 FormulaOne 引发了广泛关注。这个基准由专注于超智能与高级 AI 系统的研究机构 AAI 推出，挑战了一众顶尖的 AI 模型，如 GPT-5、Grok4和 o3Pro 等，结果却让人瞠目结舌:这些模型在测试中全都得了零分!

AI评测基准 FormulaOne评测超智能AI系统 AAI研究机构 GPT5评测 Grok4性能测试

2025-06-10 10:40:30 351人关注

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

随着人工智能技术的迅速发展，尤其是大型模型的不断进步，基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状，红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估，还引入了动态更新机制，确保测试的有效性和公正性。

RedSeed中国AI评测工具 AI基准测试工具 AI性能评测中国AI技术评测 AI工具评测标准

2025-03-01 16:14:38 372人关注

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

在一篇聚焦医疗AI评测的研究论文中，微软似乎再次"不经意"地披露了业界多个顶级大语言模型的参数规模。这份发布于12月26日的论文不仅揭示了包括OpenAI、Anthropic在内的多家公司的模型参数数据，还引发了业内对模型架构和技术实力的热议。

Microsoft OpenAI 模型参数医疗AI评估 AI模型评估大模型技术

2025-01-24 15:16:20 266人关注

中国电信星辰大模型入选"国之重器"年度盘点，打造全国产化AI新标杆

在国务院国资委新闻中心发起的"十大国之重器"年度评选中，中国电信自主研发的星辰大模型凭借其突破性技术成果成功入围。作为国内首个全尺寸、全模态、全国产化的基础大模型体系，星辰大模型在语义、语音、视觉和多模态等领域展现出卓越实力。

中国电信星云大模型 AI评测大模型基准测试电信行业AI应用 AI大模型性能评估

2025-01-23 17:31:10 611人关注

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

智源腾讯 LongBench V2 大模型评测 AI评测基准

2025-01-08 05:15:41 246人关注

美国媒体巨头Gannett关闭产品评测网站Reviewed，被指发布AI评测

最近，美国媒体巨头 Gannett 宣布将于11月1日关闭其旗下的产品评测网站 Reviewed。这一决定令许多人感到震惊，因为 Reviewed 一直提供从鞋子到家用电器等各种产品的推荐，并且雇佣专业记者进行测试和评测。然而，Reviewed 最近却卷入了一场关于内容来源的争议，引发了外界的质疑。

Gannett Reviewed关闭新闻行业动态媒体公司重组数字媒体转型

- 上云资讯 -

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

中国电信星辰大模型入选"国之重器"年度盘点，打造全国产化AI新标杆

智源与腾讯推出长文本理解基准测试模型LongBench v2

美国媒体巨头Gannett关闭产品评测网站Reviewed，被指发布AI评测

推荐阅读

上云服务

- 上云资讯 -

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

中国电信星辰大模型入选"国之重器"年度盘点，打造全国产化AI新标杆

智源与腾讯推出长文本理解基准测试模型LongBench v2

​美国媒体巨头Gannett关闭产品评测网站Reviewed，被指发布AI评测

推荐阅读

上云服务

美国媒体巨头Gannett关闭产品评测网站Reviewed，被指发布AI评测