上云资讯 - 来上云吧，企业上云一站式服务

2025-11-18 14:45:27 217人关注

JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena

近日，编程 IDE 开发商 JetBrains 宣布推出 Developer Productivity AI Arena（DPAI Arena），这是一款业内首个开放式、多语言、多框架和多工作流的基准测试平台。随着 AI 技术的不断发展，如何评估 AI 辅助工具在软件开发中的实际效果成为了一项重要挑战。DPAI Arena 的发布旨在为这一挑战提供解决方案，并将最终项目交给 Linux Foundation 管理。

AI

2025-11-08 13:25:36 290人关注

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

近日，美团 LongCat 团队推出了一个名为 UNO-Bench 的全新基准测试，旨在系统性地评估这些模型在不同模态下的理解能力。这个基准测试涵盖了44种任务类型和5种模态组合，力求全面展现模型的单模态与全模态的性能。

AI

2025-10-10 09:41:16 279人关注

中国信通院发布 “方升” 3.0 大模型基准测试

近日，中国信息通信研究院（信通院）正式推出了 “方升” 基准测试体系3.0，标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级，不仅新增了模型基础属性测试，还系统性地评估了模型的参数规模和推理效率等底层特征。此外，该体系还前瞻性地布局了未来的高级智能测试，聚焦全模态理解、长期记忆和自主学习等十项高级能力，为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。

AI

2025-09-29 14:11:45 444人关注

Moondream3.0发布，多项基准测试超越了 GPT-5 等顶尖模型

在最新发布的 Moondream3.0预览版中，这款以高效混合专家（MoE）架构为基础的模型展示了令人惊叹的视觉推理能力。Moondream3.0拥有总共9亿参数，但仅激活2亿参数的轻量化设计，使其在复杂场景中的表现尤为突出。与之前的 Moondream2版本相比，3.0在多项基准测试中超越了如 GPT-5、Gemini 和 Claude4等业内顶尖模型，真正实现了技术的飞跃。

AI

2025-09-27 11:15:18 163人关注

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

近日，OpenAI 推出了一项新的基准测试，旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试，是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法，GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。

AI

2025-09-22 14:23:27 59人关注

xAI 发布 Grok4Fast，效率提升40%，基准测试表现不输 Grok4!

xAI 推出了 Grok4Fast，这是一款轻量级的旗舰模型，据该公司称，其性能可媲美 Grok4，但计算量减少了40%。据AIbase报道，这一显著的效率提升使得每项任务的成本最多可降低98%。

AI

2025-09-09 10:11:12 238人关注

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注，这款140亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

AI数学推理智能体强化学习数学基准测试大模型性能对比 DeepSeek-R1 rStar2-Agent

2025-09-04 14:18:24 333人关注

MetaGPT发布RealDevWorld：92%精准度碾压Claude，端到端测试重塑AI开发新格局！

近日，MetaGPT团队重磅推出了一款端到端自动化测试工具RealDevWorld，在AI驱动的软件开发领域掀起热议。这款工具以其惊艳的性能表现和高效的测试能力，在RealDevBench基准测试中取得了92%的精准度，评估一致性更是超越了Claude等前沿模型。

AI自动化测试工具 RealDevWorld性能评测 RealDevBench基准测试 AI驱动软件开发 MetaGPT测试工具端到端自动化测试

2025-08-20 17:45:22 183人关注

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

在大语言模型的竞争中，数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造，其在多个权威基准测试中表现出色，数学推理的准确率甚至突破了90%，成为同规模模型中的佼佼者。

Klear-Reasoner 大语言模型数学推理代码推理能力评估 Qwen3-8B-Base 模型权威基准测试表现同规模模型性能对比

2025-08-08 13:33:14 622人关注

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

根据 ARC 奖最新发布的测试结果，主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中，GPT-5（高级）的得分为9.9%，每项任务成本为0.73美元。而 Grok4（思考型）的表现略胜一筹，准确率达到16%，但其成本也更高，每项任务需要2至4美元。这表明在复杂的推理任务上，Grok4性能占优，但成本效益远不如 GPT-5。

AI模型性能对比 AI模型成本效益分析 ARC-AGI-2基准测试结果 GPT-5与Grok4性能差异 AI推理任务成本评估

2025-08-08 12:37:14 9497人关注

GPT-5评测：全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型

核心要点:2025年8月，AI领域迎来了新的里程碑。OpenAI发布的GPT-5、Anthropic的Claude4Opus以及Google的Gemini2.5Pro代表了当前大语言模型的最高水准。本文将基于最新的基准测试数据，为您提供这三款顶级AI模型的深度评测对比。

AI大模型 GPT-5评测 Claude4Opus对比 Gemini2.5Pro性能分析顶级AI模型基准测试

2025-08-05 14:17:17 223人关注

“问小白”发布第四代开源大模型 XBai o4

开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4，该模型在复杂推理能力上表现卓越，其 Medium 模式已全面超越 OpenAI o3-mini，并在部分基准测试中优于 Anthropic Claude Opus。

开源大模型 XBai o4 模型复杂推理能力 OpenAI o3-mini 对比 Anthropic Claude Opus 基准测试

2025-07-31 17:45:27 319人关注

阿里WebShaper发布！GAIA碾压Claude 3.5 Sonnet、GPT-4o

阿里通义实验室（Tongyi Lab）近日重磅推出WebAgent系列的第四款开源工具——WebShaper，这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉，WebShaper不仅在GAIA基准测试中取得60.19的高分，超越了Claude3.5Sonnet和GPT-4o，还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。

阿里通义实验室 WebAgent系列开源工具 WebShaper框架形式化驱动信息检索 GAIA基准测试高分 AI复杂任务推理能力

2025-07-22 09:21:33 1137人关注

京东重磅开源JoyAgent-JDGenie！GAIA准确率75.15%领跑多智能体系统

近日，AIbase从网络信息获悉，京东正式开源了一款产品级端到端通用多智能体系统JoyAgent-JDGenie，在GAIA基准测试中以75.15%的准确率超越OWL、OpenManus等竞品，位居行业前列。这款开源框架以其强大的多智能体协作能力和开箱即用的特性，为开发者提供了快速构建AI应用的利器。

京东开源多智能体系统 JoyAgent-JDGenie框架多智能体协作能力 GAIA基准测试排名开源AI应用开发工具端到端通用智能体系统

2025-07-21 11:26:40 280人关注

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

据国外媒体报道，一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑，指出其看似卓越的数学推理能力，可能主要来源于对训练数据的记忆，而非真正的推理。研究人员通过一系列严谨的测试发现，数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。

阿里巴巴Qwen2.5模型 AI模型数学能力评估数据污染对AI模型的影响 AI模型记忆与推理能力大模型基准测试问题

2025-07-19 17:41:17 426人关注

智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0，刷新10项评测基准

智源研究院正式发布了具身智能系统的最新成果 ——RoboBrain2.032B 版本以及跨本体大小脑协同框架 RoboOS2.0单机版。RoboBrain2.0作为一种 “通用具身大脑”，结合了感知、推理和规划的能力，特别是在多项权威基准测试中取得了突破性的成绩。新版本相较于之前的7B 版本，具备了更为强大的时空认知能力，能够在真实物理环境中执行复杂任务。

具身智能系统 RoboBrain2.0 版本特性跨本体大小脑协同框架 RoboOS2.0 单机版时空认知能力提升权威基准测试突破

2025-07-15 10:20:20 255人关注

谷歌 Gemini 嵌入模型登顶 MTEB 排行榜，超越 OpenAI

2023年7月15日，谷歌在凌晨1点正式发布了首个 Gemini 嵌入模型，该模型在多文本嵌入基准测试平台（MTEB）上以68.37的高分名列第一，超越了 OpenAI 的58.93分。这一成绩不仅展示了谷歌在嵌入技术上的领先地位，也为独立创作者和自由职业者提供了更为经济的选择:Gemini 嵌入模型的使用成本仅为每100万 token0.15美元。

谷歌Gemini嵌入模型 Gemini嵌入模型性能 MTEB基准测试嵌入模型成本对比独立创作者AI工具自由职业者经济选择

2025-07-10 14:38:14 484人关注

Hugging Face重磅开源SmolLM3：3B参数小模型媲美4B巨头，128K上下文引领高效AI新风潮！

近日，Hugging Face正式推出全新开源语言模型 SmolLM3，一款拥有3B参数的轻量级大语言模型（LLM），以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B，甚至与更大规模的4B参数模型Gemma3性能相当。

Hugging Face SmolLM3 开源语言模型轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试

2025-07-02 09:44:25 309人关注

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

微软近日发布了一款全新的 AI 系统 MAI-DxO，旨在显著提升复杂医疗病例的诊断准确性。据悉，该系统的诊断准确率是经验丰富医生的四倍，同时能够将医疗成本降低近70%。这一技术通过一个新的基准测试进行评估，模拟了真实的逐步诊断过程。

微软MAI-DxO AI医疗诊断系统医疗AI诊断准确率医疗成本降低技术复杂病例诊断基准测试

2025-06-25 15:34:35 339人关注

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

在人工智能领域，多模态大模型（MLLM）一直在不断进化，然而最近一个新发布的基准测试 ——SolidGeo，给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo，专注于立体几何的推理能力，成为了首个系统评估多模态模型在三维空间理解方面的基准。

多模态大模型立体几何推理能力三维空间理解评估 SolidGeo基准测试多模态模型挑战

- 上云资讯 -

JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

中国信通院发布 “方升” 3.0 大模型基准测试

Moondream3.0发布，多项基准测试超越了 GPT-5 等顶尖模型

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

xAI 发布 Grok4Fast，效率提升40%，基准测试表现不输 Grok4!

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

MetaGPT发布RealDevWorld：92%精准度碾压Claude，端到端测试重塑AI开发新格局！

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

GPT-5评测：全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型

“问小白”发布第四代开源大模型 XBai o4

阿里WebShaper发布！GAIA碾压Claude 3.5 Sonnet、GPT-4o

京东重磅开源JoyAgent-JDGenie！GAIA准确率75.15%领跑多智能体系统

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0，刷新10项评测基准

谷歌 Gemini 嵌入模型登顶 MTEB 排行榜，超越 OpenAI

Hugging Face重磅开源SmolLM3：3B参数小模型媲美4B巨头，128K上下文引领高效AI新风潮！

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

推荐阅读

上云服务

- 上云资讯 -

​JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

中国信通院发布 “方升” 3.0 大模型基准测试

Moondream3.0发布，多项基准测试超越了 GPT-5 等顶尖模型

OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家

xAI 发布 Grok4Fast，效率提升40%，基准测试表现不输 Grok4!

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

MetaGPT发布RealDevWorld：92%精准度碾压Claude，端到端测试重塑AI开发新格局！

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析

GPT-5评测：全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型

“问小白”发布第四代开源大模型 XBai o4

阿里WebShaper发布！GAIA碾压Claude 3.5 Sonnet、GPT-4o

京东重磅开源JoyAgent-JDGenie！GAIA准确率75.15%领跑多智能体系统

阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理

智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0，刷新10项评测基准

谷歌 Gemini 嵌入模型登顶 MTEB 排行榜，超越 OpenAI

Hugging Face重磅开源SmolLM3：3B参数小模型媲美4B巨头，128K上下文引领高效AI新风潮！

微软推出 MAI-DxO AI 系统，医疗诊断准确率提升四倍

立体几何成大模型 “拦路虎”，SolidGeo 基准助力 AI 突破空间推理瓶颈！

推荐阅读

上云服务

JetBrains 推出 AI 编码智能体基准测试平台 DPAI Arena