- 上云资讯 -
2025-09-09 10:11:12 36人关注
微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理
微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注,这款140亿参数的模型通过创新的智能体强化学习技术,在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。
2025-09-04 14:18:24 54人关注
MetaGPT发布RealDevWorld:92%精准度碾压Claude,端到端测试重塑AI开发新格局!
近日,MetaGPT团队重磅推出了一款端到端自动化测试工具RealDevWorld,在AI驱动的软件开发领域掀起热议。这款工具以其惊艳的性能表现和高效的测试能力,在RealDevBench基准测试中取得了92%的精准度,评估一致性更是超越了Claude等前沿模型。
AI自动化测试工具 RealDevWorld性能评测 RealDevBench基准测试 AI驱动软件开发 MetaGPT测试工具 端到端自动化测试
2025-08-20 17:45:22 42人关注
快手 Klear-Reasoner 模型成功登顶,数学推理准确率超 90%
在大语言模型的竞争中,数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造,其在多个权威基准测试中表现出色,数学推理的准确率甚至突破了90%,成为同规模模型中的佼佼者。
Klear-Reasoner 大语言模型数学推理 代码推理能力评估 Qwen3-8B-Base 模型 权威基准测试表现 同规模模型性能对比
2025-08-08 13:33:14 243人关注
AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析
根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级) 的得分为9.9%,每项任务成本为0.73美元。而 Grok4(思考型) 的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。
AI模型性能对比 AI模型成本效益分析 ARC-AGI-2基准测试结果 GPT-5与Grok4性能差异 AI推理任务成本评估
2025-08-08 12:37:14 3372人关注
GPT-5评测:全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型
核心要点:2025年8月,AI领域迎来了新的里程碑。OpenAI发布的GPT-5、Anthropic的Claude4Opus以及Google的Gemini2.5Pro代表了当前大语言模型的最高水准。本文将基于最新的基准测试数据,为您提供这三款顶级AI模型的深度评测对比。
2025-08-05 14:17:17 83人关注
“问小白”发布第四代开源大模型 XBai o4
开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基准测试中优于 Anthropic Claude Opus。
开源大模型 XBai o4 模型 复杂推理能力 OpenAI o3-mini 对比 Anthropic Claude Opus 基准测试
2025-07-31 17:45:27 143人关注
阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o
阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。
阿里通义实验室 WebAgent系列开源工具 WebShaper框架 形式化驱动信息检索 GAIA基准测试高分 AI复杂任务推理能力
2025-07-22 09:21:33 666人关注
京东重磅开源JoyAgent-JDGenie!GAIA准确率75.15%领跑多智能体系统
近日,AIbase从网络信息获悉,京东正式开源了一款产品级端到端通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中以75.15%的准确率超越OWL、OpenManus等竞品,位居行业前列。这款开源框架以其强大的多智能体协作能力和开箱即用的特性,为开发者提供了快速构建AI应用的利器。
京东开源多智能体系统 JoyAgent-JDGenie框架 多智能体协作能力 GAIA基准测试排名 开源AI应用开发工具 端到端通用智能体系统
2025-07-21 11:26:40 119人关注
阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理
据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。
2025-07-19 17:41:17 105人关注
智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0,刷新10项评测基准
智源研究院正式发布了具身智能系统的最新成果 ——RoboBrain2.032B 版本以及跨本体大小脑协同框架 RoboOS2.0单机版。RoboBrain2.0作为一种 “通用具身大脑”,结合了感知、推理和规划的能力,特别是在多项权威基准测试中取得了突破性的成绩。新版本相较于之前的7B 版本,具备了更为强大的时空认知能力,能够在真实物理环境中执行复杂任务。
具身智能系统 RoboBrain2.0 版本特性 跨本体大小脑协同框架 RoboOS2.0 单机版 时空认知能力提升 权威基准测试突破
2025-07-15 10:20:20 141人关注
谷歌 Gemini 嵌入模型登顶 MTEB 排行榜,超越 OpenAI
2023年7月15日,谷歌在凌晨1点正式发布了首个 Gemini 嵌入模型,该模型在多文本嵌入基准测试平台(MTEB)上以68.37的高分名列第一,超越了 OpenAI 的58.93分。这一成绩不仅展示了谷歌在嵌入技术上的领先地位,也为独立创作者和自由职业者提供了更为经济的选择:Gemini 嵌入模型的使用成本仅为每100万 token0.15美元。
谷歌Gemini嵌入模型 Gemini嵌入模型性能 MTEB基准测试 嵌入模型成本对比 独立创作者AI工具 自由职业者经济选择
2025-07-10 14:38:14 188人关注
Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B,甚至与更大规模的4B参数模型Gemma3性能相当。
Hugging Face SmolLM3 开源语言模型 轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试
2025-07-02 09:44:25 129人关注
微软推出 MAI-DxO AI 系统,医疗诊断准确率提升四倍
微软近日发布了一款全新的 AI 系统 MAI-DxO,旨在显著提升复杂医疗病例的诊断准确性。据悉,该系统的诊断准确率是经验丰富医生的四倍,同时能够将医疗成本降低近70%。这一技术通过一个新的基准测试进行评估,模拟了真实的逐步诊断过程。
2025-06-25 15:34:35 110人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-20 10:17:26 179人关注
视频成本更低!MiniMax Hailuo 02用户基准测试中超越Google Veo 3
近日,MiniMax 推出了其视频人工智能模型 Hailuo02的第二代版本,带来了性能和价格上的重大升级。这款新模型采用了一种名为噪声感知计算重分配(NCR)的架构,MiniMax 声称这一技术在训练和推理效率方面提高了2.5倍。NCR 架构在处理长视频序列时,根据训练阶段的不同采用了不同的方法。在训练初期,数据中人工噪声被大量引入,视频被尽可能压缩;而当训练到视频更清晰的阶段时,模型则以全分辨率进行处理。
2025-06-10 10:40:30 167人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-05-17 14:23:44 123人关注
OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导
近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。
OpenAI员工质疑xAI OpenAI员工质疑Grok3基准测试 xAI Grok3性能争议 OpenAI与xAI技术对比 AI大模型基准测试争议
2025-05-12 10:35:24 362人关注
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。
2025-05-10 16:14:11 137人关注
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
2025-05-06 08:34:17 146人关注
OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性
OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。