- 上云资讯 -
2025-10-10 09:41:16 81人关注
中国信通院发布 “方升” 3.0 大模型基准测试
近日,中国信息通信研究院(信通院)正式推出了 “方升” 基准测试体系3.0,标志着国内人工智能(AI)评测的又一重大进步。这个全新的版本在前期基础上进行了全面升级,不仅新增了模型基础属性测试,还系统性地评估了模型的参数规模和推理效率等底层特征。此外,该体系还前瞻性地布局了未来的高级智能测试,聚焦全模态理解、长期记忆和自主学习等十项高级能力,为工业制造、基础科学和金融等重点行业提供了更深入的场景化评测。
2025-09-29 14:11:45 270人关注
Moondream3.0发布,多项基准测试超越了 GPT-5 等顶尖模型
在最新发布的 Moondream3.0预览版中,这款以高效混合专家(MoE)架构为基础的模型展示了令人惊叹的视觉推理能力。Moondream3.0拥有总共9亿参数,但仅激活2亿参数的轻量化设计,使其在复杂场景中的表现尤为突出。与之前的 Moondream2版本相比,3.0在多项基准测试中超越了如 GPT-5、Gemini 和 Claude4等业内顶尖模型,真正实现了技术的飞跃。
2025-09-27 11:15:18 52人关注
OpenAI 最新基准测试显示 GPT-5 在多个行业中逐渐逼近人类专家
近日,OpenAI 推出了一项新的基准测试,旨在评估其人工智能模型在各行业与人类专业人士的表现差异。这项名为 GDPval 的测试,是 OpenAI 对其人工智能系统在经济价值工作中是否能超越人类的重要探索。根据 OpenAI 的说法,GPT-5模型与 Anthropic 的 Claude Opus4.1模型在某些领域的工作质量已经接近行业专家。
2025-09-22 14:23:27 13人关注
xAI 发布 Grok4Fast,效率提升40%,基准测试表现不输 Grok4!
xAI 推出了 Grok4Fast,这是一款轻量级的旗舰模型,据该公司称,其性能可媲美 Grok4,但计算量减少了40%。据AIbase报道,这一显著的效率提升使得每项任务的成本最多可降低98%。
2025-09-09 10:11:12 100人关注
微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理
微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注,这款140亿参数的模型通过创新的智能体强化学习技术,在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。
2025-09-04 14:18:24 122人关注
MetaGPT发布RealDevWorld:92%精准度碾压Claude,端到端测试重塑AI开发新格局!
近日,MetaGPT团队重磅推出了一款端到端自动化测试工具RealDevWorld,在AI驱动的软件开发领域掀起热议。这款工具以其惊艳的性能表现和高效的测试能力,在RealDevBench基准测试中取得了92%的精准度,评估一致性更是超越了Claude等前沿模型。
AI自动化测试工具 RealDevWorld性能评测 RealDevBench基准测试 AI驱动软件开发 MetaGPT测试工具 端到端自动化测试
2025-08-20 17:45:22 71人关注
快手 Klear-Reasoner 模型成功登顶,数学推理准确率超 90%
在大语言模型的竞争中,数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造,其在多个权威基准测试中表现出色,数学推理的准确率甚至突破了90%,成为同规模模型中的佼佼者。
Klear-Reasoner 大语言模型数学推理 代码推理能力评估 Qwen3-8B-Base 模型 权威基准测试表现 同规模模型性能对比
2025-08-08 13:33:14 355人关注
AI模型性能与成本大比拼:Grok4与GPT-5基准测试结果深度分析
根据 ARC 奖最新发布的测试结果,主流 AI 模型的性能和成本差异显著。在评估模型一般推理能力的 ARC-AGI-2基准测试中,GPT-5(高级) 的得分为9.9%,每项任务成本为0.73美元。而 Grok4(思考型) 的表现略胜一筹,准确率达到16%,但其成本也更高,每项任务需要2至4美元。这表明在复杂的推理任务上,Grok4性能占优,但成本效益远不如 GPT-5。
AI模型性能对比 AI模型成本效益分析 ARC-AGI-2基准测试结果 GPT-5与Grok4性能差异 AI推理任务成本评估
2025-08-08 12:37:14 5486人关注
GPT-5评测:全面对比GPT-5、Claude 4 Opus、Gemini 2.5 Pro三大顶级AI模型
核心要点:2025年8月,AI领域迎来了新的里程碑。OpenAI发布的GPT-5、Anthropic的Claude4Opus以及Google的Gemini2.5Pro代表了当前大语言模型的最高水准。本文将基于最新的基准测试数据,为您提供这三款顶级AI模型的深度评测对比。
2025-08-05 14:17:17 120人关注
“问小白”发布第四代开源大模型 XBai o4
开源大模型领域迎来新突破。“问小白”正式发布其第四代开源模型 XBai o4,该模型在复杂推理能力上表现卓越,其 Medium 模式已全面超越 OpenAI o3-mini,并在部分基准测试中优于 Anthropic Claude Opus。
开源大模型 XBai o4 模型 复杂推理能力 OpenAI o3-mini 对比 Anthropic Claude Opus 基准测试
2025-07-31 17:45:27 181人关注
阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o
阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。
阿里通义实验室 WebAgent系列开源工具 WebShaper框架 形式化驱动信息检索 GAIA基准测试高分 AI复杂任务推理能力
2025-07-22 09:21:33 830人关注
京东重磅开源JoyAgent-JDGenie!GAIA准确率75.15%领跑多智能体系统
近日,AIbase从网络信息获悉,京东正式开源了一款产品级端到端通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中以75.15%的准确率超越OWL、OpenManus等竞品,位居行业前列。这款开源框架以其强大的多智能体协作能力和开箱即用的特性,为开发者提供了快速构建AI应用的利器。
京东开源多智能体系统 JoyAgent-JDGenie框架 多智能体协作能力 GAIA基准测试排名 开源AI应用开发工具 端到端通用智能体系统
2025-07-21 11:26:40 159人关注
阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理
据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。
2025-07-19 17:41:17 177人关注
智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0,刷新10项评测基准
智源研究院正式发布了具身智能系统的最新成果 ——RoboBrain2.032B 版本以及跨本体大小脑协同框架 RoboOS2.0单机版。RoboBrain2.0作为一种 “通用具身大脑”,结合了感知、推理和规划的能力,特别是在多项权威基准测试中取得了突破性的成绩。新版本相较于之前的7B 版本,具备了更为强大的时空认知能力,能够在真实物理环境中执行复杂任务。
具身智能系统 RoboBrain2.0 版本特性 跨本体大小脑协同框架 RoboOS2.0 单机版 时空认知能力提升 权威基准测试突破
2025-07-15 10:20:20 158人关注
谷歌 Gemini 嵌入模型登顶 MTEB 排行榜,超越 OpenAI
2023年7月15日,谷歌在凌晨1点正式发布了首个 Gemini 嵌入模型,该模型在多文本嵌入基准测试平台(MTEB)上以68.37的高分名列第一,超越了 OpenAI 的58.93分。这一成绩不仅展示了谷歌在嵌入技术上的领先地位,也为独立创作者和自由职业者提供了更为经济的选择:Gemini 嵌入模型的使用成本仅为每100万 token0.15美元。
谷歌Gemini嵌入模型 Gemini嵌入模型性能 MTEB基准测试 嵌入模型成本对比 独立创作者AI工具 自由职业者经济选择
2025-07-10 14:38:14 266人关注
Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B,甚至与更大规模的4B参数模型Gemma3性能相当。
Hugging Face SmolLM3 开源语言模型 轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试
2025-07-02 09:44:25 175人关注
微软推出 MAI-DxO AI 系统,医疗诊断准确率提升四倍
微软近日发布了一款全新的 AI 系统 MAI-DxO,旨在显著提升复杂医疗病例的诊断准确性。据悉,该系统的诊断准确率是经验丰富医生的四倍,同时能够将医疗成本降低近70%。这一技术通过一个新的基准测试进行评估,模拟了真实的逐步诊断过程。
2025-06-25 15:34:35 155人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-20 10:17:26 234人关注
视频成本更低!MiniMax Hailuo 02用户基准测试中超越Google Veo 3
近日,MiniMax 推出了其视频人工智能模型 Hailuo02的第二代版本,带来了性能和价格上的重大升级。这款新模型采用了一种名为噪声感知计算重分配(NCR)的架构,MiniMax 声称这一技术在训练和推理效率方面提高了2.5倍。NCR 架构在处理长视频序列时,根据训练阶段的不同采用了不同的方法。在训练初期,数据中人工噪声被大量引入,视频被尽可能压缩;而当训练到视频更清晰的阶段时,模型则以全分辨率进行处理。
2025-06-10 10:40:30 208人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
