- 上云资讯 -
2025-07-31 17:45:27 38人关注
阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o
阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。
阿里通义实验室 WebAgent系列开源工具 WebShaper框架 形式化驱动信息检索 GAIA基准测试高分 AI复杂任务推理能力
2025-07-22 09:21:33 394人关注
京东重磅开源JoyAgent-JDGenie!GAIA准确率75.15%领跑多智能体系统
近日,AIbase从网络信息获悉,京东正式开源了一款产品级端到端通用多智能体系统JoyAgent-JDGenie,在GAIA基准测试中以75.15%的准确率超越OWL、OpenManus等竞品,位居行业前列。这款开源框架以其强大的多智能体协作能力和开箱即用的特性,为开发者提供了快速构建AI应用的利器。
京东开源多智能体系统 JoyAgent-JDGenie框架 多智能体协作能力 GAIA基准测试排名 开源AI应用开发工具 端到端通用智能体系统
2025-07-21 11:26:40 65人关注
阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理
据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。
2025-07-19 17:41:17 47人关注
智源宣布全面开源 RoboBrain 2.0 与 RoboOS 2.0,刷新10项评测基准
智源研究院正式发布了具身智能系统的最新成果 ——RoboBrain2.032B 版本以及跨本体大小脑协同框架 RoboOS2.0单机版。RoboBrain2.0作为一种 “通用具身大脑”,结合了感知、推理和规划的能力,特别是在多项权威基准测试中取得了突破性的成绩。新版本相较于之前的7B 版本,具备了更为强大的时空认知能力,能够在真实物理环境中执行复杂任务。
具身智能系统 RoboBrain2.0 版本特性 跨本体大小脑协同框架 RoboOS2.0 单机版 时空认知能力提升 权威基准测试突破
2025-07-15 10:20:20 89人关注
谷歌 Gemini 嵌入模型登顶 MTEB 排行榜,超越 OpenAI
2023年7月15日,谷歌在凌晨1点正式发布了首个 Gemini 嵌入模型,该模型在多文本嵌入基准测试平台(MTEB)上以68.37的高分名列第一,超越了 OpenAI 的58.93分。这一成绩不仅展示了谷歌在嵌入技术上的领先地位,也为独立创作者和自由职业者提供了更为经济的选择:Gemini 嵌入模型的使用成本仅为每100万 token0.15美元。
谷歌Gemini嵌入模型 Gemini嵌入模型性能 MTEB基准测试 嵌入模型成本对比 独立创作者AI工具 自由职业者经济选择
2025-07-10 14:38:14 100人关注
Hugging Face重磅开源SmolLM3:3B参数小模型媲美4B巨头,128K上下文引领高效AI新风潮!
近日,Hugging Face正式推出全新开源语言模型 SmolLM3,一款拥有3B参数的轻量级大语言模型(LLM),以其卓越性能和高效设计引发行业广泛关注。SmolLM3不仅在多项基准测试中超越同级别的Llama-3.2-3B和Qwen2.5-3B,甚至与更大规模的4B参数模型Gemma3性能相当。
Hugging Face SmolLM3 开源语言模型 轻量级大语言模型 3B参数模型 SmolLM3性能评测 SmolLM3基准测试
2025-07-02 09:44:25 76人关注
微软推出 MAI-DxO AI 系统,医疗诊断准确率提升四倍
微软近日发布了一款全新的 AI 系统 MAI-DxO,旨在显著提升复杂医疗病例的诊断准确性。据悉,该系统的诊断准确率是经验丰富医生的四倍,同时能够将医疗成本降低近70%。这一技术通过一个新的基准测试进行评估,模拟了真实的逐步诊断过程。
2025-06-25 15:34:35 60人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-20 10:17:26 120人关注
视频成本更低!MiniMax Hailuo 02用户基准测试中超越Google Veo 3
近日,MiniMax 推出了其视频人工智能模型 Hailuo02的第二代版本,带来了性能和价格上的重大升级。这款新模型采用了一种名为噪声感知计算重分配(NCR)的架构,MiniMax 声称这一技术在训练和推理效率方面提高了2.5倍。NCR 架构在处理长视频序列时,根据训练阶段的不同采用了不同的方法。在训练初期,数据中人工噪声被大量引入,视频被尽可能压缩;而当训练到视频更清晰的阶段时,模型则以全分辨率进行处理。
2025-06-10 10:40:30 110人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-05-17 14:23:44 91人关注
OpenAI 员工公开质疑 xAI:Grok 3 基准测试结果存在误导
近期,关于人工智能基准测试的争论在公众视野中愈演愈烈。OpenAI 的一名员工指责马斯克创办的 AI 公司 xAI 发布了误导性的 Grok3基准测试结果,而 xAI 的联合创始人伊戈尔・巴布申金则坚称公司没有问题。
OpenAI员工质疑xAI OpenAI员工质疑Grok3基准测试 xAI Grok3性能争议 OpenAI与xAI技术对比 AI大模型基准测试争议
2025-05-12 10:35:24 308人关注
首个智能文档处理基准发布:Gemini领跑但短板待补,多模态AI面临现实挑战
5月11日,智能文档处理领域迎来重大进展——首个针对视觉-语言模型的统一基准测试"IDP Leaderboard"正式推出。该基准通过16个数据集、9229份文档,全面评估了当前主流模型在OCR、关键信息提取、视觉问答、表格提取、分类和长文档处理六大核心任务上的表现,为行业发展提供了可量化参考。
2025-05-10 16:14:11 102人关注
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
2025-05-06 08:34:17 102人关注
OpenAI最新基准测试:AI编程能力达人类四分之一,显现局限性
OpenAI近日发布了一项重要的AI编程能力评估报告,通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1,400个来自Upwork的真实项目,全面评估AI在直接开发和项目管理两大领域的表现。
2025-05-02 10:23:24 121人关注
AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta
人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。
AI基准测试 LMarena争议 OpenAI基准测试 Google AI基准测试 Meta AI基准测试 AI大模型评测
2025-04-27 08:41:41 78人关注
OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能
在软件工程领域,随着挑战的不断演变,传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变,远不止是孤立的编码任务。自由职业工程师需要处理整个代码库,集成多种系统,并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试,无法充分反映全栈性能和解决方案的实际经济影响。因此,开发更为真实的评估方法显得尤为重要。
2025-04-18 16:32:40 115人关注
AI 基准测试平台 Chatbot Arena 成立一家新公司
在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。
2025-02-21 12:39:26 340人关注
ScreenSpot-Pro:专为高分辨率环境设计的多模态 LLM 基准工具!
在专业环境中,图形用户界面(GUI)代理面临着三大关键挑战。首先,专业应用程序的复杂性远高于一般软件,要求对复杂布局有深入理解;其次,专业工具通常具备更高的分辨率,导致目标尺寸较小,从而降低了定位准确性;最后,工作流程往往依赖于额外工具和文档,增加了操作的复杂性。这些挑战凸显了开发更先进的基准和解决方案以提升 GUI 代理在这些严苛场景中的性能的必要性。
高分辨率多模态LLM基准 ScreenSpot Pro评测 多模态大模型基准测试 ScreenSpot Pro应用场景 高分辨率多模态基准