- 上云资讯 -
2025-07-31 17:45:27 38人关注
阿里WebShaper发布!GAIA碾压Claude 3.5 Sonnet、GPT-4o
阿里通义实验室(Tongyi Lab)近日重磅推出WebAgent系列的第四款开源工具——WebShaper,这一突破性框架以其创新的“形式化驱动”信息检索范式引发行业热议。据AIbase从社交媒体及相关渠道获悉,WebShaper不仅在GAIA基准测试中取得60.19的高分,超越了Claude3.5Sonnet和GPT-4o,还通过全新的数据生成方法显著提升了AI在复杂任务中的信息检索与推理能力。
阿里通义实验室 WebAgent系列开源工具 WebShaper框架 形式化驱动信息检索 GAIA基准测试高分 AI复杂任务推理能力
2025-07-29 12:35:11 338人关注
智谱发布全能模型GLM-4.5,打破开源AI新高度!
近日,智谱正式推出了其最新旗舰模型 GLM-4.5,这款模型被称为 “专为 Agent 应用打造的基础模型”,并且在推理、代码生成以及智能体综合能力上达到了开源模型的 SOTA(State Of The Art)水平。GLM-4.5的发布标志着国产大模型厂商在开源领域的快速进步,也为开发者们提供了强大的工具。
2025-07-21 11:26:40 65人关注
阿里巴巴Qwen2.5数学能力遭质疑:新研究揭示模型或依赖记忆而非推理
据国外媒体报道, 一项最新研究对阿里巴巴Qwen2.5模型的高数学分数提出了质疑,指出其看似卓越的数学推理能力,可能主要来源于对训练数据的记忆,而非真正的推理。研究人员通过一系列严谨的测试发现,数据污染可能是导致Qwen2.5在某些基准测试中表现优异的关键因素。
2025-07-16 16:20:22 94人关注
字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。
2025-07-16 08:32:40 72人关注
Grok4 来袭!马斯克的人工智能新宠,成功挑战编程测试
在发布不到24小时的时间里,马斯克的最新人工智能模型 Grok4就引发了网络热潮。无论是编程挑战还是多层推理,Grok4都展现了令人惊叹的能力,尤其是在著名的六边形小球编程测试中,它成功地完成了任务,甚至在返回中心位置时 “穿墙” 的特效也被认为是设计中的巧妙之处。
马斯克AI模型Grok4 人工智能模型Grok4 Grok4编程挑战 Grok4多层推理能力 六边形小球编程测试 Grok4穿墙特效
2025-07-12 17:21:44 99人关注
阿里HumanOmniV2震撼发布:多模态AI新王者,准确率飙升至69.33%
阿里巴巴集团近期正式推出其最新多模态大语言模型HumanOmniV2,在AI领域再掀波澜。这款模型以其强大的全局上下文理解能力和多模态推理能力,标志着阿里巴巴在人工智能技术的又一次重大突破。
2025-07-09 16:45:44 116人关注
阿里开源 WebSailor,具备强大的推理和检索能力
阿里通义于近日正式开源了其网络智能体 WebSailor,该智能体具备强大的推理和检索能力。
2025-06-25 15:34:35 60人关注
立体几何成大模型 “拦路虎”,SolidGeo 基准助力 AI 突破空间推理瓶颈!
在人工智能领域,多模态大模型(MLLM)一直在不断进化,然而最近一个新发布的基准测试 ——SolidGeo,给这些模型带来了前所未有的挑战。由中国科学院自动化研究所的研究团队推出的 SolidGeo,专注于立体几何的推理能力,成为了首个系统评估多模态模型在三维空间理解方面的基准。
2025-06-18 16:38:24 96人关注
OpenAI CEO Altman 预测:5-10年内 AI 将“发现新科学”,人形机器人将走上街头
在一场罕见的家庭式访谈中,OpenAI CEO Sam Altman 向其弟弟、Lattice 创始人 Jack Altman 描绘了他对人工智能(AI)未来5-10年发展的最新预测。Altman 认为,AI 在推理能力上的突破已使其达到博士生水平,但真正的颠覆之处在于 AI 发现新科学的能力。他同时对“超级智能悖论”表示担忧,即即便实现超级智能,社会生活方式也可能变化甚微,如同 ChatGPT 的出现并未从根本上改变人们的生活。
OpenAI CEO访谈 AI未来发展趋势 AI推理能力突破 超级智能悖论 AI发现新科学能力 Sam Altman预测
2025-06-06 14:41:24 531人关注
OpenAI 发布 GPT-4.5:迄今最强大模型亮相 强化推理与情感智能
2025年2月27日—— OpenAI 于今日正式推出其最新语言模型 GPT-4.5,作为研究预览版率先提供给 ChatGPT Pro 用户(每月订阅费200美元)。这款被誉为“迄今为止最大、最知识渊博”的模型基于 GPT-4o 构建,在推理能力、情感智能以及写作、编程等实用功能上实现显著提升。OpenAI 表示,未来几周内,GPT-4.5将逐步开放给 Plus、Team、Enterprise 和 Edu 用户,标志着人工智能技术的又一里程碑。
2025-05-23 10:13:35 113人关注
太卷了!Anthropic发布Claude 4 编程和推理能力秒杀Gemini2.5pro
最近,人工智能界传来重大消息,Anthropic 正式推出了其 Claude4系列模型,包括 Claude Opus4和 Claude Sonnet4。这次发布并没有华丽的口号或冗长的论文,关键词只有一个 ——“干活”。根据 Anthropic 的说法,Claude Opus4被誉为全球最强的编程模型,能够稳定处理复杂且长期的任务,表现出色。而 Claude Sonnet4则在编程和推理能力上进行了强化,可以更加精准地回应用户的指令。