上云资讯 - 来上云吧，企业上云一站式服务

2025-09-09 10:11:12 238人关注

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注，这款140亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

AI数学推理智能体强化学习数学基准测试大模型性能对比 DeepSeek-R1 rStar2-Agent

2025-09-08 10:18:16 238人关注

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

微软最近在 AI 领域取得了显著突破，开源了一款名为 rStar2-Agent 的 AI Agent 推理模型。这款模型采用了创新的智能体强化学习方法，令人惊讶的是，尽管其参数仅有140亿，但在 AIME24数学推理测试中，准确率高达80.6%，成功超越了拥有6710亿参数的 DeepSeek-R1（79.8%）。这样的表现让人们重新思考模型的参数规模与性能之间的关系。

AI Agent 推理模型智能体强化学习模型参数规模与性能数学推理测试小参数模型优势开源AI模型

2025-08-29 12:15:32 409人关注

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

多模态大模型在图像问答和视觉理解等领域虽然取得了显著进展，但在数学推理这一核心挑战上依然存在明显短板。北京邮电大学、腾讯微信和清华大学的联合研究团队针对这一痛点，正式发布了We-Math2.0——一个突破性的多模态数学推理数据集和知识体系。

多模态大模型数学推理 We-Math2.0 视觉理解图像问答多模态数据集知识体系北京邮电大学清华大学腾讯微信

2025-08-22 14:43:23 350人关注

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

人工智能的发展再次突破想象边界，这一次的主角是数学证明。OpenAI研究人员近日透露了一个令整个学术界为之震撼的发现:GPT-5Pro在阅读一篇数学论文后，竟然独立推导出了比原文更加精确的数学结论，并给出了完整的证明过程。这一消息如野火般迅速传播，相关推文在不到半天时间内就获得了超过230万次阅读，引发了全网热烈讨论。

GPT-5Pro数学证明突破 AI独立推导数学结论人工智能数学推理能力 OpenAI数学研究进展 AI学术突破引发热议

2025-08-20 17:45:22 182人关注

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

在大语言模型的竞争中，数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造，其在多个权威基准测试中表现出色，数学推理的准确率甚至突破了90%，成为同规模模型中的佼佼者。

Klear-Reasoner 大语言模型数学推理代码推理能力评估 Qwen3-8B-Base 模型权威基准测试表现同规模模型性能对比

2025-08-04 10:37:29 244人关注

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

2022年，当 ChatGPT 席卷全球时，OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今，这项工作已成为 OpenAI 打造 AI 智能体（Agent）的核心技术，并引发了硅谷的人才争夺战。本文将深入解析 OpenAI 的 AI 智能体之路，探寻其如何通过强化学习和计算突破，从一个低调的研究项目走向通用智能体的宏伟蓝图。

OpenAI AI 智能体技术 AI 数学推理研究强化学习在AI中的应用 OpenAI MathGen 团队 AI 智能体发展蓝图通用智能体技术突破

2025-07-29 13:21:25 248人关注

Harmonic 推出 AI 数学聊天机器人，助力用户精准解题

Harmonic 是一家由 Robinh ood CEO 弗拉德・特涅夫（Vlad Tenev）共同创办的人工智能初创公司，近日宣布推出其 iOS 和 Android 平台的 AI 聊天机器人应用程序，用户可以通过该应用访问其 AI 模型 —— 亚里士多德(Aristotle)。此款应用目前处于测试阶段，旨在让更多人使用这一 “无幻觉” 的数学推理工具。

Harmonic AI AI 聊天机器人应用亚里士多德 AI 模型无幻觉数学推理工具 Robinhood CEO 创业项目 AI 初创公司动态

2025-07-16 16:20:22 513人关注

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。

强化学习训练方法 POLARIS 算法 Scaling RL 策略小模型数学推理能力提升人工智能小模型优化

2025-06-24 15:34:22 287人关注

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

6月23日，网易有道正式推出并开源其最新的 “子曰3” 系列大模型，英文名为 Confucius3-Math。这一专注于数学教育的推理模型，能够在普通的消费级 GPU 上高效运行，成为国内首个如此低成本高性能的 AI 教育工具。在一系列数学推理任务中，“子曰3” 展现出了超越许多大规模通用模型的出色性能。

网易有道子曰3 Confucius3-Math 数学教育AI模型低成本高性能AI教育工具数学推理任务AI 消费级GPU运行大模型

2025-05-10 16:14:11 267人关注

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

近日，魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集，旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世，填补了当前在本科数学领域评估语言模型推理能力的空白，并为研究者提供了更为丰富和具有挑战性的测试平台。

动态数学推理基准数学推理评测 UGMathBench 数学推理能力评估动态基准测试

2025-05-02 10:16:28 445人关注

DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破

中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮，正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型，专为数学推理和问题解决设计，展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论，这一模型被认为是 DeepSeek 在数学领域的重要里程碑，或将推动全球 AI 研究与应用的进一步发展。

DeepSeek Prover V2 671B大模型数学推理突破大模型技术进展 DeepSeek数学推理能力

2025-05-01 16:11:21 432人关注

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

在人工智能领域，最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升，还被誉为通向人工通用智能（AGI）的关键一步。DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新，给数学推理研究带来了新的希望。

DeepSeek Prover V2 数学证明突破 AI数学推理大模型数学能力 AI证明技术

2025-04-07 10:31:28 408人关注

谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

近期，谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告，目前人类公开的高质量文本训练数据大约有300万亿 tokens，但随着大型模型如 ChatGPT 的快速发展，对训练数据的需求正以指数级增长，预计在2026年前这些数据将被消耗殆尽，因此合成数据逐渐成为重要的替代方案。

Google Research 合成数据数学推理 AI研究数据增强技术

2025-02-04 10:38:26 343人关注

智谱深度推理模型 GLM-Zero 预览版上线擅长数理、代码等问题

在北京智谱华章科技有限公司的年度收官之际，公司发布了其首个基于扩展强化学习技术训练的推理模型——GLM-Zero的初代版本GLM-Zero-Preview。这款模型专注于提升人工智能的推理能力，尤其在数理逻辑、代码编写以及需要深度推理的复杂问题处理方面表现出色。与基座模型相比，GLM-Zero-Preview在保持通用任务能力的同时，专家任务能力得到了显著提升，其在AIME2024、MATH500和LiveCodeBench评测中的表现与OpenAI o1-preview相当。

GLM-Zero 大模型数学推理大模型代码能力 GLM-Zero 技术解析 GLM-Zero 应用场景

2025-01-27 21:24:22 278人关注

阿里云发布全新数学推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

今天，阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸，性能表现均显著优于同类的开源过程奖励模型，尤其是在识别推理错误方面表现突出。

阿里云通义千问2.5 数学大模型PRM-7B GPT4o对比大模型技术解析通义千问2.5数学能力

2025-01-27 17:24:42 414人关注

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里巴巴 Qwen 团队近日发布了题为《数学推理中过程奖励模型的开发经验教训》的论文，并推出了 Qwen2.5-Math-PRM 系列中的两个新模型，分别具有7B 和72B 参数。这些模型在数学推理中突破了现有 PRM 框架的限制，通过创新技术显著提高了推理模型的准确性和泛化能力。

阿里巴巴Qwen 过程奖励模型数学推理 AI大模型阿里巴巴AI技术阿里巴巴Qwen应用场景

2025-01-21 21:37:30 504人关注

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准阿里AI技术进展 AI模型性能测试

2025-01-16 09:16:37 256人关注

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升

近日，LMSYS组织的大模型竞技场（Chatbot Arena）发布了最新的榜单更新，LMSYS Chatbot Arena 排行榜上总排名11超过了所有开源模型，包括Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等，荣获全球开源模型榜首的荣誉。

DeepSeek V2 Chat模型代码能力数学推理大模型技术 DeepSeek模型更新

2024-12-28 15:24:24 318人关注

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

最近，苹果公司的研究人员对大语言模型（LLM）的数学推理能力进行了深入研究，推出了一项名为 GSM-Symbolic 的新基准测试。

Apple Research GSM Symbolic Math Math Reasoning AI数学推理符号数学推理

2024-12-19 14:28:35 245人关注

Kimi推出数学推理模型k0-math：数学能力对标OpenAI o1系列

月之暗面Kimi智能助手宣布推出新一代数学推理模型k0-math。k0-math模型在多项数学基准能力测试中表现突出，其成绩在中考、高考、考研以及包含入门竞赛题的MATH等4个数学基准测试中超过了OpenAI o1系列的o1-mini和o1-preview模型。

Kimi数学模型 OpenAI O1 AI大模型技术数学建模应用 AI模型比较

- 上云资讯 -

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

Harmonic 推出 AI 数学聊天机器人，助力用户精准解题

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

智谱深度推理模型 GLM-Zero 预览版上线擅长数理、代码等问题

阿里云发布全新数学推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

Kimi推出数学推理模型k0-math：数学能力对标OpenAI o1系列

推荐阅读

上云服务

- 上云资讯 -

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

​微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

数学AI推理迎来重大突破！We-Math 2.0构建全链条知识体系，多模态学习能力实现质的飞跃

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

​Harmonic 推出 AI 数学聊天机器人，助力用户精准解题

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

有道推出“子曰3”模型，轻松破解数学难题，助力教育公平！

UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力

DeepSeek-Prover-V2-671B 模型开源，数学推理领域迎来新突破

数学推理新标杆！DeepSeek-Prover-V2 实现数学证明的飞跃

谷歌新研究：合成数据助力大模型，数学推理能力提升八倍

智谱深度推理模型 GLM-Zero 预览版上线 擅长数理、代码等问题

阿里云发布全新数学推理模型Qwen2.5-Math-PRM，7B 版本超越 GPT-4o

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升

苹果研究团队发布新基准GSM-Symbolic：揭示大语言模型的数学推理短板！

Kimi推出数学推理模型k0-math：数学能力对标OpenAI o1系列

推荐阅读

上云服务

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

Harmonic 推出 AI 数学聊天机器人，助力用户精准解题

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

智谱深度推理模型 GLM-Zero 预览版上线擅长数理、代码等问题

DeepSeek开源DeepSeek-V2-Chat-0628模型代码、数学推理能力提升