上云资讯 - 来上云吧，企业上云一站式服务

2025-10-13 14:30:24 80人关注

斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

斯坦福大学的研究团队最近发布了 AgentFlow，这是一个可训练的智能代理框架，旨在通过模块化设计和工具集成，提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器（Planner）、执行器(Executor)、验证器(Verifier)和生成器(Generator)，并通过显式内存进行协调。在每一步中，规划器会提出子目标并选择适当的工具和上下文，执行器则负责调用工具，验证器则判断是否继续，而生成器则在任务完成后给出最终答案。

AI

2025-09-21 09:41:25 69人关注

Cursor 升级 Tab 模型，实时强化学习提升开发者建议精准度

Cursor 是一款基于人工智能的编程平台，最近宣布对其 Tab 模型进行了升级。Tab 模型是为开发者提供自动补全建议的系统。此次升级显著减少了低质量建议的数量，提高了建议的准确性。具体来说，新的 Tab 模型相比于之前的版本，建议数量减少了21%，而接受率提高了28%。

AI

2025-09-11 16:13:29 171人关注

重磅！月之暗面开源革命性中间件 “Checkpoint Engine”，为 LLM 推理引擎带来新生机！

在人工智能领域，尤其是在大规模语言模型（LLM）的推理与训练中，模型权重的实时更新一直是一个技术挑战。最近，月之暗面(MoonshotAI)开源了一个名为 “Checkpoint Engine” 的新中间件，专为 LLM 推理引擎而设计。这一创新工具的发布，标志着在强化学习等应用场景中，模型的权重可以实现更为高效的原地热更新。

月之暗面 Checkpoint Engine LLM推理引擎模型权重热更新强化学习应用 MoonshotAI开源

2025-09-09 10:11:12 99人关注

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注，这款140亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

AI数学推理智能体强化学习数学基准测试大模型性能对比 DeepSeek-R1 rStar2-Agent

2025-09-08 10:18:16 95人关注

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

微软最近在 AI 领域取得了显著突破，开源了一款名为 rStar2-Agent 的 AI Agent 推理模型。这款模型采用了创新的智能体强化学习方法，令人惊讶的是，尽管其参数仅有140亿，但在 AIME24数学推理测试中，准确率高达80.6%，成功超越了拥有6710亿参数的 DeepSeek-R1（79.8%）。这样的表现让人们重新思考模型的参数规模与性能之间的关系。

AI Agent 推理模型智能体强化学习模型参数规模与性能数学推理测试小参数模型优势开源AI模型

2025-09-02 12:25:26 111人关注

Prime Intellect 推出开放平台“环境中心”，对抗AI强化学习领域的封闭趋势

位于旧金山的人工智能初创公司 Prime Intellect 正式发布“环境中心”（Environments Hub），这是一个用于构建和共享强化学习（RL)环境的开放平台，旨在对抗当前由大型人工智能实验室主导的封闭生态。

强化学习环境平台 Prime Intellect 开放生态 AI 初创公司对抗封闭生态强化学习环境共享开源 RL 环境构建

2025-09-01 14:28:15 281人关注

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

8月31日，上海人工智能实验室（上海AI实验室）宣布开源发布多模态大模型书生·万象InternVL3.5。该模型通过创新的级联式强化学习(Cascade RL)、动态视觉分辨率路由与解耦部署架构，实现了推理能力、部署效率与通用能力的全面升级。InternVL3.5开源了从1B到241B各尺寸参数的全量级版本，刷新了开源模型性能标杆，在多种任务上达到领先水平。

书生·万象InternVL3.5 上海AI实验室开源多模态大模型级联式强化学习动态视觉分辨率路由解耦部署架构

2025-08-19 18:20:29 246人关注

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT（Yet Another Transformer Trainer），内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练，致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。

腾讯大模型训练库 WeChat-YATT训练库 gCore项目多模态模型训练强化学习模型训练 Megatron-Core应用

2025-08-08 09:35:18 338人关注

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

微软研究院推出一款名为Agent Lightning的全新强化学习训练框架，旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计，能够对不同架构的AI代理进行统一的强化学习训练。

强化学习训练框架 AI代理系统训练 Agent Lightning 强化学习通用性挑战 AI代理灵活性优化

2025-08-04 10:37:29 83人关注

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

2022年，当 ChatGPT 席卷全球时，OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今，这项工作已成为 OpenAI 打造 AI 智能体（Agent）的核心技术，并引发了硅谷的人才争夺战。本文将深入解析 OpenAI 的 AI 智能体之路，探寻其如何通过强化学习和计算突破，从一个低调的研究项目走向通用智能体的宏伟蓝图。

OpenAI AI 智能体技术 AI 数学推理研究强化学习在AI中的应用 OpenAI MathGen 团队 AI 智能体发展蓝图通用智能体技术突破

2025-07-25 10:11:35 328人关注

通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造

Qwen-MT机器翻译模型正式发布，Qwen-MT基于强大的Qwen3模型，经过超大规模多语言和翻译数据的训练，结合强化学习技术，显著提升了翻译结果的准确性和语言流畅度。开发者可以通过Qwen API（qwen-mt-turbo）直接体验其快速且准确的翻译能力。

Qwen-MT机器翻译模型 Qwen3模型 Qwen API翻译能力多语言翻译数据训练强化学习提升翻译准确性

2025-07-16 16:20:22 277人关注

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。

强化学习训练方法 POLARIS 算法 Scaling RL 策略小模型数学推理能力提升人工智能小模型优化

2025-07-10 09:13:29 208人关注

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

近日，昆仑万维正式发布了其全新开源模型 Skywork-R1V3.0，宣称在多模态推理方面达到了前所未有的高度，甚至与人类初级专家的水平不相上下。该模型在训练过程中采用了强化学习策略，使得其在复杂逻辑建模与跨学科知识泛化方面取得了显著进展。

昆仑万维开源模型 Skywork-R1V3.0 多模态推理模型强化学习策略复杂逻辑建模跨学科知识泛化

2025-07-03 16:12:19 186人关注

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

大型语言模型（LLM）通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展，如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型，展现出强大的推理能力。然而，这种成功在不同的基础模型系列中难以复制，尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?

大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型基础模型表现差异 Llama 系列强化学习复杂推理任务

2025-07-03 14:39:14 420人关注

DeepSWE 开源 AI Agent系统强势登顶，基于 Qwen3-32B

在人工智能领域，又一重磅消息传来。今天凌晨，知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型，完全通过强化学习进行训练。

Together.ai Agentica 开源AI Agent框架 DeepSWE Qwen3-32B模型强化学习训练

2025-06-26 17:35:25 129人关注

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

近日，来自香港大学、香港中文大学以及商汤科技的研究团队发布了一个令人瞩目的新框架 ——GoT-R1。这一全新的多模态大模型通过引入强化学习（RL），在视觉生成任务中显著提升了 AI 的语义和空间推理能力，成功应对复杂的文本提示生成高保真、语义一致的图像。这一进展标志着图像生成技术的又一次飞跃。

多模态大模型视觉生成任务强化学习在AI中的应用 GoT-R1框架语义和空间推理能力高保真图像生成

2025-06-21 22:25:14 165人关注

检索增强预训练框架MaskSearch：让AI更聪明地“找答案”

检索增强掩码预测（RAMP）任务通过结合检索机制与掩码语言建模，有效提升了模型在知识密集型任务中的表现。监督微调（SFT）与强化学习（RL）相结合的方法显著优化了模型的生成质量，其中SFT提供基础能力训练，RL则通过奖励机制进一步细化输出。课程学习策略采用从简单到复杂的渐进式训练方案，使模型能够逐步掌握复杂任务，这种分层训练方法不仅提高了学习效率，还增强了模型的泛化能力。实验表明，这种组合方法在多个基准测试中取得了优于传统单一训练方式的性能表现。

检索增强掩码预测 RAMP任务原理监督微调与强化学习结合课程学习策略知识密集型任务优化分层训练方法

2025-06-21 16:19:13 1882人关注

月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测

近日，月之暗面旗下的Kimi智能助手宣布其首个Agent产品——Kimi-Researcher（深度研究）正式开启小范围灰度测试。这一基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型，旨在为用户提供高效、深入的深度研究服务。

Kimi-Researcher 月之暗面 Agent产品端到端自主强化学习深度研究服务新一代Agent模型

2025-05-27 10:38:45 347人关注

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B，这是一款专为长上下文推理设计的大型语言模型，标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B，与Claude-3.7-Sonnet-Thinking达到相当水平。

阿里巴巴通义千问L1-32B 强化学习长文本模型通义千问L1-32B模型阿里巴巴大模型长文本处理技术强化学习模型应用

2025-04-21 16:31:28 139人关注

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

在人工智能的不断发展中，扩散模型在推理能力上逐渐崭露头角，现如今，它们不再是自回归模型的 “跟随者”。近日，来自加州大学洛杉矶分校（UCLA）和 Meta 的研究者们联合推出了一种名为 d1的新框架，该框架结合了监督微调(SFT)和强化学习(RL)，使扩散模型具备更强的推理能力，包括数学理解、逻辑推理等。

D1扩散模型强化学习框架扩散模型技术 AI模型框架强化学习应用

- 上云资讯 -

斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

Cursor 升级 Tab 模型，实时强化学习提升开发者建议精准度

重磅！月之暗面开源革命性中间件 “Checkpoint Engine”，为 LLM 推理引擎带来新生机！

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

Prime Intellect 推出开放平台“环境中心”，对抗AI强化学习领域的封闭趋势

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

DeepSWE 开源 AI Agent系统强势登顶，基于 Qwen3-32B

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

检索增强预训练框架MaskSearch：让AI更聪明地“找答案”

月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

推荐阅读

上云服务

- 上云资讯 -

斯坦福研究团队发布 AgentFlow：为模块化、工具使用的 AI 代理提供新一代强化学习框架

​Cursor 升级 Tab 模型，实时强化学习提升开发者建议精准度

重磅！月之暗面开源革命性中间件 “Checkpoint Engine”，为 LLM 推理引擎带来新生机！

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

​微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型

Prime Intellect 推出开放平台“环境中心”，对抗AI强化学习领域的封闭趋势

上海AI实验室发布多模态大模型书生·万象 InternVL3.5

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

AI 的“推理”之谜：OpenAI 如何用代码和数据重塑人类智能

通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

昆仑万维重磅发布 Skywork-R1V 3.0：跨模态推理能力直逼人类专家！

探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异，推出 OctoThinker

DeepSWE 开源 AI Agent系统强势登顶，基于 Qwen3-32B

全新 GoT-R1 多模态模型发布：让 AI 画图更聪明，图像生成新纪元！

检索增强预训练框架MaskSearch：让AI更聪明地“找答案”

月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型，性能媲美Claude-3.7

新框架d1引领扩散模型推理进步，掀起强化学习应用新风潮

推荐阅读

上云服务

Cursor 升级 Tab 模型，实时强化学习提升开发者建议精准度

微软推出新型 AI Agent 模型 rStar2-Agent，以 140 亿参数挑战大规模模型