- 上云资讯 -
2025-10-13 14:30:24 80人关注
斯坦福研究团队发布 AgentFlow:为模块化、工具使用的 AI 代理提供新一代强化学习框架
斯坦福大学的研究团队最近发布了 AgentFlow,这是一个可训练的智能代理框架,旨在通过模块化设计和工具集成,提升 AI 的智能决策能力。AgentFlow 由四个模块组成:规划器(Planner)、执行器(Executor)、验证器(Verifier)和生成器(Generator),并通过显式内存进行协调。在每一步中,规划器会提出子目标并选择适当的工具和上下文,执行器则负责调用工具,验证器则判断是否继续,而生成器则在任务完成后给出最终答案。
2025-09-21 09:41:25 69人关注
Cursor 升级 Tab 模型,实时强化学习提升开发者建议精准度
Cursor 是一款基于人工智能的编程平台,最近宣布对其 Tab 模型进行了升级。Tab 模型是为开发者提供自动补全建议的系统。此次升级显著减少了低质量建议的数量,提高了建议的准确性。具体来说,新的 Tab 模型相比于之前的版本,建议数量减少了21%,而接受率提高了28%。
2025-09-11 16:13:29 171人关注
重磅!月之暗面开源革命性中间件 “Checkpoint Engine”,为 LLM 推理引擎带来新生机!
在人工智能领域,尤其是在大规模语言模型(LLM)的推理与训练中,模型权重的实时更新一直是一个技术挑战。最近,月之暗面(MoonshotAI)开源了一个名为 “Checkpoint Engine” 的新中间件,专为 LLM 推理引擎而设计。这一创新工具的发布,标志着在强化学习等应用场景中,模型的权重可以实现更为高效的原地热更新。
2025-09-09 10:11:12 99人关注
微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理
微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注,这款140亿参数的模型通过创新的智能体强化学习技术,在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。
2025-09-08 10:18:16 95人关注
微软推出新型 AI Agent 模型 rStar2-Agent,以 140 亿参数挑战大规模模型
微软最近在 AI 领域取得了显著突破,开源了一款名为 rStar2-Agent 的 AI Agent 推理模型。这款模型采用了创新的智能体强化学习方法,令人惊讶的是,尽管其参数仅有140亿,但在 AIME24数学推理测试中,准确率高达80.6%,成功超越了拥有6710亿参数的 DeepSeek-R1(79.8%)。这样的表现让人们重新思考模型的参数规模与性能之间的关系。
2025-09-02 12:25:26 111人关注
Prime Intellect 推出开放平台“环境中心”,对抗AI强化学习领域的封闭趋势
位于旧金山的人工智能初创公司 Prime Intellect 正式发布“环境中心”(Environments Hub),这是一个用于构建和共享强化学习(RL)环境的开放平台,旨在对抗当前由大型人工智能实验室主导的封闭生态。
强化学习环境平台 Prime Intellect 开放生态 AI 初创公司对抗封闭生态 强化学习环境共享 开源 RL 环境构建
2025-08-19 18:20:29 246人关注
腾讯开源WeChat-YATT大模型训练库,破解多模态训练两大核心瓶颈
腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT(Yet Another Transformer Trainer),内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练,致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。
腾讯大模型训练库 WeChat-YATT训练库 gCore项目 多模态模型训练 强化学习模型训练 Megatron-Core应用
2025-08-08 09:35:18 338人关注
微软发布Agent Lightning强化学习框架,声称可训练任何AI代理系统
微软研究院推出一款名为Agent Lightning的全新强化学习训练框架,旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计,能够对不同架构的AI代理进行统一的强化学习训练。
2025-08-04 10:37:29 83人关注
AI 的“推理”之谜:OpenAI 如何用代码和数据重塑人类智能
2022年,当 ChatGPT 席卷全球时,OpenAI 内部一个名为 MathGen 的小团队正默默致力于一项更为基础的研究:教 AI 模型进行数学推理。如今,这项工作已成为 OpenAI 打造 AI 智能体(Agent)的核心技术,并引发了硅谷的人才争夺战。本文将深入解析 OpenAI 的 AI 智能体之路,探寻其如何通过强化学习和计算突破,从一个低调的研究项目走向通用智能体的宏伟蓝图。
OpenAI AI 智能体技术 AI 数学推理研究 强化学习在AI中的应用 OpenAI MathGen 团队 AI 智能体发展蓝图 通用智能体技术突破
2025-07-25 10:11:35 328人关注
通义千问Qwen推出机器翻译模型Qwen-MT 基于Qwen 3打造
Qwen-MT机器翻译模型正式发布,Qwen-MT基于强大的Qwen3模型,经过超大规模多语言和翻译数据的训练,结合强化学习技术,显著提升了翻译结果的准确性和语言流畅度。开发者可以通过Qwen API(qwen-mt-turbo)直接体验其快速且准确的翻译能力。
2025-07-16 16:20:22 277人关注
字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现
近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。
2025-07-03 16:12:19 186人关注
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务
2025-07-03 14:39:14 420人关注
DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B
在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。
Together.ai Agentica 开源AI Agent框架 DeepSWE Qwen3-32B模型 强化学习训练
2025-06-21 22:25:14 165人关注
检索增强预训练框架MaskSearch:让AI更聪明地“找答案”
检索增强掩码预测(RAMP)任务通过结合检索机制与掩码语言建模,有效提升了模型在知识密集型任务中的表现。监督微调(SFT)与强化学习(RL)相结合的方法显著优化了模型的生成质量,其中SFT提供基础能力训练,RL则通过奖励机制进一步细化输出。课程学习策略采用从简单到复杂的渐进式训练方案,使模型能够逐步掌握复杂任务,这种分层训练方法不仅提高了学习效率,还增强了模型的泛化能力。实验表明,这种组合方法在多个基准测试中取得了优于传统单一训练方式的性能表现。
2025-06-21 16:19:13 1882人关注
月之暗面Kimi推出Kimi-Researcher深度研究Agent 并开启内测
近日,月之暗面旗下的Kimi智能助手宣布其首个Agent产品——Kimi-Researcher(深度研究)正式开启小范围灰度测试。这一基于端到端自主强化学习(end-to-end agentic RL)技术训练的新一代Agent模型,旨在为用户提供高效、深入的深度研究服务。
2025-05-27 10:38:45 347人关注
阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7
阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。
阿里巴巴通义千问L1-32B 强化学习长文本模型 通义千问L1-32B模型 阿里巴巴大模型 长文本处理技术 强化学习模型应用
