上云资讯 - 来上云吧，企业上云一站式服务

2025-08-08 09:35:18 618人关注

微软发布Agent Lightning强化学习框架，声称可训练任何AI代理系统

微软研究院推出一款名为Agent Lightning的全新强化学习训练框架，旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计，能够对不同架构的AI代理进行统一的强化学习训练。

2025-07-16 16:20:22 514人关注

近日，字节跳动Seed团队携手香港大学与复旦大学，共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略，成功将小模型的数学推理能力提升至与超大模型相媲美的水平，为人工智能领域的小模型优化提供了新路径。

2025-07-03 14:39:14 738人关注

在人工智能领域，又一重磅消息传来。今天凌晨，知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型，完全通过强化学习进行训练。

2025-05-27 10:38:45 514人关注

阿里巴巴今日正式发布QwenLong-L1-32B，这是一款专为长上下文推理设计的大型语言模型，标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B，与Claude-3.7-Sonnet-Thinking达到相当水平。