DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B
作者:AIbase基地 更新时间:2025-07-03 14:39:14 共54人关注
在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。
DeepSWE 的开源信息可在 Hugging Face 上获取,除了模型权重外,训练方法、日志和数据集等所有相关内容也一并公开,旨在帮助开发者更深入地学习和改进这一代理系统。

根据 SWE-Bench-Verified 测试结果,DeepSWE 在64k 的最大上下文长度和100的最大环境步骤下评估,经过16次运行,Pass@1准确率达到了42.2%。经过混合测试后,其性能更是提升至59%,使其在所有开源代理框架中位列榜首。
DeepSWE 的训练采用了 rLLM 框架,这是一个专门用于语言智能体后期训练的系统。它在64个 H100GPU 上,对来自 R2E-Gym 训练环境的4500个真实世界软件工程任务进行了为期6天的训练。这些任务包括解决 GitHub 问题、实现新代码功能和调试等,展示了现实世界软件工程的多样性。
在训练过程中,DeepSWE 通过与环境的互动,学习如何在广泛的代码库中进行浏览、针对性编辑代码、运行构建和测试的 shell 命令,并在处理实际拉取请求时优化解决方案。数据集管理方面,使用了 R2E-Gym 子集中的4500个问题,确保了训练数据的纯净性和相关性。
训练环境围绕 R2E-Gym 构建,支持可扩展的高质量可执行软件工程环境。奖励机制则采用稀疏结果奖励模型,只有当生成的补丁通过所有测试时才给予正奖励,促进了更有效的学习。
DeepSWE 的训练还采用了改进版的 GRPO++ 算法,通过整合多项创新,实现了更稳定和高效的训练过程。此外,研究人员还发现,在针对软件工程任务时,增加输出 token 数量的效果不明显,而通过滚动数量扩展则显著提升了模型性能。
这一系列的努力,使得 DeepSWE 成为了一款极具潜力的 AI 代理系统,推动了强化学习在实际应用中的进步。
开源地址:https://huggingface.co/agentica-org/DeepSWE-Preview
划重点:
🌟 DeepSWE 是基于 Qwen3-32B 模型,完全通过强化学习训练而成,开源信息已全面发布。
🏆 在 SWE-Bench-Verified 测试中,DeepSWE 表现出色,Pass@1准确率达到了59%,成为所有开源代理中的佼佼者。
💡 采用了 rLLM 框架和改进的 GRPO++ 算法,DeepSWE 在实际软件工程任务中展现了其强大的学习能力和应用潜力。