- 上云资讯 -
2025-07-29 15:14:16 19人关注
只需100行代码,这款迷你编程Agent就能修复65%真实项目Bug!
在编程界,一个全新的开源项目正在引起热议,那就是由 SWE-bench 和 SWE-agent 的开发团队推出的 mini-SWE-agent。这个项目的亮点在于,它仅需100行代码,就能在真实的 GitHub 项目中修复65% 的 Bug,这一性能与原版相比丝毫不逊色,但架构却极其轻量。
mini-SWE-agent SWE-bench SWE-agent 开源项目 轻量级Bug修复工具 GitHub项目修复
2025-04-27 08:41:41 77人关注
OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能
在软件工程领域,随着挑战的不断演变,传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变,远不止是孤立的编码任务。自由职业工程师需要处理整个代码库,集成多种系统,并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试,无法充分反映全栈性能和解决方案的实际经济影响。因此,开发更为真实的评估方法显得尤为重要。
2025-01-10 06:43:37 494人关注
OpenAI推出SWE-bench Verified:提升AI软件工程能力评估
OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准,旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。