上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-12-13 11:37:14 147人关注

Mistral重磅开源Devstral 2：123B编码神器+SWE-bench 72.2分，免费API+本地CLI炸裂来袭！

欧洲AI独角兽Mistral AI再度发力，正式发布新一代专为编码设计的开源模型家族Devstral2，包括123B参数的旗舰版Devstral2和24B参数的轻量版Devstral Small2。同时配套推出开源命令行工具Mistral Vibe CLI，支持端到端自动化编程。这一波更新直接将开源编码Agent推向新高度，Devstral2在权威基准SWE-bench Verified上斩获72.2分，逼近顶级闭源模型，同时API现阶段免费开放，堪称开发者福音。

2025-11-21 09:27:11 23人关注

OpenAI 发布 GPT-5.1-Codex-Max：引入上下文压缩机制，SWE-bench 准确率提升至 77.9%

OpenAI 宣布推出 GPT-5.1-Codex-Max，面向复杂软件工程项目，支持数十万行代码上下文一致性生成。新模型引入“compaction”动态压缩机制，可在任务运行时自动整理记忆并保留关键状态，显著降低长会话中信息丢失风险。

2025-10-11 16:20:39 681人关注

快手72B代码模型开源登顶：KAT-Dev横扫SWE-Bench，国产AI编程迎来突破

国产AI在代码生成领域再次取得重大突破。快手旗下Kwaipilot团队近日正式开源KAT-Dev-72B-Exp模型，这款拥有720亿参数的实验性大语言模型凭借在软件工程基准测试中的出色表现，登顶开源代码模型排行榜，标志着国产AI在编程助手领域实现了里程碑式进展。

2025-07-29 15:14:16 373人关注

只需100行代码，这款迷你编程Agent就能修复65%真实项目Bug！

在编程界，一个全新的开源项目正在引起热议，那就是由 SWE-bench 和 SWE-agent 的开发团队推出的 mini-SWE-agent。这个项目的亮点在于，它仅需100行代码，就能在真实的 GitHub 项目中修复65% 的 Bug，这一性能与原版相比丝毫不逊色，但架构却极其轻量。

mini-SWE-agent SWE-bench SWE-agent 开源项目轻量级Bug修复工具 GitHub项目修复

2025-04-27 08:41:41 225人关注

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

在软件工程领域，随着挑战的不断演变，传统的基准测试方法显得力不从心。自由职业的软件工程工作复杂多变，远不止是孤立的编码任务。自由职业工程师需要处理整个代码库，集成多种系统，并满足复杂的客户需求。而传统的评估方法通常侧重于单元测试，无法充分反映全栈性能和解决方案的实际经济影响。因此，开发更为真实的评估方法显得尤为重要。

OpenAI SWE-bench 软件工程基准测试大模型编程能力评估 AI代码生成性能 OpenAI 软件工程应用

2025-01-10 06:43:37 1097人关注

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

OpenAI于8月13日宣布推出SWE-bench Verified代码生成评估基准，旨在更准确评估人工智能模型在软件工程任务中的表现。这一新基准解决了此前SWE-bench存在的多项局限性。

OpenAI SWE Bench 大模型技术验证 AI模型性能评估大模型基准测试 OpenAI技术验证流程

- 上云资讯 -

Mistral重磅开源Devstral 2：123B编码神器+SWE-bench 72.2分，免费API+本地CLI炸裂来袭！

OpenAI 发布 GPT-5.1-Codex-Max：引入上下文压缩机制，SWE-bench 准确率提升至 77.9%

快手72B代码模型开源登顶：KAT-Dev横扫SWE-Bench，国产AI编程迎来突破

只需100行代码，这款迷你编程Agent就能修复65%真实项目Bug！

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

推荐阅读

上云服务

- 上云资讯 -

Mistral重磅开源Devstral 2：123B编码神器+SWE-bench 72.2分，免费API+本地CLI炸裂来袭！

OpenAI 发布 GPT-5.1-Codex-Max：引入上下文压缩机制，SWE-bench 准确率提升至 77.9%

快手72B代码模型开源登顶：KAT-Dev横扫SWE-Bench，国产AI编程迎来突破

只需100行代码，这款迷你编程Agent就能修复65%真实项目Bug！

​OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能

OpenAI推出SWE-bench Verified:提升AI软件工程能力评估

推荐阅读

上云服务

OpenAI 推出 SWE-Lancer 基准测试:评估真实世界自由软件工程工作的模型性能