LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-08-08 09:35:18 183人关注

微软发布Agent Lightning强化学习框架,声称可训练任何AI代理系统

微软研究院推出一款名为Agent Lightning的全新强化学习训练框架,旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计,能够对不同架构的AI代理进行统一的强化学习训练。

强化学习训练框架 AI代理系统训练 Agent Lightning 强化学习通用性挑战 AI代理灵活性优化

2025-07-16 16:20:22 188人关注

字节跳动Seed最新强化学习配方POLARIS开源 4B 模型数学推理接近 235B 表现

近日,字节跳动Seed团队携手香港大学与复旦大学,共同推出了创新的强化学习训练方法——POLARIS。该方法通过精心设计的Scaling RL策略,成功将小模型的数学推理能力提升至与超大模型相媲美的水平,为人工智能领域的小模型优化提供了新路径。

强化学习训练方法 POLARIS 算法 Scaling RL 策略 小模型数学推理能力提升 人工智能小模型优化

2025-07-03 14:39:14 313人关注

DeepSWE 开源 AI Agent系统强势登顶,基于 Qwen3-32B

在人工智能领域,又一重磅消息传来。今天凌晨,知名大模型训练平台 Together.ai 与 Agentica 联合推出了开源 AI Agent框架 DeepSWE。这一创新系统是基于阿里最新开源的 Qwen3-32B 模型,完全通过强化学习进行训练。

Together.ai Agentica 开源AI Agent框架 DeepSWE Qwen3-32B模型 强化学习训练

2025-05-27 10:38:45 273人关注

阿里突破性发布QwenLong-L1-32B:首个强化学习训练的长文本推理模型,性能媲美Claude-3.7

阿里巴巴今日正式发布QwenLong-L1-32B,这是一款专为长上下文推理设计的大型语言模型,标志着AI长文本处理能力的重大突破。该模型在性能表现上超越了o3-mini和Qwen3-235B-A22B,与Claude-3.7-Sonnet-Thinking达到相当水平。

阿里巴巴通义千问L1-32B 强化学习长文本模型 通义千问L1-32B模型 阿里巴巴大模型 长文本处理技术 强化学习模型应用

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10