微信扫码
添加专属顾问
2025-08-08 09:35:18 184人关注
微软研究院推出一款名为Agent Lightning的全新强化学习训练框架,旨在解决当前AI代理系统训练过程中面临的通用性和灵活性挑战。该框架通过创新的解耦设计,能够对不同架构的AI代理进行统一的强化学习训练。
强化学习训练框架 AI代理系统训练 Agent Lightning 强化学习通用性挑战 AI代理灵活性优化
2025-04-21 16:31:28 117人关注
在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。
D1扩散模型 强化学习框架 扩散模型技术 AI模型框架 强化学习应用