微信扫码
添加专属顾问
2025-04-21 16:31:28 83人关注
在人工智能的不断发展中,扩散模型在推理能力上逐渐崭露头角,现如今,它们不再是自回归模型的 “跟随者”。近日,来自加州大学洛杉矶分校(UCLA)和 Meta 的研究者们联合推出了一种名为 d1的新框架,该框架结合了监督微调(SFT)和强化学习(RL),使扩散模型具备更强的推理能力,包括数学理解、逻辑推理等。
D1扩散模型 强化学习框架 扩散模型技术 AI模型框架 强化学习应用