如果您需要任何上云服务
请随时联系我们:
电话:021-50583875
邮箱:service@yuncan.com
2025-04-05 16:38:38 90人关注
近日,DeepSeek 和清华的研究者发布新论文,探讨了奖励模型的推理时 Scaling 方法,让 DeepSeek R2似乎更近一步。目前,强化学习在大语言模型的大规模后训练阶段广泛应用,但面临为大语言模型获取准确奖励信号的挑战。
深度求索 清华创新奖励模型 模型可扩展性 奖励模型研究 AI模型优化