2025-03-18 10:35:32
67人关注
CMU 团队推出元强化微调:提升大语言模型推理能力的新范式
在人工智能领域,大语言模型(LLM)正在不断进化,最近,卡内基梅隆大学(CMU)与 HuggingFace 的研究者们共同提出了一种名为 “元强化微调”(Meta Reinforcement Fine-Tuning,简称 MRT)的新方法。这一方法旨在优化大语言模型在测试时的计算效率,尤其是在解决复杂推理问题时,表现尤为突出。
CMU团队
Meta强化学习
模型微调技术
强化学习优化
AI模型训练方法