- 上云资讯 -
2025-07-03 16:12:19 76人关注
探秘 LLM 强化学习兼容性:上海交大揭示 Llama 与 Qwen 差异,推出 OctoThinker
大型语言模型(LLM)通过结合任务提示和大规模强化学习(RL)在复杂推理任务中取得了显著进展,如 Deepseek-R1-Zero 等模型直接将强化学习应用于基础模型,展现出强大的推理能力。然而,这种成功在不同的基础模型系列中难以复制,尤其是在 Llama 系列上。这引发了一个核心问题:究竟是什么因素导致了不同基础模型在强化学习过程中表现不一致?
大型语言模型 LLM 强化学习 Deepseek-R1-Zero 模型 基础模型表现差异 Llama 系列强化学习 复杂推理任务
2024-12-31 17:13:38 134人关注
上海交大与复旦大学联手打造糖尿病专用大模型Diabetica
上海交通大学清源研究院MIFA实验室与复旦大学附属中山医院内分泌科组建的专家团队,近日联合开发了一款名为Diabetica的糖尿病专用大模型。该模型融合了大模型的语言处理能力与糖尿病专业知识,旨在为医生、患者及医疗教育提供智能支持。