上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-14 16:31:37 285人关注

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

在人工智能领域，随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注，大语言模型（LLM）的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而，在处理复杂推理问题时，如何准确评估模型每一步的回答质量，依然是一个亟待解决的难题。为此，清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM)，为过程监督推理提供了创新解决方案。

清华上海AI实验室 GenPRM GPT-4O AI大模型大模型技术应用 AI实验室研究成果

2025-01-27 17:24:42 414人关注

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

阿里巴巴 Qwen 团队近日发布了题为《数学推理中过程奖励模型的开发经验教训》的论文，并推出了 Qwen2.5-Math-PRM 系列中的两个新模型，分别具有7B 和72B 参数。这些模型在数学推理中突破了现有 PRM 框架的限制，通过创新技术显著提高了推理模型的准确性和泛化能力。

阿里巴巴Qwen 过程奖励模型数学推理 AI大模型阿里巴巴AI技术阿里巴巴Qwen应用场景

- 上云资讯 -

清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM，让小模型超越 GPT-4o

阿里巴巴Qwen 团队发布新型过程奖励模型，数学推理再进化

推荐阅读

上云服务