- 上云资讯 -
2025-04-14 16:31:37 33人关注
清华与上海 AI Lab 联合打造新型过程奖励模型GenPRM,让小模型超越 GPT-4o
在人工智能领域,随着 OpenAI 的 o1和 DeepSeek 的 R1模型受到广泛关注,大语言模型(LLM)的推理能力和测试时扩展(TTS)技术引发了众多研究者的兴趣。然而,在处理复杂推理问题时,如何准确评估模型每一步的回答质量,依然是一个亟待解决的难题。为此,清华大学与上海 AI Lab 共同提出了生成式过程奖励模型(GenPRM),为过程监督推理提供了创新解决方案。
2024-12-22 07:36:21 32人关注
上海AI Lab复刻OpenAI奥数神器,LLaMA版o1开源
近期,开源社区传来好消息:上海AI Lab团队发布了LLaMA版o1项目,旨在复刻OpenAI的奥数解题神器o1。该项目采用了多种先进技术,包括蒙特卡洛树搜索、Self-Play强化学习、PPO以及AlphaGo Zero的双重策略范式,引起了开发者社区的广泛关注。