- 上云资讯 -
2025-05-10 16:14:11 40人关注
UGMathBench动态基准测试数据集发布 可评估语言模型数学推理能力
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
2025-05-02 10:16:28 56人关注
DeepSeek-Prover-V2-671B 模型开源,数学推理领域迎来新突破
中国 AI 初创公司 DeepSeek 再次掀起开源 AI 领域的热潮,正式发布其最新开源模型 DeepSeek-Prover-V2-671B。这一拥有6710亿参数的超大规模语言模型,专为数学推理和问题解决设计,展现了 DeepSeek 在高效 AI 开发上的持续创新能力。根据社交媒体上的最新讨论,这一模型被认为是 DeepSeek 在数学领域的重要里程碑,或将推动全球 AI 研究与应用的进一步发展。
2025-05-01 16:11:21 51人关注
数学推理新标杆!DeepSeek-Prover-V2 实现数学证明的飞跃
在人工智能领域,最近一项重磅技术发布引发广泛关注 ——DeepSeek-Prover-V2。这一模型不仅在推理性能上取得了显著提升,还被誉为通向人工通用智能(AGI)的关键一步。DeepSeek-Prover-V2在推理能力和训练效率上都进行了革命性的创新,给数学推理研究带来了新的希望。
2025-04-07 10:31:28 48人关注
谷歌新研究:合成数据助力大模型,数学推理能力提升八倍
近期,谷歌、卡内基梅隆大学与 MultiOn 的研究团队联合发布了一项关于合成数据在大模型训练中应用的新研究。根据 AI 发展科研机构 Epoch AI 的报告,目前人类公开的高质量文本训练数据大约有300万亿 tokens,但随着大型模型如 ChatGPT 的快速发展,对训练数据的需求正以指数级增长,预计在2026年前这些数据将被消耗殆尽,因此合成数据逐渐成为重要的替代方案。
2025-02-04 10:38:26 115人关注
智谱深度推理模型 GLM-Zero 预览版上线 擅长数理、代码等问题
在北京智谱华章科技有限公司的年度收官之际,公司发布了其首个基于扩展强化学习技术训练的推理模型——GLM-Zero的初代版本GLM-Zero-Preview。这款模型专注于提升人工智能的推理能力,尤其在数理逻辑、代码编写以及需要深度推理的复杂问题处理方面表现出色。与基座模型相比,GLM-Zero-Preview在保持通用任务能力的同时,专家任务能力得到了显著提升,其在AIME2024、MATH500和LiveCodeBench评测中的表现与OpenAI o1-preview相当。
2025-01-27 21:24:22 52人关注
阿里云发布全新数学推理模型Qwen2.5-Math-PRM,7B 版本超越 GPT-4o
今天,阿里云通义团队正式发布了全新的数学推理过程奖励模型 Qwen2.5-Math-PRM。该模型提供了72B 和7B 两种尺寸,性能表现均显著优于同类的开源过程奖励模型,尤其是在识别推理错误方面表现突出。
2025-01-21 21:37:30 113人关注
阿里推新 AI 基准测试 “PROCESSBENCH”,评估数学推理中的错误识别能力
近日,阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试,旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展,这一领域的研究者们发现,尽管模型表现出色,但在处理某些困难问题时依然面临挑战。因此,开发一种有效的监督方法显得尤为重要。
2025-01-16 09:16:37 54人关注
DeepSeek开源DeepSeek-V2-Chat-0628模型 代码、数学推理能力提升
近日,LMSYS组织的大模型竞技场(Chatbot Arena)发布了最新的榜单更新,LMSYS Chatbot Arena 排行榜上总排名11超过了所有开源模型,包括Llama3-70B、Qwen2-72B、Nemotron-4-340B、Gemma2-27B等,荣获全球开源模型榜首的荣誉。
2024-12-28 15:24:24 110人关注
苹果研究团队发布新基准GSM-Symbolic:揭示大语言模型的数学推理短板!
最近,苹果公司的研究人员对大语言模型(LLM)的数学推理能力进行了深入研究,推出了一项名为 GSM-Symbolic 的新基准测试。