上云资讯 - 来上云吧，企业上云一站式服务

2025-05-10 16:14:11 268人关注

UGMathBench动态基准测试数据集发布可评估语言模型数学推理能力

近日，魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集，旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世，填补了当前在本科数学领域评估语言模型推理能力的空白，并为研究者提供了更为丰富和具有挑战性的测试平台。