如果您需要任何上云服务
请随时联系我们:
电话:021-50583875
邮箱:service@yuncan.com
2025-05-10 16:14:11 40人关注
近日,魔搭ModelScope社区宣布发布一项名为UGMathBench的动态基准测试数据集,旨在全面评估语言模型在本科数学广泛科目中的数学推理能力。这一数据集的问世,填补了当前在本科数学领域评估语言模型推理能力的空白,并为研究者提供了更为丰富和具有挑战性的测试平台。
动态数学推理基准 数学推理评测 UGMathBench 数学推理能力评估 动态基准测试