上云资讯 - 来上云吧，企业上云一站式服务

2025-06-05 10:42:25 446人关注

多模态大模型视觉推理能力评估:o3 仅得 25.8% 分数

近日，由清华大学、腾讯混元、斯坦福大学及卡耐基梅隆大学的研究团队联合发布了一项新评估基准 ——RBench-V，专门针对多模态大模型的视觉推理能力进行测试。该基准的推出，旨在填补当前评估体系中对模型视觉输出能力的空白，以便更全面地了解现有模型的性能。