如果您需要任何上云服务
请随时联系我们:
电话:021-50583875
邮箱:service@yuncan.com
2025-05-03 16:33:40 42人关注
近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。
AI模型排名 LLAMA4测试 64页AI论文 大模型评估 AI模型性能对比