微信扫码
添加专属顾问
2025-05-03 16:33:40 78人关注
近日,一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注,尤其是对大型语言模型(LLM)领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出,排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。
AI模型排名 LLAMA4测试 64页AI论文 大模型评估 AI模型性能对比