上云资讯 - 来上云吧，企业上云一站式服务

2025-05-03 16:33:40 264人关注

64页论文揭示AI模型排行榜黑幕：Llama4发布前私下测试27个版本，只取最佳成绩

近日，一篇名为《排行榜幻觉》的论文在学术界引发了广泛关注，尤其是对大型语言模型（LLM）领域中备受推崇的 Chatbot Arena 排行榜提出了严厉质疑。研究指出，排行榜的可信度因数据访问不平等、模型私下测试等问题而受到挑战。