2025-01-28 09:23:28
101人关注
AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%
近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。
AI性能评估
GPT-4历史考试表现
AI大模型缺陷分析
GPT-4考试能力测试
AI模型评估标准