- 上云资讯 -
2025-04-11 16:27:16 33人关注
Vector Institute 发布 AI 模型性能评估报告,助力透明性与可信度
人工智能(AI)模型的发展速度让人眼花缭乱,技术开发者们在不断提升其性能的同时,也引发了用户对于模型表现真实度的疑虑。为了解决这一问题,由杰弗里・辛顿(Geoffrey Hinton)创办的 Vector Institute 为人工智能研究推出了《评估现状研究》。该研究通过互动排行榜对11个顶尖的开放源代码和闭源模型进行了全面评测,涵盖了数学、通用知识、编码、安全性等16个基准。
2025-01-28 09:23:28 100人关注
AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%
近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。
2024-12-16 19:11:34 35人关注
Meta 推出全新 Multi-IF 基准,挑战多轮多语言指令遵循能力
Meta 最近发布了一项全新的基准测试,名为 Multi-IF,旨在评估大语言模型(LLM)在多轮对话和多语言环境下的指令遵循能力。这一基准覆盖了八种语言,包含4501个三轮对话任务,重点探讨了当前模型在复杂多轮和多语言场景中的表现。
Meta Multi-IF Benchmark 多语言指令遵循基准 多语言AI模型评估 AI指令跟随测试 多语言指令性能评测