上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-11 16:27:16 234人关注

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

人工智能（AI）模型的发展速度让人眼花缭乱，技术开发者们在不断提升其性能的同时，也引发了用户对于模型表现真实度的疑虑。为了解决这一问题，由杰弗里・辛顿(Geoffrey Hinton)创办的 Vector Institute 为人工智能研究推出了《评估现状研究》。该研究通过互动排行榜对11个顶尖的开放源代码和闭源模型进行了全面评测，涵盖了数学、通用知识、编码、安全性等16个基准。

Vector Institute AI模型性能报告 AI模型评估向量数据库性能 AI技术分析

2025-03-01 16:14:38 331人关注

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

在一篇聚焦医疗AI评测的研究论文中，微软似乎再次"不经意"地披露了业界多个顶级大语言模型的参数规模。这份发布于12月26日的论文不仅揭示了包括OpenAI、Anthropic在内的多家公司的模型参数数据，还引发了业内对模型架构和技术实力的热议。

Microsoft OpenAI 模型参数医疗AI评估 AI模型评估大模型技术

2025-01-28 09:23:28 283人关注

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。

AI性能评估 GPT-4历史考试表现 AI大模型缺陷分析 GPT-4考试能力测试 AI模型评估标准

2025-01-04 22:12:45 336人关注

错位图灵测试：GPT-4竟比人类更像人类？

在1950年，一个名叫艾伦·图灵的聪明人想出了一个测试机器是否具备智能的巧妙方法，这就是著名的图灵测试。简单来说，如果一台机器能在文字交流中让人分不清它是机器还是人类，那么它就通过了测试，被认为是有智能的。

AI大模型 GPT-4 图灵测试人类对齐问题 AI模型评估 GPT-4人类化表现

2025-01-04 17:35:39 1010人关注

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

最近，Hugging Face 推出了一个名为 LightEval 的新工具，这是一个轻量级的 AI 评估套件，旨在帮助企业和研究人员更好地评估大型语言模型（LLMs）。

AI评估工具 LightEval HuggingFace AI模型评估大模型评测技术

2024-12-22 00:45:42 213人关注

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

生成式AI发展迅猛，但如何全面评估其性能一直是个难题。各种模型层出不穷，效果也是越来越惊艳。但是，问题来了，怎么评价这些文生图模型的效果呢?

CMU Meta VQAscore 图像生成评估图像生成技术 AI模型评估方法

2024-12-16 19:11:34 192人关注

Meta 推出全新 Multi-IF 基准，挑战多轮多语言指令遵循能力

Meta 最近发布了一项全新的基准测试，名为 Multi-IF，旨在评估大语言模型（LLM）在多轮对话和多语言环境下的指令遵循能力。这一基准覆盖了八种语言，包含4501个三轮对话任务，重点探讨了当前模型在复杂多轮和多语言场景中的表现。

Meta Multi-IF Benchmark 多语言指令遵循基准多语言AI模型评估 AI指令跟随测试多语言指令性能评测

- 上云资讯 -

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

错位图灵测试：GPT-4竟比人类更像人类？

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

Meta 推出全新 Multi-IF 基准，挑战多轮多语言指令遵循能力

推荐阅读

上云服务

- 上云资讯 -

Vector Institute 发布 AI 模型性能评估报告，助力透明性与可信度

微软论文再曝OpenAI模型参数？医疗AI评测意外暴露4o-mini只有8B

​AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

错位图灵测试：GPT-4竟比人类更像人类？

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

CMU、Meta联手放大招！ VQAScore一个问题搞定文生图模型评测，准确性远超传统方法！

​Meta 推出全新 Multi-IF 基准，挑战多轮多语言指令遵循能力

推荐阅读

上云服务

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

Meta 推出全新 Multi-IF 基准，挑战多轮多语言指令遵循能力