LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-11 16:27:16 77人关注

Vector Institute 发布 AI 模型性能评估报告,助力透明性与可信度

人工智能(AI)模型的发展速度让人眼花缭乱,技术开发者们在不断提升其性能的同时,也引发了用户对于模型表现真实度的疑虑。为了解决这一问题,由杰弗里・辛顿(Geoffrey Hinton)创办的 Vector Institute 为人工智能研究推出了《评估现状研究》。该研究通过互动排行榜对11个顶尖的开放源代码和闭源模型进行了全面评测,涵盖了数学、通用知识、编码、安全性等16个基准。

Vector Institute AI模型性能报告 AI模型评估 向量数据库性能 AI技术分析

2025-03-01 16:14:38 154人关注

微软论文再曝OpenAI模型参数?医疗AI评测意外暴露4o-mini只有8B

在一篇聚焦医疗AI评测的研究论文中,微软似乎再次"不经意"地披露了业界多个顶级大语言模型的参数规模。这份发布于12月26日的论文不仅揭示了包括OpenAI、Anthropic在内的多家公司的模型参数数据,还引发了业内对模型架构和技术实力的热议。

Microsoft OpenAI 模型参数 医疗AI评估 AI模型评估 大模型技术

2025-01-28 09:23:28 138人关注

​AI 在高级历史考试中表现不佳:GPT-4 Turbo 准确率仅 46%

近日,一项由奥地利复杂科学研究所(CSH)主导的研究显示,尽管大型语言模型(LLMs)在多项任务中表现优异,但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试,包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini,结果让人失望。

AI性能评估 GPT-4历史考试表现 AI大模型缺陷分析 GPT-4考试能力测试 AI模型评估标准

2025-01-04 22:12:45 167人关注

错位图灵测试:GPT-4竟比人类更像人类?

在1950年,一个名叫艾伦·图灵的聪明人想出了一个测试机器是否具备智能的巧妙方法,这就是著名的图灵测试。简单来说,如果一台机器能在文字交流中让人分不清它是机器还是人类,那么它就通过了测试,被认为是有智能的。

AI大模型 GPT-4 图灵测试 人类对齐问题 AI模型评估 GPT-4人类化表现

2025-01-04 17:35:39 624人关注

AI 评估不再难!Hugging Face 推出 LightEval,让你轻松掌控模型表现!

最近,Hugging Face 推出了一个名为 LightEval 的新工具,这是一个轻量级的 AI 评估套件,旨在帮助企业和研究人员更好地评估大型语言模型(LLMs)。

AI评估工具 LightEval HuggingFace AI模型评估 大模型评测技术

2024-12-22 00:45:42 75人关注

CMU、Meta联手放大招! VQAScore一个问题搞定文生图模型评测,准确性远超传统方法!

生成式AI发展迅猛,但如何全面评估其性能一直是个难题。各种模型层出不穷,效果也是越来越惊艳。但是,问题来了,怎么评价这些文生图模型的效果呢?

CMU Meta VQAscore 图像生成评估 图像生成技术 AI模型评估方法

2024-12-16 19:11:34 68人关注

​Meta 推出全新 Multi-IF 基准,挑战多轮多语言指令遵循能力

Meta 最近发布了一项全新的基准测试,名为 Multi-IF,旨在评估大语言模型(LLM)在多轮对话和多语言环境下的指令遵循能力。这一基准覆盖了八种语言,包含4501个三轮对话任务,重点探讨了当前模型在复杂多轮和多语言场景中的表现。

Meta Multi-IF Benchmark 多语言指令遵循基准 多语言AI模型评估 AI指令跟随测试 多语言指令性能评测

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10