上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-11-08 13:25:36 252人关注

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

近日，美团 LongCat 团队推出了一个名为 UNO-Bench 的全新基准测试，旨在系统性地评估这些模型在不同模态下的理解能力。这个基准测试涵盖了44种任务类型和5种模态组合，力求全面展现模型的单模态与全模态的性能。

2025-01-21 03:23:19 466人关注

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

阿里巴巴达摩院联合魔搭社区ModelScope近期宣布开源一项新的多语言基准测试集P-MMEval，旨在全面评估大型语言模型（LLM）的多语言能力，并进行跨语言迁移能力的比较分析。这一测试集覆盖了基础和专项能力的高效数据集，确保了所有挑选的数据集中多语言覆盖的一致性，并提供了跨多种语言的并行样本，最高支持来自8个不同语族的10种语言，包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。

多语言模型评估 MMEval评测框架大模型评测工具模型评估方法多模态模型评测

2025-01-17 18:11:15 239人关注

大语言模型推理能力被高估了在不熟悉场景中有很大的弱点

近期，麻省理工学院（MIT）的研究团队对大型语言模型(LLMs)进行了深入的研究，探讨它们在不同任务下的表现。他们发现，尽管这些模型在一些常见的任务上看起来很出色，但实际上它们的推理能力常常被高估，尤其是在面对不熟悉的情境时。

大语言模型语言模型弱点语言模型评估语言模型应用场景语言模型性能

2024-12-31 04:15:24 283人关注

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

在自然语言处理领域，大型语言模型（LLMs）的发展迅速，已经在多个领域取得了显著的进展。不过，随着模型的复杂性增加，如何准确评估它们的输出就变得至关重要。传统上，我们依赖人类来进行评估，但这种方式既耗时又难以规模化，无法跟上模型快速发展的步伐。

Salesforce AI SFR Judge Llama3 AI大模型 AI技术应用 Salesforce AI新闻

- 上云资讯 -

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

大语言模型推理能力被高估了在不熟悉场景中有很大的弱点

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

推荐阅读

上云服务

- 上云资讯 -

美团LongCat发布创新基准测试UNO-Bench，全面提升多模态大语言模型评估能力

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

​大语言模型推理能力被高估了 在不熟悉场景中有很大的弱点

​Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建

推荐阅读

上云服务

大语言模型推理能力被高估了在不熟悉场景中有很大的弱点

Salesforce AI 推全新大语言模型评估家族SFR-Judge 基于Llama3构建