上云资讯 - 来上云吧，企业上云一站式服务

2025-08-30 09:26:12 403人关注

美团发布Meeseeks评测基准！o3-mini霸榜，DeepSeek-R1意外垫底引发热议

近年来，随着 OpenAI 的 o 系列模型、Claude3.5Sonnet 和 DeepSeek-R1等大型语言模型的快速发展，人工智能的知识和推理能力备受关注。然而，很多用户在实际使用中发现，这些模型有时未能完全按照输入的指令执行，导致输出结果虽然内容不错，却并未满足具体的格式或内容要求。为了深入研究和评估这些模型的指令遵循能力，美团 M17团队推出了全新的评测基准 ——Meeseeks。

大模型评测基准指令遵循能力评估美团M17团队 Meeseeks评测 OpenAI o系列模型 Claude3.5Sonnet DeepSeek-R1

2025-08-12 10:33:30 287人关注

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米宣布开源全新版本的多模态大模型——Xiaomi MiMo-VL-7B-2508，并同步推出 SFT 和 RL 两个模型版本。此次升级不仅优化了输出模式，还提升了 RL 训练的稳定性，在多项能力评测中取得了显著进步。同时，用户还可以在“思考模式”和“非思考模式”之间灵活切换，以适应不同场景需求。

小米多模态大模型大模型开源 Xiaomi MiMo-VL-7B-2508 SFT模型 RL模型训练多模态大模型评测

2025-08-05 15:34:15 229人关注

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩，更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一，数据吞吐效率更是高出20倍以上。

小米多模态大模型 MiDashengLM-7B 音频理解AI模型大模型推理效率多模态大模型评测大模型数据吞吐效率

2025-07-08 11:34:15 220人关注

飞渡科技推出 “峥嵘大模型”，数字双胞胎迎来智能新纪元！

在人工智能领域不断发展的今天，飞渡科技正式发布了其最新成果 ——“峥嵘大模型”。这一模型在国际评测平台 City3D 中表现出色，尤其是在建模精度和语义理解能力方面，名列全球前茅。这一创新技术不仅展示了飞渡科技的技术实力，也为多个行业的应用打开了新大门。

飞渡科技峥嵘大模型 AI大模型评测 City3D评测平台大模型建模精度大模型语义理解

2025-06-01 16:41:15 310人关注

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

近日，云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出，荣登榜首。这一成就标志着中国在人工智能领域的进一步突破，尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。

云从科技多模态大模型 OpenCompass 榜单 AI大模型评测大模型技术排名

2025-05-02 10:23:24 898人关注

AI基准测试平台LMArena陷争议：研究指责其偏袒OpenAI、谷歌和Meta

人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出，该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题，其不透明的流程和头部企业的固有优势可能导致排名失真。然而，LMArena运营团队已公开否认这些指控。

AI基准测试 LMarena争议 OpenAI基准测试 Google AI基准测试 Meta AI基准测试 AI大模型评测

2025-04-18 16:32:40 264人关注

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。

AI 大模型评测聊天机器人竞技场 AI 基准测试大模型性能对比 AI 聊天机器人排名

2025-01-24 09:33:33 310人关注

尴尬！谷歌被曝用Claude模型进行对比测试来改进Gemini AI

近日，谷歌的 Gemini 人工智能项目正在通过比较其输出结果与 Anthropic 公司的 Claude 模型来提升自身性能。据 TechCrunch 获得的内部通信记录显示，负责 Gemini 改进的承包商正在系统地评估这两种 AI 模型的回答。

Google Claude Gemini AI模型对比大模型评测

2025-01-23 17:31:10 612人关注

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上，智源研究院与腾讯宣布推出LongBench v2，这是一个专为评估大语言模型（LLMs）在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步，回应了当前长文本大语言模型在应用中的挑战。

智源腾讯 LongBench V2 大模型评测 AI评测基准

2025-01-23 10:15:28 403人关注

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena（大模型竞技场）近日迎来了新升级，旨在为用户提供更科学、全面的模型评估体验。自上线以来，该平台吸引了大量社区用户参与并贡献数据，基于这些数据，CompassArena不断优化，此次升级包括全新Judge Copilot功能和榜单算法的改进，以及新增20多个全新模型。

Compass Arena升级 Judge Copilot AI裁判系统智能裁判升级竞技场AI技术

2025-01-22 16:26:13 1385人关注

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

字节跳动正式推出其最新的豆包大模型1.5Pro（Doubao-1.5-pro），这一新模型在多个领域的综合能力上表现出色，成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。

字节跳动豆包大模型 Doubao Model 1.5 Pro GPT4o Claude3.5 Sonnet 大模型技术对比 AI大模型评测

2025-01-21 03:23:19 534人关注

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

阿里巴巴达摩院联合魔搭社区ModelScope近期宣布开源一项新的多语言基准测试集P-MMEval，旨在全面评估大型语言模型（LLM）的多语言能力，并进行跨语言迁移能力的比较分析。这一测试集覆盖了基础和专项能力的高效数据集，确保了所有挑选的数据集中多语言覆盖的一致性，并提供了跨多种语言的并行样本，最高支持来自8个不同语族的10种语言，包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。

多语言模型评估 MMEval评测框架大模型评测工具模型评估方法多模态模型评测

2025-01-12 03:16:19 280人关注

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

在自然语言处理领域，长语境理解一直是一个挑战。尽管大型语言模型（LLMs）在多种语言任务上表现出色，但它们在处理超出其上下文窗口大小的文本时常常受限。为了克服这一限制，研究者们一直在努力提升LLMs对长文本的理解能力，这不仅对于学术研究具有重要意义，对于现实世界的应用场景，如特定领域的知识理解、长对话生成、长故事或代码生成等，同样至关重要。

PKU研究院 Loogle基准测试 AI研究机构大模型评测标准学术研究进展

2025-01-11 13:28:40 210人关注

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

近日，阿里云重磅推出了Qwen2-Math系列大型语言模型，这一专注于数学领域的AI新秀一经亮相就引发了业界的广泛关注。

阿里通义千问2 数学大模型 GPT4性能对比通义千问2技术优势 AI大模型评测

2025-01-11 01:34:15 547人关注

大模型评测平台Compass Arena新增多模态大模型竞技版块

上海人工智能实验室司南 OpenCompass 团队与魔搭 ModelScope 最近宣布，他们的大模型评测平台 Compass Arena 进行了重要更新，推出了全新的多模态大模型竞技版块 Compass Multi-Modal Arena。这一新版块为用户提供了一个平台，可以体验和比较多款主流多模态大模型的效果，帮助用户找到最适合自己需求的模型。

Compass Arena 多模态模型多模态模型专区 AI新闻 AI技术动态

2025-01-10 16:12:19 602人关注

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

在人工智能领域，大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日，一项基于HHEM-2.1-Open评估体系的测试结果显示，智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。

智谱GLM-4-9B模型大模型幻觉率 AI大模型技术 GLM-4-9B应用场景 1.3%幻觉率突破

2025-01-04 17:35:39 1088人关注

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

最近，Hugging Face 推出了一个名为 LightEval 的新工具，这是一个轻量级的 AI 评估套件，旨在帮助企业和研究人员更好地评估大型语言模型（LLMs）。

AI评估工具 LightEval HuggingFace AI模型评估大模型评测技术

2024-12-30 20:33:20 370人关注

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院（BAAI）最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制，为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展，目标是甄别大语言模型之间的能力差异。

Flageval 中文大模型大模型评测大模型辩论大模型技术评估中文模型性能对比

2024-12-29 11:29:33 349人关注

DeepMind推新基准Michelangelo：揭示长上下文 LLM推理缺陷

最近，超长上下文窗口的大型语言模型（LLMs）成为了人们讨论的热点。这些模型能够在一个提示中处理数十万甚至上百万个标记，为开发者开启了许多新的可能性。不过，这些长上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?

DeepMind新基准 Michelangelo模型长上下文LLM缺陷大模型评测标准 LLM性能评估

2024-12-29 00:42:36 411人关注

OpenAI发布AI智能体的评测集：MLE-bench

在近期的一项研究中，OpenAI研究团队推出了名为 MLE-bench 的全新基准测试，旨在评估AI智能体在机器学习工程方面的表现。

OpenAI MLE Bench AI大模型评测机器学习基准测试 OpenAI性能评估 AI模型测试标准

- 上云资讯 -

美团发布Meeseeks评测基准！o3-mini霸榜，DeepSeek-R1意外垫底引发热议

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

飞渡科技推出 “峥嵘大模型”，数字双胞胎迎来智能新纪元！

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

AI基准测试平台LMArena陷争议：研究指责其偏袒OpenAI、谷歌和Meta

AI 基准测试平台 Chatbot Arena 成立一家新公司

尴尬！谷歌被曝用Claude模型进行对比测试来改进Gemini AI

智源与腾讯推出长文本理解基准测试模型LongBench v2

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

大模型评测平台Compass Arena新增多模态大模型竞技版块

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

DeepMind推新基准Michelangelo：揭示长上下文 LLM推理缺陷

OpenAI发布AI智能体的评测集：MLE-bench

推荐阅读

上云服务

- 上云资讯 -

美团发布Meeseeks评测基准！o3-mini霸榜，DeepSeek-R1意外垫底引发热议

小米再出AI黑马！开源多模态大模型 MiMo-VL-7B-2508 性能大幅跃升，支持思考模式切换

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

飞渡科技推出 “峥嵘大模型”，数字双胞胎迎来智能新纪元！

云从科技的多模态大模型获全球认可，登顶 OpenCompass 榜单

AI基准测试平台LMArena陷争议：研究指责其偏袒OpenAI、谷歌和Meta

AI 基准测试平台 Chatbot Arena 成立一家新公司

尴尬！谷歌被曝用Claude模型进行对比测试 来改进Gemini AI

智源与腾讯推出长文本理解基准测试模型LongBench v2

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

字节跳动发布豆包大模型1.5Pro，性能超越GPT-4o与Claude3.5Sonnet

通义千问联合魔搭社区开源测试集P-MMEval：可评测模型多语言能力

北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没！

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

大模型评测平台Compass Arena新增多模态大模型竞技版块

智谱GLM-4-9B模型幻觉率仅1.3%，在全球大模型评测中夺魁

AI 评估不再难！Hugging Face 推出 LightEval，让你轻松掌控模型表现！

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

DeepMind推新基准Michelangelo：揭示长上下文 LLM推理缺陷

OpenAI发布AI智能体的评测集：MLE-bench

推荐阅读

上云服务

尴尬！谷歌被曝用Claude模型进行对比测试来改进Gemini AI

大模型评测平台CompassArena升级推出全新 Judge Copilot 功能

北大/通研院发布超难基准LooGLE测试长文本理解大模型全军覆没！