LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-08 11:34:15 50人关注

飞渡科技推出 “峥嵘大模型”,数字双胞胎迎来智能新纪元!

在人工智能领域不断发展的今天,飞渡科技正式发布了其最新成果 ——“峥嵘大模型”。这一模型在国际评测平台 City3D 中表现出色,尤其是在建模精度和语义理解能力方面,名列全球前茅。这一创新技术不仅展示了飞渡科技的技术实力,也为多个行业的应用打开了新大门。

飞渡科技 峥嵘大模型 AI大模型评测 City3D评测平台 大模型建模精度 大模型语义理解

2025-06-01 16:41:15 79人关注

云从科技的多模态大模型获全球认可,登顶 OpenCompass 榜单

近日,云从科技自主研发的多模态大模型 “从容 V2.0” 在全球知名的 OpenCompass 多模态榜单上以高达80.7分的优异成绩脱颖而出,荣登榜首。这一成就标志着中国在人工智能领域的进一步突破,尤其是在视觉感知、认知理解和跨领域应用等专业领域的表现令人瞩目。

云从科技 多模态大模型 OpenCompass 榜单 AI大模型评测 大模型技术排名

2025-05-02 10:23:24 120人关注

AI基准测试平台LMArena陷争议:研究指责其偏袒OpenAI、谷歌和Meta

人工智能领域知名的公共基准测试平台LMArena近日遭遇信任危机。一项新的研究指出,该平台的排名系统存在偏袒OpenAI、谷歌和Meta等大型供应商的结构性问题,其不透明的流程和头部企业的固有优势可能导致排名失真。然而,LMArena运营团队已公开否认这些指控。

AI基准测试 LMarena争议 OpenAI基准测试 Google AI基准测试 Meta AI基准测试 AI大模型评测

2025-04-18 16:32:40 115人关注

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下,Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力,正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道,Chatbot Arena 旨在通过这家新公司获取更多资源,从而显著改善其平台的功能和服务。

AI 大模型评测 聊天机器人竞技场 AI 基准测试 大模型性能对比 AI 聊天机器人排名

2025-01-24 09:33:33 147人关注

尴尬!谷歌被曝用Claude模型进行对比测试 来改进Gemini AI

近日,谷歌的 Gemini 人工智能项目正在通过比较其输出结果与 Anthropic 公司的 Claude 模型来提升自身性能。据 TechCrunch 获得的内部通信记录显示,负责 Gemini 改进的承包商正在系统地评估这两种 AI 模型的回答。

Google Claude Gemini AI模型对比 大模型评测

2025-01-23 17:31:10 211人关注

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。

智源 腾讯 LongBench V2 大模型评测 AI评测基准

2025-01-23 10:15:28 153人关注

大模型评测平台CompassArena升级 推出全新 Judge Copilot 功能

上海人工智能实验室司南OpenCompass团队与魔搭ModelScope联合推出的大模型评测平台CompassArena(大模型竞技场)近日迎来了新升级,旨在为用户提供更科学、全面的模型评估体验。自上线以来,该平台吸引了大量社区用户参与并贡献数据,基于这些数据,CompassArena不断优化,此次升级包括全新Judge Copilot功能和榜单算法的改进,以及新增20多个全新模型。

Compass Arena升级 Judge Copilot AI裁判系统 智能裁判升级 竞技场AI技术

2025-01-22 16:26:13 501人关注

字节跳动发布豆包大模型1.5Pro,性能超越GPT-4o与Claude3.5Sonnet

字节跳动正式推出其最新的豆包大模型1.5Pro(Doubao-1.5-pro),这一新模型在多个领域的综合能力上表现出色,成功超越了行业内知名的 GPT-4o 和 Claude3.5Sonnet。该模型的发布标志着字节跳动在人工智能领域又向前迈出了重要一步。

字节跳动豆包大模型 Doubao Model 1.5 Pro GPT4o Claude3.5 Sonnet 大模型技术对比 AI大模型评测

2025-01-21 03:23:19 211人关注

通义千问联合魔搭社区开源测试集P-MMEval:可评测模型多语言能力

阿里巴巴达摩院联合魔搭社区ModelScope近期宣布开源一项新的多语言基准测试集P-MMEval,旨在全面评估大型语言模型(LLM)的多语言能力,并进行跨语言迁移能力的比较分析。这一测试集覆盖了基础和专项能力的高效数据集,确保了所有挑选的数据集中多语言覆盖的一致性,并提供了跨多种语言的并行样本,最高支持来自8个不同语族的10种语言,包括英语、中文、阿拉伯语、西班牙语、日语、韩语、泰语、法语、葡萄牙语和越南语。

多语言模型评估 MMEval评测框架 大模型评测工具 模型评估方法 多模态模型评测

2025-01-12 03:16:19 94人关注

北大/通研院发布超难基准LooGLE测试长文本理解 大模型全军覆没!

在自然语言处理领域,长语境理解一直是一个挑战。尽管大型语言模型(LLMs)在多种语言任务上表现出色,但它们在处理超出其上下文窗口大小的文本时常常受限。为了克服这一限制,研究者们一直在努力提升LLMs对长文本的理解能力,这不仅对于学术研究具有重要意义,对于现实世界的应用场景,如特定领域的知识理解、长对话生成、长故事或代码生成等,同样至关重要。

PKU研究院 Loogle基准测试 AI研究机构 大模型评测标准 学术研究进展

2025-01-11 13:28:40 75人关注

阿里开源最新数学模型Qwen2-Math 数学能力秒杀GPT-4o

近日,阿里云重磅推出了Qwen2-Math系列大型语言模型,这一专注于数学领域的AI新秀一经亮相就引发了业界的广泛关注。

阿里通义千问2 数学大模型 GPT4性能对比 通义千问2技术优势 AI大模型评测

2025-01-11 01:34:15 196人关注

大模型评测平台Compass Arena新增多模态大模型竞技版块

上海人工智能实验室司南 OpenCompass 团队与魔搭 ModelScope 最近宣布,他们的大模型评测平台 Compass Arena 进行了重要更新,推出了全新的多模态大模型竞技版块 Compass Multi-Modal Arena。这一新版块为用户提供了一个平台,可以体验和比较多款主流多模态大模型的效果,帮助用户找到最适合自己需求的模型。

Compass Arena 多模态模型 多模态模型专区 AI新闻 AI技术动态

2025-01-10 16:12:19 264人关注

智谱GLM-4-9B模型幻觉率仅1.3%,在全球大模型评测中夺魁

在人工智能领域,大语言模型的"幻觉问题"一直是困扰业界的关键挑战。近日,一项基于HHEM-2.1-Open评估体系的测试结果显示,智谱AI旗下的GLM-4-9B模型交出了一份令人瞩目的成绩单。

智谱GLM-4-9B模型 大模型幻觉率 AI大模型技术 GLM-4-9B应用场景 1.3%幻觉率突破

2025-01-04 17:35:39 622人关注

AI 评估不再难!Hugging Face 推出 LightEval,让你轻松掌控模型表现!

最近,Hugging Face 推出了一个名为 LightEval 的新工具,这是一个轻量级的 AI 评估套件,旨在帮助企业和研究人员更好地评估大型语言模型(LLMs)。

AI评估工具 LightEval HuggingFace AI模型评估 大模型评测技术

2024-12-30 20:33:20 149人关注

智源研究院推出全球首个中文大模型辩论平台FlagEval Debate

北京智源人工智能研究院(BAAI)最近推出了全球首个中文大模型辩论平台FlagEval Debate。这一新平台旨在通过模型辩论这一竞争机制,为大语言模型的能力评估提供新的度量方式。它是智源模型对战评测服务FlagEval大模型角斗场的扩展,目标是甄别大语言模型之间的能力差异。

Flageval 中文大模型 大模型评测 大模型辩论 大模型技术评估 中文模型性能对比

2024-12-29 11:29:33 109人关注

DeepMind推新基准Michelangelo:揭示长上下文 LLM推理缺陷

最近,超长上下文窗口的大型语言模型(LLMs)成为了人们讨论的热点。这些模型能够在一个提示中处理数十万甚至上百万个标记,为开发者开启了许多新的可能性。不过,这些长上下文 LLM 到底能多好地理解和利用所接收到的大信息呢?

DeepMind新基准 Michelangelo模型 长上下文LLM缺陷 大模型评测标准 LLM性能评估

2024-12-29 00:42:36 136人关注

OpenAI发布AI智能体的评测集:MLE-bench

在近期的一项研究中,OpenAI研究团队推出了名为 MLE-bench 的全新基准测试,旨在评估AI智能体在机器学习工程方面的表现。

OpenAI MLE Bench AI大模型评测 机器学习基准测试 OpenAI性能评估 AI模型测试标准

2024-12-28 08:32:19 66人关注

号称最先进小型语言模型Zamba2-7B发布 性能超越Gemma-7B

最近,Zyphra 正式推出了 Zamba2-7B,这是一款具有前所未有性能的小型语言模型,参数数量达到7B。

Zamba2-7B Gemma-7B 大模型性能对比 开源大模型评测 模型性能优化

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10