LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-10 10:40:30 110人关注

红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。

RedSeed中国AI评测工具 AI基准测试工具 AI性能评测 中国AI技术评测 AI工具评测标准

2025-03-01 16:14:38 154人关注

微软论文再曝OpenAI模型参数?医疗AI评测意外暴露4o-mini只有8B

在一篇聚焦医疗AI评测的研究论文中,微软似乎再次"不经意"地披露了业界多个顶级大语言模型的参数规模。这份发布于12月26日的论文不仅揭示了包括OpenAI、Anthropic在内的多家公司的模型参数数据,还引发了业内对模型架构和技术实力的热议。

Microsoft OpenAI 模型参数 医疗AI评估 AI模型评估 大模型技术

2025-01-24 15:16:20 80人关注

中国电信星辰大模型入选"国之重器"年度盘点,打造全国产化AI新标杆

在国务院国资委新闻中心发起的"十大国之重器"年度评选中,中国电信自主研发的星辰大模型凭借其突破性技术成果成功入围。作为国内首个全尺寸、全模态、全国产化的基础大模型体系,星辰大模型在语义、语音、视觉和多模态等领域展现出卓越实力。

中国电信 星云大模型 AI评测 大模型基准测试 电信行业AI应用 AI大模型性能评估

2025-01-23 17:31:10 211人关注

智源与腾讯推出长文本理解基准测试模型LongBench v2

在2024年12月19日的发布会上,智源研究院与腾讯宣布推出LongBench v2,这是一个专为评估大语言模型(LLMs)在真实世界长文本多任务中的深度理解与推理能力而设计的基准测试。该平台旨在推动长文本模型在理解和推理方面的进步,回应了当前长文本大语言模型在应用中的挑战。

智源 腾讯 LongBench V2 大模型评测 AI评测基准

2025-01-08 05:15:41 85人关注

​美国媒体巨头Gannett关闭产品评测网站Reviewed,被指发布AI评测

最近,美国媒体巨头 Gannett 宣布将于11月1日关闭其旗下的产品评测网站 Reviewed。这一决定令许多人感到震惊,因为 Reviewed 一直提供从鞋子到家用电器等各种产品的推荐,并且雇佣专业记者进行测试和评测。然而,Reviewed 最近却卷入了一场关于内容来源的争议,引发了外界的质疑。

Gannett Reviewed关闭 新闻行业动态 媒体公司重组 数字媒体转型

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10