LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-10 10:40:30 109人关注

红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准

随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。

RedSeed中国AI评测工具 AI基准测试工具 AI性能评测 中国AI技术评测 AI工具评测标准

2025-04-03 16:15:26 309人关注

Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型

2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。

Gemini 2.5 Pro Matharena AI性能评测 大模型数学能力 AI模型性能对比

2025-01-19 02:25:17 164人关注

谷歌开源轻量级语言模型Gemina 2:提升AI性能、速度和可访问性

谷歌推出了 Gemma2,这是其开源轻量级语言模型的最新版本,提供90亿 (9B) 和270亿 (27B) 参数大小。与前身 Gemma 模型相比,这个新版本承诺增强性能和更快的推理速度。

Google Gemini 2 AI性能评测 Google AI模型 Gemini 2技术解析 大模型性能比较

2025-01-16 13:29:21 221人关注

​Groq开源的Llama AI模型登顶排行榜,函数调用方面优于GPT-4o和Claude

人工智能硬件初创公司Groq发布了两款开源语言模型,这两款模型在专门工具使用能力方面胜过科技巨头。新的 Llama-3-Groq-70B-Tool-Use 模型已经在伯克利函数调用排行榜(BFCL)上夺得榜首,超越了来自 OpenAI、谷歌和 Anthropic 等公司的专有产品。

Groq Llama AI模型 AI模型排行榜 AI性能评测 AI模型优化

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10