- 上云资讯 -
2025-06-10 10:40:30 109人关注
红杉中国推出全新 AI 基准测试工具,助力智能体评估新标准
随着人工智能技术的迅速发展,尤其是大型模型的不断进步,基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状,红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估,还引入了动态更新机制,确保测试的有效性和公正性。
2025-04-03 16:15:26 309人关注
Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型
2025年4月3日消息:根据MathArena最新发布的大语言模型数学能力评测结果显示,Google的Gemini-2.5-pro以绝对优势领跑,在未污染的高难度数学竞赛中展现出令人瞩目的表现。
2025-01-19 02:25:17 164人关注
谷歌开源轻量级语言模型Gemina 2:提升AI性能、速度和可访问性
谷歌推出了 Gemma2,这是其开源轻量级语言模型的最新版本,提供90亿 (9B) 和270亿 (27B) 参数大小。与前身 Gemma 模型相比,这个新版本承诺增强性能和更快的推理速度。
2025-01-16 13:29:21 221人关注
Groq开源的Llama AI模型登顶排行榜,函数调用方面优于GPT-4o和Claude
人工智能硬件初创公司Groq发布了两款开源语言模型,这两款模型在专门工具使用能力方面胜过科技巨头。新的 Llama-3-Groq-70B-Tool-Use 模型已经在伯克利函数调用排行榜(BFCL)上夺得榜首,超越了来自 OpenAI、谷歌和 Anthropic 等公司的专有产品。