上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-09-09 10:11:12 240人关注

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

微软研究院开源的rStar2-Agent模型在AI数学推理领域引发关注，这款140亿参数的模型通过创新的智能体强化学习技术，在多项数学基准测试中超越了参数量达6710亿的DeepSeek-R1模型。

AI数学推理智能体强化学习数学基准测试大模型性能对比 DeepSeek-R1 rStar2-Agent

2025-04-18 16:32:40 264人关注

AI 基准测试平台 Chatbot Arena 成立一家新公司

在 AI 行业快速发展的背景下，Chatbot Arena 这个众包 AI 基准测试项目正在扩展其影响力，正式成立了一家名为 Arena Intelligence Inc. 的新公司。根据彭博社的报道，Chatbot Arena 旨在通过这家新公司获取更多资源，从而显著改善其平台的功能和服务。

AI 大模型评测聊天机器人竞技场 AI 基准测试大模型性能对比 AI 聊天机器人排名

2025-02-04 16:21:22 515人关注

微软正式开源超强小模型Phi-4 性能测试超越GPT-4o、Llama-3.1

微软近期在 Hugging Face 平台上发布了名为 Phi-4的小型语言模型，这款模型的参数量仅为140亿，但在多项性能测试中表现出色，超越了众多知名模型，包括 OpenAI 的 GPT-4o 及其他同类开源模型如 Qwen2.5和 Llama-3.1。

Microsoft Phi4 GPT4o LLaMA31 大模型性能对比 AI模型评测

2025-01-24 22:12:45 698人关注

挑战开源AI新高度:DeepSeek V3超越Llama3.1，训练数据达14.8万亿token

中国人工智能公司DeepSeek日前发布了一款具有里程碑意义的开源大语言模型DeepSeek V3。这款拥有6710亿参数的模型不仅规模超越Meta的Llama3.1，在多项基准测试中的表现也优于包括GPT-4在内的主流封闭源模型。

DeepSeek V3 LLaMA3 14万亿tokens 大模型性能对比 AI模型评测

2025-01-20 02:28:19 225人关注

Arcee Spark：以Qwen2 为基础的模型在多项任务上超越 GPT-3.5

近日，一款以Qwen2为基础的模型 Arcee Spark ，在180万个样本数据上进行了微调，具有128k token上下文。 Arcee Spark 的发布，引起了广泛的关注，尤其是在人工智能领域的从业者中，更是引发了一股热潮。

Arcee Spark Qwen2 GPT-3.5 大模型性能对比 AI模型评测

2025-01-13 17:26:35 248人关注

谷歌发布全新Gemma 2 2B模型，性能超越GPT-3.5-Turbo与Mixtral-8x7B

谷歌正式推出了其 Gemma2系列的新成员 ——Gemma22B 模型。这个拥有20亿参数的模型，展现出了在多种硬件环境下的卓越性能。除了强大的模型本身，谷歌还推出了 ShieldGemma 安全分类器，以过滤有害内容，并提供 Gemma Scope 工具，供研究人员分析模型的决策过程。

Google Gemma 2.2B GPT-3.5 Mixtral 大模型性能对比 AI模型评测

2025-01-10 05:34:29 300人关注

Llama 8B 用搜索引擎打败GPT-4o？新发现颠覆了AI界的游戏规则！

最近，一项新研究令人振奋，证明了大型语言模型（LLM）可以通过搜索功能来显著提升性能。特别是，参数量仅8亿的 Llama3.1模型经过100次搜索，竟然在 Python 代码生成的任务上与 GPT-4o 不相上下。

Llama 8B GPT-4o AI大模型大模型性能对比 AI游戏规则改变者

2025-01-05 08:41:11 274人关注

性能超越GPT-4o 和 Claude 3.5 Sonnet！超强的Reflection 70B 模型登场

人工智能初创公司HyperWrite的首席执行官Matt Shumer宣布了一个重要的里程碑:他们推出了基于Meta开源Llama3.1-70B Instruct的Reflection70B模型。这款新模型不仅在第三方基准测试中表现卓越，还被誉为“世界上最强大的开源AI模型”。

Reflection-70B GPT4o Claude35 大模型性能对比 AI模型评测

2024-12-28 08:32:19 242人关注

号称最先进小型语言模型Zamba2-7B发布性能超越Gemma-7B

最近，Zyphra 正式推出了 Zamba2-7B，这是一款具有前所未有性能的小型语言模型，参数数量达到7B。

Zamba2-7B Gemma-7B 大模型性能对比开源大模型评测模型性能优化

- 上云资讯 -

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

AI 基准测试平台 Chatbot Arena 成立一家新公司

微软正式开源超强小模型Phi-4 性能测试超越GPT-4o、Llama-3.1

挑战开源AI新高度:DeepSeek V3超越Llama3.1，训练数据达14.8万亿token

Arcee Spark：以Qwen2 为基础的模型在多项任务上超越 GPT-3.5

谷歌发布全新Gemma 2 2B模型，性能超越GPT-3.5-Turbo与Mixtral-8x7B

Llama 8B 用搜索引擎打败GPT-4o？新发现颠覆了AI界的游戏规则！

性能超越GPT-4o 和 Claude 3.5 Sonnet！超强的Reflection 70B 模型登场

号称最先进小型语言模型Zamba2-7B发布性能超越Gemma-7B

推荐阅读

上云服务

- 上云资讯 -

微软14B参数模型挑战671B巨型AI 智能体强化学习重新定义数学推理

AI 基准测试平台 Chatbot Arena 成立一家新公司

微软正式开源超强小模型Phi-4 性能测试超越GPT-4o、Llama-3.1

挑战开源AI新高度:DeepSeek V3超越Llama3.1，训练数据达14.8万亿token

Arcee Spark：以Qwen2 为基础的模型在多项任务上超越 GPT-3.5

​谷歌发布全新Gemma 2 2B模型，性能超越GPT-3.5-Turbo与Mixtral-8x7B

Llama 8B 用搜索引擎打败GPT-4o？新发现颠覆了AI界的游戏规则！

性能超越GPT-4o 和 Claude 3.5 Sonnet！超强的Reflection 70B 模型登场

号称最先进小型语言模型Zamba2-7B发布 性能超越Gemma-7B

推荐阅读

上云服务

谷歌发布全新Gemma 2 2B模型，性能超越GPT-3.5-Turbo与Mixtral-8x7B

号称最先进小型语言模型Zamba2-7B发布性能超越Gemma-7B