上云资讯 - 来上云吧，企业上云一站式服务

2025-09-11 11:33:36 405人关注

上海交大发布 MobiAgent：人人都能拥有自己的 AI 助手，超越 GPT-5！

近日，上海交通大学的 IPADS 实验室团队推出了一款名为 MobiAgent 的全新移动端智能体工具链，打破了个人化智能助手的开发壁垒，声称其真实场景表现优于 GPT-5和其他顶级闭源模型。

MobiAgent 移动端智能体工具链上海交通大学IPADS实验室个人化智能助手开发 GPT-5替代方案移动端AI性能优化

2025-08-16 15:19:31 661人关注

超越FLUX Kontext！新图像编辑模型nano-banana角色还原能力超强

近日，一款名为Nano-Banana的图像编辑AI模型在社交媒体平台上引发热议。据多位用户反馈，这款在lmarena平台上出现的新模型在图像处理能力方面表现突出，被认为在多个关键指标上超越了当前备受认可的FLUX Kontext模型。

Nano-Banana图像编辑AI AI图像处理模型 FLUX Kontext模型对比 lmarena平台新模型图像编辑AI性能评测

2025-08-05 09:28:16 408人关注

问小白推出XBai o4开源大模型：反思型推理架构颠覆传统，性能全面碾压OpenAI o3-mini

国内AI厂商"问小白"近日发布了第四代开源大模型XBai o4，这款模型在复杂推理能力上实现了重大突破。据官方测试数据显示，XBai o4在Medium模式下的表现已全面超越OpenAI的o3-mini模型，甚至在部分基准测试中优于Anthropic的Claude Opus，成为开源AI领域的又一重磅产品。

国内AI大模型 XBai o4开源模型 AI复杂推理能力开源AI性能对比 XBai o4与Claude Opus对比

2025-07-07 17:21:43 463人关注

英伟达收购AI初创公司CentML，95后华人团队再创辉煌

最近，英伟达以4亿美元的价格收购了位于多伦多的 AI 初创公司 CentML，这家由95后华人王尚和其导师共同创立的公司专注于优化 AI 应用程序的性能。王尚作为首席技术官，此次不仅带领自己创立的团队重返英伟达，还为英伟达的 CUDA 工具链注入了新动力。

英伟达收购CentML AI性能优化华人创业者王尚 CUDA工具链优化 AI初创公司收购案例

2025-06-10 10:40:30 352人关注

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

随着人工智能技术的迅速发展，尤其是大型模型的不断进步，基准测试在评估 AI 能力时面临着前所未有的挑战。为了应对这一现状，红杉中国于5月26日宣布推出一款全新的 AI 基准测试工具 ——xbench。这款工具不仅是针对 AI 模型能力的评估，还引入了动态更新机制，确保测试的有效性和公正性。

RedSeed中国AI评测工具 AI基准测试工具 AI性能评测中国AI技术评测 AI工具评测标准

2025-06-04 16:39:19 213人关注

AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%

微软和Salesforce联合研究发现，即使是最先进的AI语言模型在长时间对话中也会出现严重的可靠性问题。当用户逐步表达需求时，系统性能平均下降39%，这一发现对AI助手的实际应用提出了重要警示。

AI聊天可靠性微软AI研究 AI聊天时长影响 AI性能下降大模型可靠性问题

2025-05-23 08:42:17 313人关注

英特尔发布 Xeon 6 处理器：AI 处理性能提升两倍

英特尔近期推出了新一代 Xeon6处理器，采用性能核心设计，旨在提升数据中心工作负载的整体性能，并在人工智能（AI）处理方面实现高达两倍的性能提升。这次发布标志着英特尔在全球半导体市场中的重要一步，尤其是在公司经历了 CEO 更换与市场竞争压力之后。

Intel Xeon 6处理器 AI性能 Intel Xeon 6 AI性能 Intel Xeon 6处理器评测 Intel Xeon 6处理器性能分析

2025-05-06 08:34:17 405人关注

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

OpenAI近日发布了一项重要的AI编程能力评估报告，通过价值100万美元的实际开发项目揭示了AI在软件开发领域的现状。这项名为SWE-Lancer的基准测试涵盖了1，400个来自Upwork的真实项目，全面评估AI在直接开发和项目管理两大领域的表现。

OpenAI编程限制 AI编程基准测试 OpenAI性能评估 AI编程能力分析 OpenAI技术局限性

2025-04-03 16:15:26 744人关注

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

2025年4月3日消息：根据MathArena最新发布的大语言模型数学能力评测结果显示，Google的Gemini-2.5-pro以绝对优势领跑，在未污染的高难度数学竞赛中展现出令人瞩目的表现。

Gemini 2.5 Pro Matharena AI性能评测大模型数学能力 AI模型性能对比

2025-02-08 10:11:42 331人关注

DeepMind 新AI系统超越国际数学奥林匹克金牌选手，解题能力显著提升

近日，谷歌 DeepMind 开发的一款 AI 系统 ——AlphaGeometry2，成功超越了国际数学奥林匹克（IMO）金牌选手的平均水平，在几何问题解答上表现优异。AlphaGeometry2是 DeepMind 在去年发布的 AlphaGeometry 系统的升级版，研究团队在最新的研究中指出，该系统能解决过去25年间 IMO 的84% 几何问题。

DeepMind AI 数学奥赛金牌得主 AI数学能力 AI性能突破数学竞赛AI应用

2025-01-28 09:23:28 313人关注

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

近日，一项由奥地利复杂科学研究所（CSH）主导的研究显示，尽管大型语言模型(LLMs)在多项任务中表现优异，但在应对高级历史问题时却暴露了短板。研究团队针对三大顶尖模型进行测试，包括 OpenAI 的 GPT-4、Meta 的 Llama 和谷歌的 Gemini，结果让人失望。

AI性能评估 GPT-4历史考试表现 AI大模型缺陷分析 GPT-4考试能力测试 AI模型评估标准

2025-01-22 17:19:20 239人关注

英伟达发布生成式AI超级电脑：仅249美元性能提升1.7倍

英伟达近日推出了一款名为Jetson Orin Nano Super的生成式人工智能（AI）超级电脑，专为开发者设计，以更亲民的价格提供性能飞跃。该设备定价为249美元，约合人民币1814元，其生成式AI性能提升了1.7倍。与前代产品相比，Jetson Orin Nano Super实现了70%的性能提升，每秒能执行67兆次INT8运算，即67INT8TOPS，同时内存带宽提升了50%，达到102GB/s。

NVIDIA生成式AI超级计算机生成式AI性能提升 AI超级计算机性能对比 NVIDIA AI硬件优化高性能AI计算解决方案

2025-01-21 21:37:30 506人关注

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

近日，阿里巴巴 Qwen 团队的研究人员推出了一个名为 “PROCESSBENCH” 的新基准测试，旨在衡量语言模型在数学推理中识别过程错误的能力。随着语言模型在复杂推理任务中取得显著进展，这一领域的研究者们发现，尽管模型表现出色，但在处理某些困难问题时依然面临挑战。因此，开发一种有效的监督方法显得尤为重要。

阿里AI新基准测试 ProcessBench基准测试 AI性能评估标准阿里AI技术进展 AI模型性能测试

2025-01-21 10:37:28 537人关注

国产大模型再突破！DeepSeek R1开源，性能直逼OpenAI，开启AI平权新时代

DeepSeek近日正式发布并开源了其最新研发的大型语言模型R1，该模型在性能上表现出色，被认为可与OpenAI的o1正式版相媲美。这一举措不仅标志着国产AI技术的又一次重大突破，也为全球AI开发者带来了新的选择。

DeepSeek R1 开源AI模型 AI性能优化大模型开源 DeepSeek R1性能评测开源AI技术

2025-01-19 02:25:17 390人关注

谷歌开源轻量级语言模型Gemina 2：提升AI性能、速度和可访问性

谷歌推出了 Gemma2，这是其开源轻量级语言模型的最新版本，提供90亿（9B）和270亿 (27B) 参数大小。与前身 Gemma 模型相比，这个新版本承诺增强性能和更快的推理速度。

Google Gemini 2 AI性能评测 Google AI模型 Gemini 2技术解析大模型性能比较

2025-01-16 13:29:21 443人关注

Groq开源的Llama AI模型登顶排行榜，函数调用方面优于GPT-4o和Claude

人工智能硬件初创公司Groq发布了两款开源语言模型，这两款模型在专门工具使用能力方面胜过科技巨头。新的 Llama-3-Groq-70B-Tool-Use 模型已经在伯克利函数调用排行榜（BFCL）上夺得榜首，超越了来自 OpenAI、谷歌和 Anthropic 等公司的专有产品。

Groq Llama AI模型 AI模型排行榜 AI性能评测 AI模型优化

2025-01-15 15:39:17 292人关注

英特尔推出AI Playground测试版为Arc显卡用户开启AI新体验

英特尔近日宣布，面向Arc显卡用户开放其AI开源软件AI Playground的测试版。这一举措标志着英特尔在人工智能领域的又一重要布局，为用户提供了探索和利用AI技术的新平台。

Intel AI Playground Arc Graphics AI大模型应用 Intel显卡AI性能 AI技术实践案例

2025-01-10 02:15:25 490人关注

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

知名基准测试工具Geekbench推出了一款全新的跨平台工具，旨在评估设备在AI密集型工作负载下的性能表现。这款名为Geekbench AI的工具通过测试设备的CPU、GPU和NPU（神经网络处理器）性能，来判断其处理机器学习应用的能力。

Geekbench AI性能测试 AI性能测试新标准 Geekbench AI基准测试 AI跑分工具 AI性能评估标准

2025-01-07 12:29:42 263人关注

用户抱怨Claude性能下降 Anthropic否认做出任何改变

近日，Anthropic公司的AI聊天机器人Claude再次陷入性能争议。Reddit上一篇声称"Claude最近变得愚蠢多了"的帖子引发广泛关注，许多用户表示感受到Claude能力下降，包括记忆力减退和编码能力下滑。

Claude性能下降用户投诉Claude AI性能问题 Claude使用体验大模型性能评估

2025-01-07 12:25:13 264人关注

谷歌突发大招！Gemini 1.5系列新模型震撼登场，性能飙升引爆AI圈

谷歌再次引领人工智能领域的创新浪潮，推出了三款全新的Gemini1.5系列实验性模型。这次更新不仅带来了性能的显著提升，还为用户提供了更多样化的选择。

Gemini 1.5模型 AI性能提升 AI新模型发布大模型技术进展 Gemini 1.5性能评测

- 上云资讯 -

上海交大发布 MobiAgent：人人都能拥有自己的 AI 助手，超越 GPT-5！

超越FLUX Kontext！新图像编辑模型nano-banana角色还原能力超强

问小白推出XBai o4开源大模型：反思型推理架构颠覆传统，性能全面碾压OpenAI o3-mini

英伟达收购AI初创公司CentML，95后华人团队再创辉煌

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%

英特尔发布 Xeon 6 处理器：AI 处理性能提升两倍

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

DeepMind 新AI系统超越国际数学奥林匹克金牌选手，解题能力显著提升

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

英伟达发布生成式AI超级电脑：仅249美元性能提升1.7倍

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

国产大模型再突破！DeepSeek R1开源，性能直逼OpenAI，开启AI平权新时代

谷歌开源轻量级语言模型Gemina 2：提升AI性能、速度和可访问性

Groq开源的Llama AI模型登顶排行榜，函数调用方面优于GPT-4o和Claude

英特尔推出AI Playground测试版为Arc显卡用户开启AI新体验

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

用户抱怨Claude性能下降 Anthropic否认做出任何改变

谷歌突发大招！Gemini 1.5系列新模型震撼登场，性能飙升引爆AI圈

推荐阅读

上云服务

- 上云资讯 -

上海交大发布 MobiAgent：人人都能拥有自己的 AI 助手，超越 GPT-5！

超越FLUX Kontext！新图像编辑模型nano-banana角色还原能力超强

问小白推出XBai o4开源大模型：反思型推理架构颠覆传统，性能全面碾压OpenAI o3-mini

英伟达收购AI初创公司CentML，95后华人团队再创辉煌

红杉中国推出全新 AI 基准测试工具，助力智能体评估新标准

AI聊天越久越"糊涂":微软研究揭示语言模型可靠性骤降39%

英特尔发布 Xeon 6 处理器：AI 处理性能提升两倍

OpenAI最新基准测试:AI编程能力达人类四分之一，显现局限性

Gemini-2.5-pro在MathArena评测中展现卓越数学能力 远超其他模型

DeepMind 新AI系统超越国际数学奥林匹克金牌选手，解题能力显著提升

​AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

英伟达发布生成式AI超级电脑：仅249美元 性能提升1.7倍

阿里推新 AI 基准测试 “PROCESSBENCH”，评估数学推理中的错误识别能力

国产大模型再突破！DeepSeek R1开源，性能直逼OpenAI，开启AI平权新时代

谷歌开源轻量级语言模型Gemina 2：提升AI性能、速度和可访问性

​Groq开源的Llama AI模型登顶排行榜，函数调用方面优于GPT-4o和Claude

英特尔推出AI Playground测试版 为Arc显卡用户开启AI新体验

Geekbench推出AI性能测试工具：设备AI能力评估迎来新标准

用户抱怨Claude性能下降 Anthropic否认做出任何改变

谷歌突发大招！Gemini 1.5系列新模型震撼登场，性能飙升引爆AI圈

推荐阅读

上云服务

Gemini-2.5-pro在MathArena评测中展现卓越数学能力远超其他模型

AI 在高级历史考试中表现不佳：GPT-4 Turbo 准确率仅 46%

英伟达发布生成式AI超级电脑：仅249美元性能提升1.7倍

Groq开源的Llama AI模型登顶排行榜，函数调用方面优于GPT-4o和Claude

英特尔推出AI Playground测试版为Arc显卡用户开启AI新体验