上云资讯 - 来上云吧，企业上云一站式服务

2025-12-18 08:36:27 99人关注

AI 科学研究新基准:FrontierScience 评估模型推理能力

在科学研究中，推理能力至关重要。科学家们不仅仅是回忆事实，还需提出假设、测试并修正这些假设，并在不同领域之间综合思想。随着 AI 模型能力的提升，如何评估它们在科学研究中深度推理的能力成为了一个重要问题。

2025-12-07 09:44:11 111人关注

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

StepFun AI 团队近日推出了新的音频大语言模型 Step-Audio-R1，该模型在生成推理时可以有效利用计算资源，解决了当前音频 AI 模型在处理长推理链时准确性下降的问题。研究团队指出，这一问题并非音频模型固有的局限，而是由于训练过程中采用了文本替代推理的方式。

AI

2025-12-05 14:22:31 108人关注

谷歌推出 Gemini 3 Deep Think 模式，AI 推理能力显著提升

谷歌在 Gemini 应用中正式推出了 Gemini3Deep Think 模式，面向 Google AI Ultra 订阅用户。这一新模式显著提升了推理能力，旨在应对复杂的数学、科学和逻辑问题，这些问题甚至对当前最先进的模型也构成挑战。

AI

2025-11-29 10:31:33 114人关注

快手旗舰 Keye-VL-671B-A37B 重磅发布，多模态推理能力实现新突破

快手近日正式发布其新一代旗舰多模态模型 Keye-VL-671B-A37B，并同步开放代码。这一模型以其 “善看会想” 的特性，在通用视觉理解、视频分析和数学推理等多项核心 benchmark 中表现突出，进一步巩固了快手在人工智能领域的技术实力。

AI

2025-11-12 13:40:25 112人关注

Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力

Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”（SPICE）的新型强化学习框架。该框架通过让两个 AI 代理相互对抗，创造自我提升的挑战，使其在没有人类监督的情况下逐渐提高能力。目前，这一框架仍处于概念验证阶段，但有望为未来能够动态适应环境的 AI 系统奠定基础，从而在面对现实世界的不可预测性时更加稳健。

AI

2025-10-17 15:43:20 1414人关注

谷歌Gemini 3.0 Pro开始小范围推送：强化推理能力，正式发布或在本月底

谷歌DeepMind团队近日开始向部分用户推送Gemini3.0Pro模型。用户在Gemini网页应用中收到了升级通知，提示已从先前版本升级至"迄今为止最智能的模型"3.0Pro。这一动作被视为正式发布前的测试阶段，业内预计官方公告可能在10月底进行。

AI

2025-10-10 13:39:30 237人关注

700万参数微型模型 TRM，推理能力竟胜过 Gemini2.5Pro 和 Claude3.7

三星 SAIL 蒙特利尔实验室的研究人员近日推出了一种名为**“微型递归模型”（TRM）的新型 AI 架构。这款模型参数仅有 700万个，远小于动辄数十亿参数的最小型语言模型（LLM），却在数独和 ARC-AGI 测试**等复杂的结构化推理任务中，表现出惊人的效率和卓越的性能，成功超越了包括 Gemini2.5Pro 和 Claude3.7 在内的多个大型语言模型。

AI

2025-09-23 10:29:23 582人关注

DeepSeek-V3.1-Terminus 重磅发布:性能全面提升，深度推理能力显著增强

【AIbase 报道】 DeepSeek 于今晚在其官方 API 平台发布了最新升级的 DeepSeek-V3.1-Terminus 模型，并随后宣布将该模型开源。官方文档显示，新模型在保持原有强大能力的基础上，修复了 DeepSeek-V3.1上线后出现的语言不一致和偶发异常字符等问题，并进一步优化了编程和搜索智能体的性能。

AI

2025-09-02 16:41:23 220人关注

微软Copilot免费开放GPT-5多文件推理能力：免费支持多文件同时分析

微软已悄然将强大的多文件分析支持功能引入其网页版和Windows11版Copilot，且无需付费订阅即可使用。此前，Copilot虽支持上传最多20个文件，但无法将它们关联起来。借助此次升级，Copilot终于可以同时读取最多三个文件，实现跨文件理解与推理，这一功能此前仅在付费的ChatGPT高级版本中提供。

微软Copilot多文件分析功能 Windows11 Copilot升级免费跨文件分析工具 Copilot与ChatGPT功能对比多文件关联分析AI助手

2025-08-22 14:43:23 321人关注

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

人工智能的发展再次突破想象边界，这一次的主角是数学证明。OpenAI研究人员近日透露了一个令整个学术界为之震撼的发现:GPT-5Pro在阅读一篇数学论文后，竟然独立推导出了比原文更加精确的数学结论，并给出了完整的证明过程。这一消息如野火般迅速传播，相关推文在不到半天时间内就获得了超过230万次阅读，引发了全网热烈讨论。

GPT-5Pro数学证明突破 AI独立推导数学结论人工智能数学推理能力 OpenAI数学研究进展 AI学术突破引发热议

2025-08-20 17:45:22 149人关注

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

在大语言模型的竞争中，数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造，其在多个权威基准测试中表现出色，数学推理的准确率甚至突破了90%，成为同规模模型中的佼佼者。

Klear-Reasoner 大语言模型数学推理代码推理能力评估 Qwen3-8B-Base 模型权威基准测试表现同规模模型性能对比

2025-08-20 11:14:15 101人关注

上海发布"AI+制造"实施方案，要求AI模型掌握物理规律和工业流程推理能力

上海市经济和信息化委员会联合相关部门正式发布《上海市加快推动"AI+制造"发展的实施方案》，该方案对人工智能在制造业的深度应用提出了具体的技术路径和发展目标。

AI+制造实施方案 AI+制造技术路径 AI制造业应用上海市AI制造政策人工智能与制造业融合

2025-08-16 10:10:22 191人关注

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

近期，一个新的 AI 评测基准 FormulaOne 引发了广泛关注。这个基准由专注于超智能与高级 AI 系统的研究机构 AAI 推出，挑战了一众顶尖的 AI 模型，如 GPT-5、Grok4和 o3Pro 等，结果却让人瞠目结舌:这些模型在测试中全都得了零分!

AI评测基准 FormulaOne评测超智能AI系统 AAI研究机构 GPT5评测 Grok4性能测试

2025-08-12 11:31:30 165人关注

英伟达发布 Cosmos Reason 推动机器人智能化发展

在最近举行的 SIGGRAPH 国际计算机图形学和交互技术会议上，英伟达展示了一系列针对机器人开发者的新技术，其中最引人注目的是他们推出的开源物理 AI 模型 ——Cosmos Reason。该模型参数量达到70亿，旨在为机器人提供更高效的视觉推理能力。

英伟达机器人技术 SIGGRAPH 计算机图形学开源物理AI模型 Cosmos Reason视觉推理 70亿参数AI模型机器人视觉推理能力

2025-08-09 13:27:38 147人关注

微软大漏勺！GPT-5信息提前泄露将推出四种变体

近期网络上关于OpenAI最新一代模型GPT-5的泄露信息引发广泛关注。据悉，GPT-5将成为OpenAI迄今为止最先进的语言模型，带来推理能力、代码质量和用户体验的全面升级。AIbase整理了相关信息，深入解析GPT-5及其四大变体的核心亮点，揭示其如何重塑AI应用格局。

2025-08-09 12:10:29 198人关注

OpenAI GPT-5正式登陆Cline，展现先进AI能力

据AIbase报道，OpenAI最新款GPT-5模型已正式在Cline平台上线，被誉为OpenAI迄今最先进的大语言模型。GPT-5在推理能力、代码质量和用户体验方面显著提升，成为开发者、企业和研究人员的强大工具。

2025-08-08 09:17:14 197人关注

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出

据报道，百度正在加速推进其文心大模型的更新计划。消息人士透露，百度最快将于8月底推出文心大模型的最新版推理模型，目前该模型正处于紧张的测试阶段。这一新版本在逻辑推理和复杂计算等关键能力上有望超越OpenAI的o3满血版。

百度文心大模型文心大模型更新计划文心大模型推理模型文心大模型逻辑推理能力文心大模型复杂计算能力文心大模型与OpenAI对比

2025-08-07 12:10:14 259人关注

AI国际象棋赛半决赛战报:Grok4爆冷击败Gemini2.5Pro，O3力克O4-min

2025年8月6日，由谷歌DeepMind与Kaggle联合举办的首届AI国际象棋对抗赛在Kaggle Game Arena平台进入半决赛阶段。本次比赛汇集了全球顶尖AI模型，以纯文本交互方式展开单败淘汰制对决，旨在检验大模型在复杂决策与逻辑推理方面的实力。

AI国际象棋对抗赛大模型逻辑推理能力 AI复杂决策能力 DeepMind与Kaggle合作赛事 Kaggle Game Arena平台 AI模型单败淘汰制

2025-08-06 11:43:27 216人关注

Anthropic 放大招！Claude Opus 4.1 横空出世，编码推理双双称王！

Anthropic 正式发布了其最新旗舰模型 Claude Opus4.1，在 Agent 任务、真实世界编码和推理能力方面实现显著提升。这一版本被定位为 Claude Opus4的直接升级，定价保持不变，已向付费 Claude 用户开放，并通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台全面上线。

Claude Opus4.1 Anthropic最新旗舰模型 Agent任务提升真实世界编码能力 Claude Opus4升级 AI推理能力增强

2025-08-05 16:27:26 254人关注

Anthropic疑似开始内测Claude Opus 4.1：代号"leopard"暗示推理能力重大升级

社交媒体上流传的内部截图显示，Anthropic正在对其下一代大语言模型Claude Opus4.1进行内部测试。根据泄露信息，该模型的内部代号为"claude-leopard-v2-02-prod"，官方宣传语强调了其在问题解决能力方面的显著提升。

Anthropic Claude Opus4.1 Claude Opus4.1内部测试 Claude Opus4.1问题解决能力 claude-leopard-v2-02-prod 下一代大语言模型 Anthropic大模型技术

- 上云资讯 -

AI 科学研究新基准:FrontierScience 评估模型推理能力

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

谷歌推出 Gemini 3 Deep Think 模式，AI 推理能力显著提升

快手旗舰 Keye-VL-671B-A37B 重磅发布，多模态推理能力实现新突破

Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力

谷歌Gemini 3.0 Pro开始小范围推送：强化推理能力，正式发布或在本月底

700万参数微型模型 TRM，推理能力竟胜过 Gemini2.5Pro 和 Claude3.7

DeepSeek-V3.1-Terminus 重磅发布:性能全面提升，深度推理能力显著增强

微软Copilot免费开放GPT-5多文件推理能力：免费支持多文件同时分析

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

上海发布"AI+制造"实施方案，要求AI模型掌握物理规律和工业流程推理能力

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

英伟达发布 Cosmos Reason 推动机器人智能化发展

微软大漏勺！GPT-5信息提前泄露将推出四种变体

OpenAI GPT-5正式登陆Cline，展现先进AI能力

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出

AI国际象棋赛半决赛战报:Grok4爆冷击败Gemini2.5Pro，O3力克O4-min

Anthropic 放大招！Claude Opus 4.1 横空出世，编码推理双双称王！

Anthropic疑似开始内测Claude Opus 4.1：代号"leopard"暗示推理能力重大升级

推荐阅读

上云服务

- 上云资讯 -

AI 科学研究新基准:FrontierScience 评估模型推理能力

​StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

谷歌推出 Gemini 3 Deep Think 模式，AI 推理能力显著提升

快手旗舰 Keye-VL-671B-A37B 重磅发布，多模态推理能力实现新突破

​Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力

谷歌Gemini 3.0 Pro开始小范围推送：强化推理能力，正式发布或在本月底

700万参数微型模型 TRM，推理能力竟胜过 Gemini2.5Pro 和 Claude3.7

DeepSeek-V3.1-Terminus 重磅发布:性能全面提升，深度推理能力显著增强

微软Copilot免费开放GPT-5多文件推理能力：免费支持多文件同时分析

AI数学天才诞生：GPT-5 Pro独立证明新定理震撼学界，OpenAI总裁惊呼这是"生命迹象"

快手 Klear-Reasoner 模型成功登顶，数学推理准确率超 90%

上海发布"AI+制造"实施方案，要求AI模型掌握物理规律和工业流程推理能力

AI评测新标杆！GPT-5等前沿模型惨遭零分，博士级推理能力究竟几何？

英伟达发布 Cosmos Reason 推动机器人智能化发展

微软大漏勺！GPT-5信息提前泄露 将推出四种变体

OpenAI GPT-5正式登陆Cline，展现先进AI能力

消息称百度 8 月底前将发布新AI推理模型 文心5.0未来数月推出

AI国际象棋赛半决赛战报:Grok4爆冷击败Gemini2.5Pro，O3力克O4-min

Anthropic 放大招！Claude Opus 4.1 横空出世，编码推理双双称王！

Anthropic疑似开始内测Claude Opus 4.1：代号"leopard"暗示推理能力重大升级

推荐阅读

上云服务

StepFun AI 发布全新音频大语言模型 Step-Audio-R1，音频推理能力显著提升

Meta 推出 SPICE 框架，让 AI 系统自我学习推理能力

微软大漏勺！GPT-5信息提前泄露将推出四种变体

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出