- 上云资讯 -
2025-12-18 08:36:27 19人关注
AI 科学研究新基准:FrontierScience 评估模型推理能力
在科学研究中,推理能力至关重要。科学家们不仅仅是回忆事实,还需提出假设、测试并修正这些假设,并在不同领域之间综合思想。随着 AI 模型能力的提升,如何评估它们在科学研究中深度推理的能力成为了一个重要问题。
2025-12-07 09:44:11 36人关注
StepFun AI 发布全新音频大语言模型 Step-Audio-R1,音频推理能力显著提升
StepFun AI 团队近日推出了新的音频大语言模型 Step-Audio-R1,该模型在生成推理时可以有效利用计算资源,解决了当前音频 AI 模型在处理长推理链时准确性下降的问题。研究团队指出,这一问题并非音频模型固有的局限,而是由于训练过程中采用了文本替代推理的方式。
2025-12-05 14:22:31 54人关注
谷歌推出 Gemini 3 Deep Think 模式,AI 推理能力显著提升
谷歌在 Gemini 应用中正式推出了 Gemini3Deep Think 模式,面向 Google AI Ultra 订阅用户。这一新模式显著提升了推理能力,旨在应对复杂的数学、科学和逻辑问题,这些问题甚至对当前最先进的模型也构成挑战。
2025-11-29 10:31:33 57人关注
快手旗舰 Keye-VL-671B-A37B 重磅发布,多模态推理能力实现新突破
快手近日正式发布其新一代旗舰多模态模型 Keye-VL-671B-A37B,并同步开放代码。这一模型以其 “善看会想” 的特性,在通用视觉理解、视频分析和数学推理等多项核心 benchmark 中表现突出,进一步巩固了快手在人工智能领域的技术实力。
2025-11-12 13:40:25 63人关注
Meta 推出 SPICE 框架,让 AI 系统自我学习推理能力
Meta 的人工智能研究团队与新加坡国立大学合作开发了一种名为 “自我对弈环境中的自我提升”(SPICE)的新型强化学习框架。该框架通过让两个 AI 代理相互对抗,创造自我提升的挑战,使其在没有人类监督的情况下逐渐提高能力。目前,这一框架仍处于概念验证阶段,但有望为未来能够动态适应环境的 AI 系统奠定基础,从而在面对现实世界的不可预测性时更加稳健。
2025-10-17 15:43:20 1254人关注
谷歌Gemini 3.0 Pro开始小范围推送:强化推理能力,正式发布或在本月底
谷歌DeepMind团队近日开始向部分用户推送Gemini3.0Pro模型。用户在Gemini网页应用中收到了升级通知,提示已从先前版本升级至"迄今为止最智能的模型"3.0Pro。这一动作被视为正式发布前的测试阶段,业内预计官方公告可能在10月底进行。
2025-10-10 13:39:30 168人关注
700万参数微型模型 TRM,推理能力竟胜过 Gemini2.5Pro 和 Claude3.7
三星 SAIL 蒙特利尔实验室的研究人员近日推出了一种名为**“微型递归模型”(TRM)的新型 AI 架构。这款模型参数仅有 700万个,远小于动辄数十亿参数的最小型语言模型(LLM),却在数独和 ARC-AGI 测试**等复杂的结构化推理任务中,表现出惊人的效率和卓越的性能,成功超越了包括 Gemini2.5Pro 和 Claude3.7 在内的多个大型语言模型。
2025-09-23 10:29:23 485人关注
DeepSeek-V3.1-Terminus 重磅发布:性能全面提升,深度推理能力显著增强
【AIbase 报道】 DeepSeek 于今晚在其官方 API 平台发布了最新升级的 DeepSeek-V3.1-Terminus 模型,并随后宣布将该模型开源。官方文档显示,新模型在保持原有强大能力的基础上,修复了 DeepSeek-V3.1上线后出现的语言不一致和偶发异常字符等问题,并进一步优化了编程和搜索智能体的性能。
2025-09-02 16:41:23 171人关注
微软Copilot免费开放GPT-5多文件推理能力:免费支持多文件同时分析
微软已悄然将强大的多文件分析支持功能引入其网页版和Windows11版Copilot,且无需付费订阅即可使用。此前,Copilot虽支持上传最多20个文件,但无法将它们关联起来。借助此次升级,Copilot终于可以同时读取最多三个文件,实现跨文件理解与推理,这一功能此前仅在付费的ChatGPT高级版本中提供。
微软Copilot多文件分析功能 Windows11 Copilot升级 免费跨文件分析工具 Copilot与ChatGPT功能对比 多文件关联分析AI助手
2025-08-22 14:43:23 274人关注
AI数学天才诞生:GPT-5 Pro独立证明新定理震撼学界,OpenAI总裁惊呼这是"生命迹象"
人工智能的发展再次突破想象边界,这一次的主角是数学证明。OpenAI研究人员近日透露了一个令整个学术界为之震撼的发现:GPT-5Pro在阅读一篇数学论文后,竟然独立推导出了比原文更加精确的数学结论,并给出了完整的证明过程。这一消息如野火般迅速传播,相关推文在不到半天时间内就获得了超过230万次阅读,引发了全网热烈讨论。
GPT-5Pro数学证明突破 AI独立推导数学结论 人工智能数学推理能力 OpenAI数学研究进展 AI学术突破引发热议
2025-08-20 17:45:22 118人关注
快手 Klear-Reasoner 模型成功登顶,数学推理准确率超 90%
在大语言模型的竞争中,数学和代码推理能力已成为一项重要的评估标准。快手最近发布的 Klear-Reasoner 模型基于 Qwen3-8B-Base 打造,其在多个权威基准测试中表现出色,数学推理的准确率甚至突破了90%,成为同规模模型中的佼佼者。
Klear-Reasoner 大语言模型数学推理 代码推理能力评估 Qwen3-8B-Base 模型 权威基准测试表现 同规模模型性能对比
2025-08-20 11:14:15 77人关注
上海发布"AI+制造"实施方案,要求AI模型掌握物理规律和工业流程推理能力
上海市经济和信息化委员会联合相关部门正式发布《上海市加快推动"AI+制造"发展的实施方案》,该方案对人工智能在制造业的深度应用提出了具体的技术路径和发展目标。
2025-08-12 11:31:30 131人关注
英伟达发布 Cosmos Reason 推动机器人智能化发展
在最近举行的 SIGGRAPH 国际计算机图形学和交互技术会议上,英伟达展示了一系列针对机器人开发者的新技术,其中最引人注目的是他们推出的开源物理 AI 模型 ——Cosmos Reason。该模型参数量达到70亿,旨在为机器人提供更高效的视觉推理能力。
英伟达机器人技术 SIGGRAPH 计算机图形学 开源物理AI模型 Cosmos Reason视觉推理 70亿参数AI模型 机器人视觉推理能力
2025-08-09 13:27:38 114人关注
微软大漏勺!GPT-5信息提前泄露 将推出四种变体
近期网络上关于OpenAI最新一代模型GPT-5的泄露信息引发广泛关注。据悉,GPT-5将成为OpenAI迄今为止最先进的语言模型,带来推理能力、代码质量和用户体验的全面升级。AIbase整理了相关信息,深入解析GPT-5及其四大变体的核心亮点,揭示其如何重塑AI应用格局。
2025-08-09 12:10:29 141人关注
OpenAI GPT-5正式登陆Cline,展现先进AI能力
据AIbase报道,OpenAI最新款GPT-5模型已正式在Cline平台上线,被誉为OpenAI迄今最先进的大语言模型。GPT-5在推理能力、代码质量和用户体验方面显著提升,成为开发者、企业和研究人员的强大工具。
GPT-5模型 OpenAI最新大语言模型 GPT-5推理能力 GPT-5代码质量 GPT-5用户体验 Cline平台AI工具
2025-08-08 09:17:14 145人关注
消息称百度 8 月底前将发布新AI推理模型 文心5.0未来数月推出
据报道,百度正在加速推进其文心大模型的更新计划。消息人士透露,百度最快将于8月底推出文心大模型的最新版推理模型,目前该模型正处于紧张的测试阶段。这一新版本在逻辑推理和复杂计算等关键能力上有望超越OpenAI的o3满血版。
百度文心大模型 文心大模型更新计划 文心大模型推理模型 文心大模型逻辑推理能力 文心大模型复杂计算能力 文心大模型与OpenAI对比
2025-08-07 12:10:14 208人关注
AI国际象棋赛半决赛战报:Grok4爆冷击败Gemini2.5Pro,O3力克O4-min
2025年8月6日,由谷歌DeepMind与Kaggle联合举办的首届AI国际象棋对抗赛在Kaggle Game Arena平台进入半决赛阶段。本次比赛汇集了全球顶尖AI模型,以纯文本交互方式展开单败淘汰制对决,旨在检验大模型在复杂决策与逻辑推理方面的实力。
AI国际象棋对抗赛 大模型逻辑推理能力 AI复杂决策能力 DeepMind与Kaggle合作赛事 Kaggle Game Arena平台 AI模型单败淘汰制
2025-08-06 11:43:27 173人关注
Anthropic 放大招!Claude Opus 4.1 横空出世,编码推理双双称王!
Anthropic 正式发布了其最新旗舰模型 Claude Opus4.1,在 Agent 任务、真实世界编码和推理能力方面实现显著提升。这一版本被定位为 Claude Opus4的直接升级,定价保持不变,已向付费 Claude 用户开放,并通过 API、Amazon Bedrock 和 Google Cloud 的 Vertex AI 平台全面上线。
Claude Opus4.1 Anthropic最新旗舰模型 Agent任务提升 真实世界编码能力 Claude Opus4升级 AI推理能力增强
2025-08-05 16:27:26 202人关注
Anthropic疑似开始内测Claude Opus 4.1:代号"leopard"暗示推理能力重大升级
社交媒体上流传的内部截图显示,Anthropic正在对其下一代大语言模型Claude Opus4.1进行内部测试。根据泄露信息,该模型的内部代号为"claude-leopard-v2-02-prod",官方宣传语强调了其在问题解决能力方面的显著提升。
Anthropic Claude Opus4.1 Claude Opus4.1内部测试 Claude Opus4.1问题解决能力 claude-leopard-v2-02-prod 下一代大语言模型 Anthropic大模型技术
