上云资讯 - 来上云吧，企业上云一站式服务

2025-09-10 18:42:43 797人关注

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

阿里巴巴通义千问团队刚刚向全球开发者抛出了一枚重磅炸弹，他们即将发布的Qwen3-Next-80B-A3B-Instruct模型彻底颠覆了传统大模型的运行逻辑。这个看似矛盾的数字组合背后，藏着一个令人惊叹的技术突破:总参数高达80亿，但实际激活的参数仅有3亿，就像一台超级跑车只用了十分之一的引擎却跑出了十倍的速度。

通义千问模型大模型推理优化稀疏激活技术高效AI计算 80亿参数模型 3亿激活参数模型性能提升

2025-08-19 11:17:38 243人关注

理想汽车MindGPT 3.1发布：速度跃升近5倍

理想汽车正式宣布其自研的MindGPT大模型迎来重大升级，全新版本MindGPT3.1惊艳亮相。此次升级将智能体能力深度融入大模型之中，实现了边想边搜的创新功能，即在推理过程中能够同步调用各类工具，从而为用户提供更加迅速、全面且精准的结果反馈。

理想汽车MindGPT3.1 自研大模型升级智能体能力融入大模型边想边搜功能大模型推理工具调用 AI大模型精准反馈

2025-08-13 08:14:26 281人关注

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

8月12日，华为将在 2025金融AI推理应用落地与发展论坛上发布突破性 AI 推理创新技术 UCM（推理记忆数据管理器）。该技术有望降低中国 AI 推理对 HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。

华为AI推理技术金融AI推理应用 UCM技术发布 AI推理性能提升降低HBM依赖大模型推理优化

2025-08-08 09:17:14 229人关注

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出

据报道，百度正在加速推进其文心大模型的更新计划。消息人士透露，百度最快将于8月底推出文心大模型的最新版推理模型，目前该模型正处于紧张的测试阶段。这一新版本在逻辑推理和复杂计算等关键能力上有望超越OpenAI的o3满血版。

百度文心大模型文心大模型更新计划文心大模型推理模型文心大模型逻辑推理能力文心大模型复杂计算能力文心大模型与OpenAI对比

2025-08-05 15:34:15 229人关注

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

小米今日正式发布并全量开源了MiDashengLM-7B多模态大模型，这款专注于音频理解的AI模型在性能和效率两个维度都实现了显著突破。该模型不仅在22个公开评测集上刷新了多模态大模型的最好成绩，更在推理效率上展现出惊人优势——单样本推理的首Token延迟仅为业界先进模型的四分之一，数据吞吐效率更是高出20倍以上。

小米多模态大模型 MiDashengLM-7B 音频理解AI模型大模型推理效率多模态大模型评测大模型数据吞吐效率

2025-08-05 13:40:23 298人关注

阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

近日，阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战，特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。

视频大模型压缩技术 LLaVA-Scissor 方法视频模型处理挑战视频帧 token 优化大模型推理速度提升

2025-08-04 16:13:27 314人关注

昆仑万维发布并开源全新推理大模型 MindLink

昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink，同时公布了72B模型权重、技术报告及代码仓库链接，引发行业广泛关注。

昆仑万维Skywork MindLink 大模型推理技术 72B模型权重开源大模型技术报告开源大模型代码仓库

2025-07-04 17:26:15 342人关注

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

近日，来自中国人民大学、上海人工智能实验室、伦敦大学学院和大连理工大学的研究团队揭示了大模型推理过程中的一个重要发现:当模型在思考时，所使用的 “思考词” 实际上反映了其内部信息量的显著提升。这一研究成果通过信息论的方法，为我们更好地理解人工智能的推理机制提供了新的视角。

大模型推理机制 AI思考词研究信息论与AI推理大模型内部信息量人工智能推理新视角

2025-06-30 16:29:19 243人关注

百度重磅开源文心大模型 4.5 系列，国内大模型市场再掀波澜！

近日，百度正式宣布开源其文心大模型4.5系列，共推出了十款模型，包括47B、3B 激活参数的混合专家（MoE）模型，以及0.3B 参数的稠密型模型。此次开源不仅实现了预训练权重的完整公开，还提供了推理代码，标志着百度在大模型领域的重大进展。

百度文心大模型4.5 文心大模型开源 MoE模型大模型预训练权重大模型推理代码百度大模型进展

2025-06-18 13:23:13 294人关注

大模型推理大变革！CMU 与英伟达携手推出 Multiverse，实现超高速并行生成

随着人工智能的发展，大型语言模型（LLM）的应用越来越广泛，但目前的推理方式仍然存在不少局限性。传统的自回归生成方式需要逐个生成 token，效率较低且无法充分利用现代硬件的并行计算能力。为了解决这一问题，卡耐基梅隆大学(CMU)与英伟达的研究团队推出了一种名为 Multiverse 的新型生成模型，旨在实现原生并行生成，从根本上改变我们对 LLM 推理的理解。

大型语言模型 LLM推理优化 Multiverse生成模型并行计算能力原生并行生成技术 LLM效率提升

2025-06-17 15:40:19 1852人关注

豆包大模型再进化！全球领先，AI Agent 应用加速落地！

近日，豆包大模型迎来了全新1.6版本，标志着其综合能力的再次跃升。在推理、数学、指令遵循等多个核心领域，豆包1.6实现了显著的性能提升，同时大幅降低了用户使用的门槛，推动 AI Agent 在消费电子、汽车、金融等行业的快速应用。

豆包大模型1.6 大模型性能提升 AI Agent行业应用大模型推理能力大模型数学能力指令遵循优化

2025-06-07 16:35:14 364人关注

红帽联手谷歌、NVIDIA启动llm-d开源项目，破解大规模AI推理成本与延迟双重难题

全球开源解决方案领导者红帽公司近日宣布启动革命性开源项目llm-d，专门应对生成式AI大规模推理的迫切需求。该项目汇聚了CoreWeave、Google Cloud、IBM Research和NVIDIA等行业巨头作为创始贡献者，旨在通过突破性技术让大语言模型推理云满足最严苛的生产服务级目标。

红帽谷歌 NVIDIA LLM AI推理大模型推理

2025-04-28 10:31:11 248人关注

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

在人工智能领域，DeepSeek 团队于近日发布了最新研究成果，推出了一种名为 NSA（Native Sparse Attention）的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度，特别是针对现代硬件进行了优化，使得训练和推理的效率大幅提升。

DeepSeek NSA 长上下文训练长上下文推理大模型训练技术大模型推理优化

2025-04-21 10:19:18 639人关注

字节跳动研究开源 ChatTS-14B:原生理解并随着时间的推移进行推理

字节跳动研究团队宣布开源 ChatTS-14B，这是一款专为时间序列数据理解和推理设计的140亿参数大型语言模型（LLM）。以 Apache2.0许可协议发布，ChatTS-14B 的开源引发了 AI 社区的广泛关注，被认为是时间序列分析与生成式 AI 结合的重大进展。

字节跳动 Chat-TS-14B 大模型推理大模型技术字节跳动大模型进展

2025-04-19 16:27:27 281人关注

金山云星流训推平台全面接入智谱GLM系列推理模型

金山云宣布其星流训推平台已全面接入智谱 GLM 系列推理模型，成为首批接入该系列推理模型的平台之一。这一举措标志着金山云在 AI 领域的进一步拓展，为用户提供更加高效、智能和更具性价比的模型服务。

金山云星流GLM GLM推理大模型推理技术金山云AI新闻星流GLM推理优化

2025-03-21 10:37:26 406人关注

硅基流动宣布DeepSeek-R1&V3 API支持批量推理价格暴降75%

硅基流动 SiliconCloud 平台即日起正式推出 DeepSeek-R1& V3API 的批量推理（Batch Inference）功能。用户现在可以通过批量 API 向 SiliconCloud 发送请求，摆脱实时推理速率的限制，并在预期24小时内完成大规模数据处理任务。

DeepSeek R1 V3 API 批量推理 API价格下调 DeepSeek R1 V3价格优化大模型推理成本降低

2025-03-19 16:14:13 285人关注

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

还在为大模型处理长文本“龟速”而抓狂?别急!清华大学祭出“王炸”技术——APB 序列并行推理框架，直接给大模型装上“涡轮增压”引擎!实测显示，这项黑科技在处理超长文本时，速度竟比肩 Flash Attention 快10倍!没错，你没听错，是10倍!

大模型推理加速清华APBB技术大模型性能优化推理速度提升方案大模型技术突破

2025-03-13 18:14:31 920人关注

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

近日，Vectara 的机器学习团队对 DeepSeek 系列的两款模型进行了深入的幻觉测试，结果显示，DeepSeek-R1的幻觉率高达14.3%，显著高于其前身 DeepSeek-V3的3.9%。这表明，在增强推理的过程中，DeepSeek-R1产生了更多不准确或与原始信息不一致的内容。该结果引发了对推理增强大语言模型（LLM）产生幻觉率的广泛讨论。

DeepSeek R1 大模型幻觉问题推理准确性提升 DeepSeek R1模型优化大模型推理技术

2025-03-06 10:18:18 1022人关注

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

阿里巴巴旗下的Qwen团队近日推出了其最新的开源大型语言模型（LLM）家族成员——QwQ-32B。这款拥有320亿参数的推理模型，旨在通过强化学习（RL）提升在复杂问题解决任务上的性能。

阿里开源模型 QWQ-32B 开源推理模型阿里大模型开源AI模型大模型推理技术

2025-03-02 10:32:17 360人关注

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

在 DeepSeek R1 开源发布引爆全球关注后，更多大模型公司加速推出了深度思考模型，并计划或已经开源。

阿里AI推理模型 DeepSeek OpenAI AI推理技术大模型推理优化

- 上云资讯 -

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

理想汽车MindGPT 3.1发布：速度跃升近5倍

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

昆仑万维发布并开源全新推理大模型 MindLink

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

百度重磅开源文心大模型 4.5 系列，国内大模型市场再掀波澜！

大模型推理大变革！CMU 与英伟达携手推出 Multiverse，实现超高速并行生成

豆包大模型再进化！全球领先，AI Agent 应用加速落地！

红帽联手谷歌、NVIDIA启动llm-d开源项目，破解大规模AI推理成本与延迟双重难题

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

字节跳动研究开源 ChatTS-14B:原生理解并随着时间的推移进行推理

金山云星流训推平台全面接入智谱GLM系列推理模型

硅基流动宣布DeepSeek-R1&V3 API支持批量推理价格暴降75%

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

推荐阅读

上云服务

- 上云资讯 -

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

理想汽车MindGPT 3.1发布：速度跃升近5倍

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

消息称百度 8 月底前将发布新AI推理模型 文心5.0未来数月推出

小米全量开源MiDashengLM-7B：音频理解性能刷新SOTA，推理速度暴增20倍

​阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

昆仑万维发布并开源全新推理大模型 MindLink

揭开大模型的秘密！那些 “思考词” 背后藏着惊人的信息量

百度重磅开源文心大模型 4.5 系列，国内大模型市场再掀波澜！

大模型推理大变革！CMU 与英伟达携手推出 Multiverse，实现超高速并行生成

豆包大模型再进化！全球领先，AI Agent 应用加速落地！

红帽联手谷歌、NVIDIA启动llm-d开源项目，破解大规模AI推理成本与延迟双重难题

​DeepSeek 推出 NSA 技术：加速长上下文训练与推理

字节跳动研究开源 ChatTS-14B:原生理解并随着时间的推移进行推理

金山云星流训推平台全面接入智谱GLM系列推理模型

硅基流动宣布DeepSeek-R1&V3 API支持批量推理 价格暴降75%

大模型长文推理迎来“核弹级”提速！清华APBB框架狂飙10倍，Flash Attention直接被秒

DeepSeek-R1 模型幻觉问题严重，推理能力与准确性面临挑战

​阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

推荐阅读

上云服务

消息称百度 8 月底前将发布新AI推理模型文心5.0未来数月推出

阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

硅基流动宣布DeepSeek-R1&V3 API支持批量推理价格暴降75%

阿里新开源推理大模型QwQ-32B，性能媲美DeepSeek-R1、显存需求更小