上云资讯 - 来上云吧，企业上云一站式服务

2025-09-10 18:42:43 796人关注

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

阿里巴巴通义千问团队刚刚向全球开发者抛出了一枚重磅炸弹，他们即将发布的Qwen3-Next-80B-A3B-Instruct模型彻底颠覆了传统大模型的运行逻辑。这个看似矛盾的数字组合背后，藏着一个令人惊叹的技术突破:总参数高达80亿，但实际激活的参数仅有3亿，就像一台超级跑车只用了十分之一的引擎却跑出了十倍的速度。

通义千问模型大模型推理优化稀疏激活技术高效AI计算 80亿参数模型 3亿激活参数模型性能提升

2025-09-04 13:22:41 481人关注

Meta 推出 DeepConf 技术，智能平衡大型语言模型的推理成本与准确性

近日，Meta AI 联合加州大学圣地亚哥分校（UCSD）推出了一种名为 Deep Think with Confidence（DeepConf）的新技术，旨在帮助企业在大语言模型（LLM）的复杂推理任务中，有效降低算力成本的同时保持高准确率。

大语言模型推理优化 DeepConf 技术解析 LLM 算力成本降低复杂推理任务效率提升 Meta AI 与 UCSD 合作研究企业级 AI 应用优化

2025-08-13 08:14:26 281人关注

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

8月12日，华为将在 2025金融AI推理应用落地与发展论坛上发布突破性 AI 推理创新技术 UCM（推理记忆数据管理器）。该技术有望降低中国 AI 推理对 HBM（高带宽内存）的依赖，并显著提升国内大模型推理性能。

华为AI推理技术金融AI推理应用 UCM技术发布 AI推理性能提升降低HBM依赖大模型推理优化

2025-04-28 10:31:11 247人关注

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

在人工智能领域，DeepSeek 团队于近日发布了最新研究成果，推出了一种名为 NSA（Native Sparse Attention）的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度，特别是针对现代硬件进行了优化，使得训练和推理的效率大幅提升。

DeepSeek NSA 长上下文训练长上下文推理大模型训练技术大模型推理优化

2025-03-02 10:32:17 360人关注

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

在 DeepSeek R1 开源发布引爆全球关注后，更多大模型公司加速推出了深度思考模型，并计划或已经开源。

阿里AI推理模型 DeepSeek OpenAI AI推理技术大模型推理优化

2025-02-19 10:33:31 801人关注

NVIDIA联合高校发布 “FlashInfer”：提升大语言模型推理效率的全新内核库

随着大语言模型（LLM）在现代人工智能应用中的广泛应用，诸如聊天机器人和代码生成器等工具依赖于这些模型的能力。然而，随之而来的推理过程中的效率问题也日益突出。

NVIDIA FlashInfer LLM推理加速大模型推理优化 GPU加速技术 NVIDIA AI技术

2025-02-12 16:26:33 948人关注

字节跳动豆包UltraMem架构将大模型推理成本降低83%

字节跳动豆包大模型团队今日宣布，成功研发出全新稀疏模型架构UltraMem，该架构有效解决了MoE（混合专家）模型推理时的高额访存问题，推理速度较MoE提升2-6倍，推理成本最高可降低83%。这一突破性进展为大模型的高效推理开辟了新路径。

字节跳动豆包大模型 UltraMem技术推理成本优化大模型推理优化 AI推理成本降低

2025-01-29 09:14:24 4474人关注

DeepSeek R1 你用上了吗？推理效果一骑绝尘，Meta 内部已经慌了！

DeepSeek 近日推出的系列模型在全球 AI 圈引发震动。DeepSeek-V3 以低成本实现高性能，在多项评测中与顶尖闭源模型相当；DeepSeek-R1 则通过创新的训练方式，让模型展现出强大推理能力，性能对标 OpenAI o1 正式版，还开源了模型权重，为 AI 领域带来新的突破和思考。

DeepSeek R1 推理性能优化 Meta框架应用大模型推理优化 DeepSeek R1性能评测

2025-01-14 12:33:45 276人关注

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

最近，开源平台 Hugging Face 与 NVIDIA 宣布了一项令人振奋的新服务 —— 推理即服务（Inference-as-a-Service），这项服务将由 NVIDIA 的 NIM 技术驱动。新服务的推出可以让开发者们更快速地原型设计，使用 Hugging Face Hub 上提供的开源 AI 模型，并高效地进行部署。

NVIDIA Hugging Face 高效推理模型推理优化 AI推理加速 GPU加速技术

2025-01-10 20:18:18 360人关注

GPU优化新突破！“树注意力”让500万长文本推理提速8倍

在这个信息爆炸的时代，人工智能如同一颗颗璀璨的星辰，照亮了人类智慧的夜空。而在这些星辰中，Transformer架构无疑是最耀眼的那一颗，它以自注意力机制为核心，引领了自然语言处理的新时代。

GPU优化树注意力机制文本推理加速大模型推理优化 GPU计算性能提升

2024-12-30 14:45:38 441人关注

新研究揭示小型 AI 语言模型在推理能力上的重大缺陷

最近，米拉研究所、谷歌 DeepMind 和微软研究院的研究人员对 AI 语言模型的推理能力进行了深入调查，发现小型和便宜的模型在解决复杂问题时存在显著不足。

小模型推理缺陷 AI小模型问题语言模型推理错误小模型技术缺陷 AI模型推理优化

2024-12-28 15:40:11 301人关注

创新开源框架OpenR 有效提升大模型推理能力

一个名为OpenR的创新开源框架近日问世，旨在解决大型语言模型（LLMs）在复杂推理任务中的短板。这一由伦敦大学学院、利物浦大学、上海交通大学、香港科技大学(广州)和西湖大学研究人员联合开发的框架，通过结合测试时计算、强化学习和过程监督，为提升LLMs的推理能力开辟了新途径。

OpenR框架大模型推理优化大模型推理加速 OpenR框架应用大模型性能提升

2024-12-23 20:23:32 262人关注

报道称：OpenAI与博通合作，研发定制推理芯片

最近，有消息称，OpenAI 正在与博通（Broadcom）展开合作，计划开发一款定制的推理芯片。根据路透社的报道，这两个公司之间的讨论非常机密，而台湾半导体制造公司(TSMC)可能会作为此次项目的代工厂。这一消息引发了外界对 OpenAI 未来发展方向的广泛猜测。

OpenAI Broadcom 定制推理芯片 AI芯片大模型推理优化 AI硬件加速

- 上云资讯 -

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

Meta 推出 DeepConf 技术，智能平衡大型语言模型的推理成本与准确性

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

NVIDIA联合高校发布 “FlashInfer”：提升大语言模型推理效率的全新内核库

字节跳动豆包UltraMem架构将大模型推理成本降低83%

DeepSeek R1 你用上了吗？推理效果一骑绝尘，Meta 内部已经慌了！

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

GPU优化新突破！“树注意力”让500万长文本推理提速8倍

新研究揭示小型 AI 语言模型在推理能力上的重大缺陷

创新开源框架OpenR 有效提升大模型推理能力

报道称：OpenAI与博通合作，研发定制推理芯片

推荐阅读

上云服务

- 上云资讯 -

80亿参数只用3亿！阿里千问3新模型推理速度暴增10倍

Meta 推出 DeepConf 技术，智能平衡大型语言模型的推理成本与准确性

华为推新技术优化大模型推理：UCM 技术缓解 HBM 依赖

​DeepSeek 推出 NSA 技术：加速长上下文训练与推理

「深度思考+联网搜索」阿里预览全新 AI 推理模型：挑战 DeepSeek R1、OpenAI o1 ！

​NVIDIA联合高校发布 “FlashInfer”：提升大语言模型推理效率的全新内核库

字节跳动豆包UltraMem架构将大模型推理成本降低83%

DeepSeek R1 你用上了吗？推理效果一骑绝尘，Meta 内部已经慌了！

NVIDIA联手Hugging Face推高效推理服务，AI 模型的Token 处理效率提升五倍

GPU优化新突破！“树注意力”让500万长文本推理提速8倍

​新研究揭示小型 AI 语言模型在推理能力上的重大缺陷

创新开源框架OpenR 有效提升大模型推理能力

报道称：OpenAI与博通合作，研发定制推理芯片

推荐阅读

上云服务

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

NVIDIA联合高校发布 “FlashInfer”：提升大语言模型推理效率的全新内核库

新研究揭示小型 AI 语言模型在推理能力上的重大缺陷