上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-10 15:21:15 210人关注

循环模型新突破：500 步训练让超长序列不再难！

在深度学习的领域，循环神经网络（RNN）和 Transformer 模型各有千秋。近期研究发现，线性循环模型(如 Mamba)凭借其优越的序列处理能力，正在逐渐挑战 Transformer 的地位。尤其是在处理极长序列的任务上，循环模型展现出了巨大的潜力，远远超出传统 Transformer 模型的局限性。

循环神经网络 Transformer 模型线性循环模型 Mamba 模型长序列处理深度学习模型对比

2025-03-27 16:27:43 466人关注

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

今日，腾讯在X平台上正式宣布推出其最新AI模型Hunyuan-TurboS，这款被誉为“首款超大型Hybrid-Transformer-Mamba MoE模型”的产品迅速引发全球科技圈的热议。根据X用户披露的信息，Hunyuan-TurboS通过融合Mamba的高效长序列处理能力和Transformer的强大上下文理解能力，成功克服了传统纯Transformer模型在长文本训练和推理上的瓶颈，展现出令人瞩目的性能突破。

腾讯混元 TurboS Transformer Mamba MoE 大模型技术 AI模型架构 Transformer优化

2025-01-17 04:32:15 296人关注

Mistral新模型Codestral Mamba 速度更快、文本处理长度是GPT-4o两倍

最近，法国的AI初创公司Mistral发布了一款全新的编码模型——Codestral Mamba。这款模型不仅速度快，而且能够处理更长的代码，帮助程序员和开发者提升工作效率。Mistral在开源AI领域已经积累了不少名气，这次推出的Codestral Mamba更是让人眼前一亮。

Mistral Codestral Mamba 文本处理加速大模型技术

2025-01-05 13:14:42 463人关注

Llama3天瘦成Mamba！推理速度提升1.5倍

最近，Mamba 团队的研究令人瞩目:来自康奈尔和普林斯顿等高校的研究者们成功将 Llama 这一大型 Transformer 模型 “蒸馏” 成了 Mamba，并设计了一种新型的推理解码算法，显著提高了模型的推理速度。

Llama 3 Mamba 推理速度优化大模型推理加速 LLM性能提升

- 上云资讯 -

循环模型新突破：500 步训练让超长序列不再难！

腾讯发布Hunyuan-TurboS：首款超大型混合Transformer-Mamba MoE模型震撼登场

Mistral新模型Codestral Mamba 速度更快、文本处理长度是GPT-4o两倍

Llama3天瘦成Mamba！推理速度提升1.5倍

推荐阅读

上云服务