- 上云资讯 -
2025-09-12 17:18:45 60人关注
挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。
MoE架构扩散语言模型 LLaDA-MoE模型开源 dLLM技术发展 工业级大规模训练 扩散语言模型推理速度优势 AI社区技术推动
2025-05-22 14:18:20 125人关注
DeepSeek开源周第二日:首个面向MoE模型的开源EP通信库
Deepseek 公布了开源周第二天的产品,首个面向MoE模型的开源EP通信库,支持实现了混合专家模型训练推理的全栈优化。
2025-03-27 16:27:43 215人关注
腾讯发布Hunyuan-TurboS:首款超大型混合Transformer-Mamba MoE模型震撼登场
今日,腾讯在X平台上正式宣布推出其最新AI模型Hunyuan-TurboS,这款被誉为“首款超大型Hybrid-Transformer-Mamba MoE模型”的产品迅速引发全球科技圈的热议。根据X用户披露的信息,Hunyuan-TurboS通过融合Mamba的高效长序列处理能力和Transformer的强大上下文理解能力,成功克服了传统纯Transformer模型在长文本训练和推理上的瓶颈,展现出令人瞩目的性能突破。
腾讯混元 TurboS Transformer Mamba MoE 大模型技术 AI模型架构 Transformer优化