- 上云资讯 -
2025-09-12 17:18:45 60人关注
挑战主流认知!蚂蚁、人大在2025外滩大会发布行业首个原生MoE扩散语言模型
蚂蚁集团和人民大学联合研发原生MoE架构扩散语言模型(dLLM) LLaDA-MoE,在约20T数据上完成了从零训练MoE架构的扩散语言模型,验证了工业级大规模训练的扩展性和稳定性;效果超过此前发布稠密扩散语言模型LLaDA1.0/1.5和Dream-7B,比肩等效自回归模型,并保有数倍的推理速度优势。模型将在近期完全开源,以推动全球AI社区在dLLM上的技术发展。
MoE架构扩散语言模型 LLaDA-MoE模型开源 dLLM技术发展 工业级大规模训练 扩散语言模型推理速度优势 AI社区技术推动
2025-09-04 13:22:41 128人关注
Meta 推出 DeepConf 技术,智能平衡大型语言模型的推理成本与准确性
近日,Meta AI 联合加州大学圣地亚哥分校(UCSD)推出了一种名为 Deep Think with Confidence(DeepConf) 的新技术,旨在帮助企业在大语言模型(LLM)的复杂推理任务中,有效降低算力成本的同时保持高准确率 。
大语言模型推理优化 DeepConf 技术解析 LLM 算力成本降低 复杂推理任务效率提升 Meta AI 与 UCSD 合作研究 企业级 AI 应用优化
2025-08-19 11:17:38 55人关注
理想汽车MindGPT 3.1发布:速度跃升近5倍
理想汽车正式宣布其自研的MindGPT大模型迎来重大升级,全新版本MindGPT3.1惊艳亮相。此次升级将智能体能力深度融入大模型之中,实现了边想边搜的创新功能,即在推理过程中能够同步调用各类工具,从而为用户提供更加迅速、全面且精准的结果反馈。
理想汽车MindGPT3.1 自研大模型升级 智能体能力融入大模型 边想边搜功能 大模型推理工具调用 AI大模型精准反馈
2025-08-09 10:29:23 80人关注
PyTorch 2.8重磅发布:量化LLM推理性能飞跃,Intel GPU 支持来袭!
近日,开源机器学习框架 PyTorch 迎来了全新版本2.8的正式发布。这一版本的发布备受关注,主要集中在提升量化大语言模型(LLM)的推理性能,尤其是在 Intel CPU 上的表现。此次更新不仅显著增强了在离线模式下的推理效率,还首次实验性支持了 Intel GPU 的分布式后端。
PyTorch 2.8 新特性 量化大语言模型推理性能提升 Intel CPU 推理优化 离线模式推理效率 Intel GPU 分布式后端支持 PyTorch 量化 LLM 优化
2025-08-08 09:17:14 59人关注
消息称百度 8 月底前将发布新AI推理模型 文心5.0未来数月推出
据报道,百度正在加速推进其文心大模型的更新计划。消息人士透露,百度最快将于8月底推出文心大模型的最新版推理模型,目前该模型正处于紧张的测试阶段。这一新版本在逻辑推理和复杂计算等关键能力上有望超越OpenAI的o3满血版。
百度文心大模型 文心大模型更新计划 文心大模型推理模型 文心大模型逻辑推理能力 文心大模型复杂计算能力 文心大模型与OpenAI对比
2025-08-05 13:40:23 64人关注
阿里巴巴与南开大学携手推出视频大模型新型压缩技术LLaVA-Scissor
近日,阿里巴巴通义实验室与南开大学计算机科学学院联合发布了一种创新的视频大模型压缩方法 ——LLaVA-Scissor。这一技术的出现旨在应对视频模型处理中的一系列挑战,特别是传统方法在处理视频帧时所面临的高 token 数量带来的推理速度和扩展性问题。
2025-08-04 16:13:27 138人关注
昆仑万维发布并开源全新推理大模型 MindLink
昆仑万维正式发布并开源了其最新推理大模型Skywork MindLink,同时公布了72B模型权重、技术报告及代码仓库链接,引发行业广泛关注。
2025-06-30 11:22:37 81人关注
华为开源盘古7B稠密和72B混合专家模型
6月30日,华为于正式宣布开源盘古70亿参数的稠密模型、盘古Pro MoE720亿参数的混合专家模型,以及基于升腾的模型推理技术。
2025-06-24 08:32:28 155人关注
阿里云推出自动驾驶模型加速框架PAI-TurboX 训练时间可缩短50%
近日,阿里云正式发布面向自动驾驶领域模型的训练、推理加速框架——PAI-TurboX,旨在提升感知、规划控制乃至世界模型的训推效率。该框架在多个行业模型的训练任务中展现出了显著优势,可缩短高达50%的时间。
阿里云PAI-TurboX 自动驾驶模型训练加速 自动驾驶模型推理加速 PAI-TurboX框架优势 自动驾驶世界模型训练
2025-06-18 13:23:13 96人关注
大模型推理大变革!CMU 与英伟达携手推出 Multiverse,实现超高速并行生成
随着人工智能的发展,大型语言模型(LLM)的应用越来越广泛,但目前的推理方式仍然存在不少局限性。传统的自回归生成方式需要逐个生成 token,效率较低且无法充分利用现代硬件的并行计算能力。为了解决这一问题,卡耐基梅隆大学(CMU)与英伟达的研究团队推出了一种名为 Multiverse 的新型生成模型,旨在实现原生并行生成,从根本上改变我们对 LLM 推理的理解。
2025-04-28 10:24:34 190人关注
全球最快推理速度模型!Qafind Labs 发布 ChatDLM 技术
近日,Qafind Labs发布了其最新研发的ChatDLM模型,这一创新成果在人工智能领域引起了广泛关注。ChatDLM是首个将“区块扩散(Block Diffusion)”和“专家混合(MoE)”深度融合的模型,其在GPU上实现了惊人的2,800tokens/s超高推理速度,支持131,072tokens的超大上下文窗口,开启了文档级生成和实时对话的新纪元。