上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-06-02 10:22:34 1092人关注

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

今日，国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies（优化并行策略），重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB，以及对计算-通信重叠机制的深度优化。此次技术升级直击大规模语言模型训练的核心痛点，为超万卡级集群的高效运行提供了全新解决方案。

DeepSeek开源并行策略 DualPipe EPLB 大模型训练优化开源模型技术

2025-01-15 06:44:26 256人关注

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

最近，英伟达（NVIDIA）在人工智能领域又有了新动作，他们推出了 Minitron 系列的小型语言模型，包含4B 和8B 两个版本。这些模型不仅让训练速度提高了整整40倍，还能让开发者更轻松地使用它们进行各种应用，比如翻译、情感分析和对话 AI 等。

NVIDIA Minitron 语言模型训练加速 40倍训练速度提升大模型训练优化 GPU加速训练技术

2025-01-11 18:41:35 394人关注

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

在一个由数据和算法主导的数字世界里，人工智能的每一步成长都离不开一个关键元素——检查点（Checkpoint）。想象一下，当你正在训练一个能读懂人心、对答如流的大型语言模型时，这个模型聪明绝顶，但也是个"大胃王"，需要海量计算资源来"喂饱"它。在训练过程中，如果突然断电或硬件故障，损失将是巨大的。这时，检查点就像一台"时光机"，能让一切回到上一个安全状态，继续未完成的任务。

Llama3 训练检查点系统大模型训练技术模型训练优化 LLM训练方法 AI模型检查点机制

2025-01-10 03:41:37 199人关注

英伟达开源新突破：新模型训练算力节省1.8倍！

全球人工智能的领军企业英伟达（Nvidia）最近开源了两款新型大模型:Nemotron-4-Minitron-4B和Nemotron-4-Minitron-8B。这两个模型的开源，不仅是技术上的一次飞跃，更在AI领域掀起了一场效率革命。

NVIDIA开源模型模型训练效率开源AI模型 AI模型训练优化 NVIDIA开源技术

2024-12-20 09:43:33 265人关注

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

在人工智能领域，规模越大似乎就意味着能力越强。为了追求更强大的语言模型，各大科技公司都在疯狂堆叠模型参数和训练数据，结果却发现成本也随之水涨船高。难道就没有一种既经济又高效的方法来训练语言模型吗?

语言模型训练训练精度大模型训练技术模型训练优化语言模型优化方法

- 上云资讯 -

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

英伟达开源新突破：新模型训练算力节省1.8倍！

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

- 上云资讯 -

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

​英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统 优化训练效率

英伟达开源新突破：新模型训练算力节省1.8倍！

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率