上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-08-14 10:27:36 335人关注

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

在 AI 领域，Token 的数量限制一直是一个亟待解决的问题。最近，一项由华人团队完成的研究引起了广泛关注，研究显示，扩散语言模型在 Token 数量受限的情况下，展现出比自回归模型多三倍的数据学习潜力。这一发现可能会为未来的语言模型训练开辟新局面。

Token数量限制扩散语言模型优势自回归模型比较语言模型训练新技术华人AI团队研究

2025-05-15 10:38:26 254人关注

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

在人工智能领域，训练大型语言模型（LLMs）已成为推动技术进步的重要方向。然而，随着模型规模和数据集的不断扩大，传统的优化方法 —— 特别是 AdamW—— 逐渐显露出其局限性。研究人员面临着计算成本高、训练不稳定等一系列挑战，包括梯度消失或爆炸、参数矩阵更新不一致及分布式环境下的资源需求高等问题。因此，迫切需要更高效、更稳定的优化技术来应对这些复杂性。

月球背面 UCLA研究月球暗面探索月球混合物专家月球暗面科学发现

2025-03-22 08:11:30 277人关注

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

天眼查App显示，腾讯科技（深圳）有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本，在大语言模型的训练过程中为模型提供更多可学习的信息。

腾讯专利大语言模型训练大模型训练技术腾讯大模型专利语言模型训练方法

2025-02-09 10:25:45 335人关注

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

近日，腾讯科技（深圳）有限公司在天眼查 App 上公布了一项关于大语言模型的训练方法及相关设备的专利。这项专利的名称为 “大语言模型的训练方法、装置、计算机设备及存储介质”，旨在通过创新的训练方式，提升大语言模型的学习能力和准确性。

腾讯新专利语言模型训练训练精度提升大模型技术专利技术解析 AI模型优化

2025-01-15 06:44:26 257人关注

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

最近，英伟达（NVIDIA）在人工智能领域又有了新动作，他们推出了 Minitron 系列的小型语言模型，包含4B 和8B 两个版本。这些模型不仅让训练速度提高了整整40倍，还能让开发者更轻松地使用它们进行各种应用，比如翻译、情感分析和对话 AI 等。

NVIDIA Minitron 语言模型训练加速 40倍训练速度提升大模型训练优化 GPU加速训练技术

2024-12-30 09:17:41 328人关注

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

在 AI 的世界里，数据就像是金矿，越丰富越闪亮。最近，LLM360推出了一个令人瞩目的数据集 TxT360，专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据，更是经历了一场全球范围的去重大作战，最终汇聚成5.7万亿个优质 tokens，真可谓是 “数据界的百宝箱”!

LLM训练 5-7万亿tokens 大模型训练数据 LLM训练规模 LLM训练token需求

2024-12-20 09:43:33 266人关注

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

在人工智能领域，规模越大似乎就意味着能力越强。为了追求更强大的语言模型，各大科技公司都在疯狂堆叠模型参数和训练数据，结果却发现成本也随之水涨船高。难道就没有一种既经济又高效的方法来训练语言模型吗?

语言模型训练训练精度大模型训练技术模型训练优化语言模型优化方法

- 上云资讯 -

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

- 上云资讯 -

华人团队破解Token限制，扩散模型的潜力超越自回归三倍！

月之暗面联手UCLA推新模型Mixture-of-Expert，提升语言模型训练效率

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

腾讯发布大语言模型训练新专利，提升模型泛化与准确性

​英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

英伟达推出 Minitron 小型语言模型：训练速度提高 40 倍