如果您需要任何上云服务
请随时联系我们:
电话:021-50583875
邮箱:service@yuncan.com
2025-04-28 10:31:11 38人关注
在人工智能领域,DeepSeek 团队于近日发布了最新研究成果,推出了一种名为 NSA(Native Sparse Attention)的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度,特别是针对现代硬件进行了优化,使得训练和推理的效率大幅提升。
DeepSeek NSA 长上下文训练 长上下文推理 大模型训练技术 大模型推理优化
2025-03-22 08:11:30 34人关注
天眼查App显示,腾讯科技(深圳)有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本,在大语言模型的训练过程中为模型提供更多可学习的信息。
腾讯专利 大语言模型训练 大模型训练技术 腾讯大模型专利 语言模型训练方法
2024-12-20 09:43:33 32人关注
在人工智能领域,规模越大似乎就意味着能力越强。为了追求更强大的语言模型,各大科技公司都在疯狂堆叠模型参数和训练数据,结果却发现成本也随之水涨船高。难道就没有一种既经济又高效的方法来训练语言模型吗?
语言模型训练 训练精度 大模型训练技术 模型训练优化 语言模型优化方法