上云资讯 - 来上云吧，企业上云一站式服务

2025-04-28 10:31:11 248人关注

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

在人工智能领域，DeepSeek 团队于近日发布了最新研究成果，推出了一种名为 NSA（Native Sparse Attention）的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度，特别是针对现代硬件进行了优化，使得训练和推理的效率大幅提升。

DeepSeek NSA 长上下文训练长上下文推理大模型训练技术大模型推理优化

2025-03-22 08:11:30 276人关注

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

天眼查App显示，腾讯科技（深圳）有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本，在大语言模型的训练过程中为模型提供更多可学习的信息。

腾讯专利大语言模型训练大模型训练技术腾讯大模型专利语言模型训练方法

2025-01-19 22:21:44 241人关注

北大等提出医疗专家模型训练方法将8B模型提升至GPT-4级性能

北大和香港科技大学的团队搞了个大新闻，他们提出了一种训练方法，让8B尺寸的医疗专家模型达到了GPT-4级的性能。这可不是小打小闹，他们还引入了一个新概念——「稳定性差距」，来解释大语言模型在持续预训练过程中出现的一些现象。

医疗专家模型训练方法医疗AI模型训练医疗专家系统构建医学模型训练技术医疗AI专家系统

2025-01-19 20:43:23 262人关注

马斯克：训练Grok-3用了10万块NVIDIA H100 会很特别

马斯克近日宣布其人工智能初创公司xAI即将在八月推出其革新性大语言模型——Grok-2，预示着更加先进的人工智能功能即将面世。尽管Grok-2尚未揭开神秘面纱，但马斯克已迫不及待地为后续力作Grok-3预热。

Musk训练Grok 3 100k Nvidia H100 Grok 3训练细节 Nvidia H100应用 AI大模型训练技术

2025-01-18 03:35:35 286人关注

DeepMind新方法JEST提升AI训练：时间缩减13倍，算力降低90%

在人工智能领域，算力和时间一直是制约技术进步的关键因素。然而，DeepMind团队的最新研究成果，为这一难题提供了解决方案。

DeepMind JEST AI训练效率 AI训练优化 DeepMind新闻 AI模型训练技术

2025-01-14 16:34:22 539人关注

Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事

Meta的科学家Thomas Scialom在播客节目Latent Space中，为我们揭开了Llama3.1的研发秘籍，并提前透露了Llama4的神秘面纱。

Llama 4 LLaMA 3 大模型训练技术 AI模型训练方法 LLaMA系列模型发展

2025-01-12 18:20:44 205人关注

英伟达被曝秘密抓取 YouTube 视频数据训练AI

最近，科技巨头英伟达在数据获取方面的一项秘密行动被曝光。根据媒体404的报道，英伟达通过抓取海量 YouTube 视频数据来训练他们的人工智能模型，这一行为在法律和伦理上都相当模糊。

NVIDIA YouTube AI训练 AI训练数据视频数据训练 AI模型训练技术

2025-01-11 18:41:35 394人关注

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

在一个由数据和算法主导的数字世界里，人工智能的每一步成长都离不开一个关键元素——检查点（Checkpoint）。想象一下，当你正在训练一个能读懂人心、对答如流的大型语言模型时，这个模型聪明绝顶，但也是个"大胃王"，需要海量计算资源来"喂饱"它。在训练过程中，如果突然断电或硬件故障，损失将是巨大的。这时，检查点就像一台"时光机"，能让一切回到上一个安全状态，继续未完成的任务。

Llama3 训练检查点系统大模型训练技术模型训练优化 LLM训练方法 AI模型检查点机制

2025-01-10 02:15:15 276人关注

让大模型更懂你：腾讯与上交大联手破解指令调优秘籍

随着不断迭代升级，大模型们正变得越来越聪明，但要让它们真正理解我们的需求，指令调优是关键。腾讯优图实验室和上海交通大学的专家们联手，发布了一篇深入探讨指令调优数据集评估与选择的万字综述，为我们揭开了提升大模型性能的神秘面纱。

腾讯上海交通大学指令微调 AI大模型模型训练技术新闻动态

2025-01-09 21:11:43 1053人关注

在线版FLUX！fal.ai整合ControlNet，提供在线LoRA训练

绘图爱好者的福音!"FLUX在线版"fal.ai新增了一系列强大功能，包括ControlNet和LoRA等重要模块，而且最棒的是，这些功能开箱即用，无需复杂的配置。

Flux FAL AI ControlNet在线训练 Lora训练 AI模型训练技术

2024-12-23 00:25:43 214人关注

字节祭出开源秘密武器HybridFlow，大模型训练速度飙升20倍，成本砍到脚脖子！

大模型（LLM）如GPT、Llama等在人工智能领域掀起了一场革命，但如何高效地训练这些庞大的模型并使其符合人类价值观仍然是一个难题。

混合模型训练训练速度提升20倍成本降低20倍混合流模型优化高效模型训练技术

2024-12-20 09:43:33 265人关注

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

在人工智能领域，规模越大似乎就意味着能力越强。为了追求更强大的语言模型，各大科技公司都在疯狂堆叠模型参数和训练数据，结果却发现成本也随之水涨船高。难道就没有一种既经济又高效的方法来训练语言模型吗?

语言模型训练训练精度大模型训练技术模型训练优化语言模型优化方法

- 上云资讯 -

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

北大等提出医疗专家模型训练方法将8B模型提升至GPT-4级性能

马斯克：训练Grok-3用了10万块NVIDIA H100 会很特别

DeepMind新方法JEST提升AI训练：时间缩减13倍，算力降低90%

Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事

英伟达被曝秘密抓取 YouTube 视频数据训练AI

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

让大模型更懂你：腾讯与上交大联手破解指令调优秘籍

在线版FLUX！fal.ai整合ControlNet，提供在线LoRA训练

字节祭出开源秘密武器HybridFlow，大模型训练速度飙升20倍，成本砍到脚脖子！

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

- 上云资讯 -

​DeepSeek 推出 NSA 技术：加速长上下文训练与推理

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

北大等提出医疗专家模型训练方法 将8B模型提升至GPT-4级性能

马斯克：训练Grok-3用了10万块NVIDIA H100 会很特别

​DeepMind新方法JEST提升AI训练：时间缩减13倍，算力降低90%

Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事

​英伟达被曝秘密抓取 YouTube 视频数据训练AI

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统 优化训练效率

让大模型更懂你：腾讯与上交大联手破解指令调优秘籍

在线版FLUX！fal.ai整合ControlNet，提供在线LoRA训练

字节祭出开源秘密武器HybridFlow，大模型训练速度飙升20倍，成本砍到脚脖子！

颠覆认知！语言模型训练精度并非越高越好？7-8 位精度才是王道？

推荐阅读

上云服务

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

北大等提出医疗专家模型训练方法将8B模型提升至GPT-4级性能

DeepMind新方法JEST提升AI训练：时间缩减13倍，算力降低90%

英伟达被曝秘密抓取 YouTube 视频数据训练AI

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率