LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-04-28 10:31:11 77人关注

​DeepSeek 推出 NSA 技术:加速长上下文训练与推理

在人工智能领域,DeepSeek 团队于近日发布了最新研究成果,推出了一种名为 NSA(Native Sparse Attention)的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度,特别是针对现代硬件进行了优化,使得训练和推理的效率大幅提升。

DeepSeek NSA 长上下文训练 长上下文推理 大模型训练技术 大模型推理优化

2025-03-22 08:11:30 85人关注

腾讯申请“大语言模型训练方法”专利,提升模型泛化能力与准确性

天眼查App显示,腾讯科技(深圳)有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本,在大语言模型的训练过程中为模型提供更多可学习的信息。

腾讯专利 大语言模型训练 大模型训练技术 腾讯大模型专利 语言模型训练方法

2025-01-19 20:43:23 117人关注

马斯克:训练Grok-3用了10万块NVIDIA H100 会很特别

马斯克近日宣布其人工智能初创公司xAI即将在八月推出其革新性大语言模型——Grok-2,预示着更加先进的人工智能功能即将面世。尽管Grok-2尚未揭开神秘面纱,但马斯克已迫不及待地为后续力作Grok-3预热。

Musk训练Grok 3 100k Nvidia H100 Grok 3训练细节 Nvidia H100应用 AI大模型训练技术

2025-01-14 16:34:22 293人关注

Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事

Meta的科学家Thomas Scialom在播客节目Latent Space中,为我们揭开了Llama3.1的研发秘籍,并提前透露了Llama4的神秘面纱。

Llama 4 LLaMA 3 大模型训练技术 AI模型训练方法 LLaMA系列模型发展

2025-01-11 18:41:35 151人关注

解决Llama3训练困境!豆包大模型携手港大团队推全新检查点系统 优化训练效率

在一个由数据和算法主导的数字世界里,人工智能的每一步成长都离不开一个关键元素——检查点(Checkpoint)。想象一下,当你正在训练一个能读懂人心、对答如流的大型语言模型时,这个模型聪明绝顶,但也是个"大胃王",需要海量计算资源来"喂饱"它。在训练过程中,如果突然断电或硬件故障,损失将是巨大的。这时,检查点就像一台"时光机",能让一切回到上一个安全状态,继续未完成的任务。

Llama3 训练检查点系统 大模型训练技术 模型训练优化 LLM训练方法 AI模型检查点机制

2024-12-20 09:43:33 73人关注

颠覆认知!语言模型训练精度并非越高越好?7-8 位精度才是王道?

在人工智能领域,规模越大似乎就意味着能力越强。为了追求更强大的语言模型,各大科技公司都在疯狂堆叠模型参数和训练数据,结果却发现成本也随之水涨船高。难道就没有一种既经济又高效的方法来训练语言模型吗?

语言模型训练 训练精度 大模型训练技术 模型训练优化 语言模型优化方法

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10