上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-03-17 10:13:45 342人关注

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

在人工智能的激烈竞争中，一场耗资百万美元的大规模实验正悄然改变着大语言模型的训练方式。阶跃星辰研究团队日前发布重磅研究成果，他们通过耗费近100万NVIDIA H800GPU小时的算力，从零开始训练了3，700个不同规模的模型，累计训练了惊人的100万亿个token，揭示出一条被称为"Step Law"的普适性缩放规律，为大语言模型的高效训练提供了全新指南。

百万成本LLM训练 LLM训练参数优化大模型训练成本控制 LLM参数优化技巧高效LLM训练方法

2025-01-19 04:25:31 216人关注

IBM公布了其完整的6.48 TB LLM训练数据集

IBM 于五月份开源了适用于企业应用场景的 Granite13B LLM 模型。现在，IBM 的 AI 平台产品副总裁阿曼德・鲁伊兹（Armand Ruiz）公开了用于训练 Granite13B 的全面6.48TB 数据集的完整内容。

IBM 6.48TB LLM数据集大语言模型数据集 LLM训练数据 IBM数据集新闻

2025-01-11 18:41:35 394人关注

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

在一个由数据和算法主导的数字世界里，人工智能的每一步成长都离不开一个关键元素——检查点（Checkpoint）。想象一下，当你正在训练一个能读懂人心、对答如流的大型语言模型时，这个模型聪明绝顶，但也是个"大胃王"，需要海量计算资源来"喂饱"它。在训练过程中，如果突然断电或硬件故障，损失将是巨大的。这时，检查点就像一台"时光机"，能让一切回到上一个安全状态，继续未完成的任务。

Llama3 训练检查点系统大模型训练技术模型训练优化 LLM训练方法 AI模型检查点机制

2024-12-30 09:17:41 328人关注

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

在 AI 的世界里，数据就像是金矿，越丰富越闪亮。最近，LLM360推出了一个令人瞩目的数据集 TxT360，专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据，更是经历了一场全球范围的去重大作战，最终汇聚成5.7万亿个优质 tokens，真可谓是 “数据界的百宝箱”!

LLM训练 5-7万亿tokens 大模型训练数据 LLM训练规模 LLM训练token需求

2024-12-21 11:41:19 321人关注

研究人员发现一种训练大型语言模型的省力方法能耗降低30%

近日，密歇根大学的一项新研究发现，一种训练大型语言模型的省力方法可以在相同的时间内完成，但能耗可降低30%。这种方法可以节省足够的能源，到2026年为110万美国家庭供电。

高效LLM训练 LLM节能训练方法大模型能耗优化 LLM训练节能技术能源效率优化LLM

- 上云资讯 -

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

IBM公布了其完整的6.48 TB LLM训练数据集

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

研究人员发现一种训练大型语言模型的省力方法能耗降低30%

推荐阅读

上云服务

- 上云资讯 -

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

IBM公布了其完整的6.48 TB LLM训练数据集

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统 优化训练效率

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

研究人员发现一种训练大型语言模型的省力方法 能耗降低30%

推荐阅读

上云服务

解决Llama3训练困境！豆包大模型携手港大团队推全新检查点系统优化训练效率

研究人员发现一种训练大型语言模型的省力方法能耗降低30%