- 上云资讯 -
2025-01-19 22:21:44 47人关注
北大等提出医疗专家模型训练方法 将8B模型提升至GPT-4级性能
北大和香港科技大学的团队搞了个大新闻,他们提出了一种训练方法,让8B尺寸的医疗专家模型达到了GPT-4级的性能。这可不是小打小闹,他们还引入了一个新概念——「稳定性差距」,来解释大语言模型在持续预训练过程中出现的一些现象。
2025-01-19 20:43:23 76人关注
马斯克:训练Grok-3用了10万块NVIDIA H100 会很特别
马斯克近日宣布其人工智能初创公司xAI即将在八月推出其革新性大语言模型——Grok-2,预示着更加先进的人工智能功能即将面世。尽管Grok-2尚未揭开神秘面纱,但马斯克已迫不及待地为后续力作Grok-3预热。
Musk训练Grok 3 100k Nvidia H100 Grok 3训练细节 Nvidia H100应用 AI大模型训练技术
2025-01-18 03:35:35 104人关注
DeepMind新方法JEST提升AI训练:时间缩减13倍,算力降低90%
在人工智能领域,算力和时间一直是制约技术进步的关键因素。然而,DeepMind团队的最新研究成果,为这一难题提供了解决方案。
2025-01-14 16:34:22 242人关注
Llama 4启动训练 Meta科学家揭秘Llama 3.1训练背后的故事
Meta的科学家Thomas Scialom在播客节目Latent Space中,为我们揭开了Llama3.1的研发秘籍,并提前透露了Llama4的神秘面纱。
2025-01-12 18:20:44 48人关注
英伟达被曝秘密抓取 YouTube 视频数据训练AI
最近,科技巨头英伟达在数据获取方面的一项秘密行动被曝光。根据媒体404的报道,英伟达通过抓取海量 YouTube 视频数据来训练他们的人工智能模型,这一行为在法律和伦理上都相当模糊。
2025-01-11 18:41:35 97人关注
解决Llama3训练困境!豆包大模型携手港大团队推全新检查点系统 优化训练效率
在一个由数据和算法主导的数字世界里,人工智能的每一步成长都离不开一个关键元素——检查点(Checkpoint)。想象一下,当你正在训练一个能读懂人心、对答如流的大型语言模型时,这个模型聪明绝顶,但也是个"大胃王",需要海量计算资源来"喂饱"它。在训练过程中,如果突然断电或硬件故障,损失将是巨大的。这时,检查点就像一台"时光机",能让一切回到上一个安全状态,继续未完成的任务。
2025-01-09 21:11:43 471人关注
在线版FLUX!fal.ai整合ControlNet,提供在线LoRA训练
绘图爱好者的福音!"FLUX在线版"fal.ai新增了一系列强大功能,包括ControlNet和LoRA等重要模块,而且最棒的是,这些功能开箱即用,无需复杂的配置。