上云资讯 - 来上云吧，企业上云一站式服务

2025-12-18 15:22:45 217人关注

腾讯大模型架构重磅升级:成立 AI Infra 与 Data 部门，构建大模型训练推理全链路竞争力

腾讯近日宣布对其大模型研发架构进行战略性调整，通过成立 AI Infra部、AI Data部及数据计算平台部，全面强化大模型的核心研发体系。据 AIbase 报道，此次升级旨在构建从底层算力基础设施到高质量数据处理的全链路竞争力，为大模型的高效迭代与业务落地提供强力支撑。

AI

2025-11-08 17:30:23 157人关注

蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾

近日，蚂蚁数科在香港金融科技节上发布了一项革命性的技术 ——“多语种多模态大模型训练框架”，旨在解决当前大模型在多语言环境中的应用瓶颈。随着人工智能技术的飞速发展，大模型正逐渐成为提升各行业效率的重要工具。然而，传统以英文为母语的大模型在小语种环境中表现不佳，常常面临 “语言错乱” 和推理信息混乱的问题，这严重制约了其全球化应用。

AI

2025-11-05 15:35:14 110人关注

蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！

在香港金融科技节上，蚂蚁数科推出了一项革命性的技术 ——“多语种多模态大模型训练框架”，旨在突破当前大模型在多语言环境中应用的瓶颈。该框架特别针对资源稀缺的小语种，如埃及阿拉伯语、印尼爪哇语、巴哈萨语和巽他语，显示出了非凡的潜力。

AI

2025-08-26 15:35:23 317人关注

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

近日，谷歌在其研究中提出了一种新颖的主动学习筛选流程，旨在大幅降低微调大型语言模型所需的训练数据量。根据实验结果，这种方法能够将训练数据量降低至原来的1万分之一，同时提高模型与人类专家判断的一致性达65%。在实际应用中，如广告内容分类、金融数据安全分析等领域，对高保真训练数据的需求一直很高，但筛选出符合要求的数据不仅难度大，成本也极为昂贵。

主动学习筛选流程微调大模型训练数据优化高保真训练数据筛选广告内容分类模型微调金融数据安全分析模型训练降低大模型训练成本

2025-08-19 18:20:29 462人关注

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

腾讯近日发布了基于Megatron-Core和SGLang/vLLM研发的大模型训练库WeChat-YATT（Yet Another Transformer Trainer），内部项目代号为gCore。这一训练库专注于强化学习和多模态模型训练，致力于为开发者提供易扩展、简洁、高效、可靠的大模型训练解决方案。

腾讯大模型训练库 WeChat-YATT训练库 gCore项目多模态模型训练强化学习模型训练 Megatron-Core应用

2025-08-16 11:22:19 318人关注

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

近年来，随着人工智能技术的飞速发展，大型 AI 模型的训练数据来源问题日益成为业界关注的焦点。许多知名企业在构建其 AI 模型时，似乎都选择了使用大量未授权的版权内容作为数据。这一 “秘密配方” 引发了激烈的法律争论，并将硅谷的科技巨头们推上了风口浪尖。

AI大模型训练数据 AI模型版权争议未授权数据训练AI 硅谷AI法律风险科技巨头数据合规问题

2025-07-22 14:33:25 192人关注

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

近日，蚂蚁数科AI数据产业基地在太仓智汇谷·科技创新园正式投产。该基地作为苏州市首个AI数据产业基地，旨在通过跨行业人才与前沿技术，为长三角制造业、金融、医疗等领域的大模型落地提供场景化、高质量的训练数据支撑。

AI数据产业基地长三角大模型训练数据制造业AI数据支撑金融领域AI训练数据医疗大模型数据支持

2025-06-02 10:22:34 1093人关注

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

今日，国内人工智能领军企业DeepSeek正式公开其开源计划的第四日成果——Optimized Parallelism Strategies（优化并行策略），重点推出双向管道并行算法DualPipe、专家并行负载均衡器EPLB，以及对计算-通信重叠机制的深度优化。此次技术升级直击大规模语言模型训练的核心痛点，为超万卡级集群的高效运行提供了全新解决方案。

DeepSeek开源并行策略 DualPipe EPLB 大模型训练优化开源模型技术

2025-05-27 12:37:31 269人关注

Anthropic称Claude 3.7 Sonnet训练成本数千万美元，远低于部分竞品

近日，沃顿商学院教授伊桑·莫里克透露了Anthropic公司相关信息。他表示Anthropic公关部门澄清，旗舰AI模型Claude3.7Sonnet的训练成本为“数千万美元”，且使用的计算能力不到10^26FLOP。他还提到Anthropic告知他Sonnet3.7不会被视为10^26FLOP模型，不过未来模型规模会大得多。TechCrunch虽联系Anthropic确认但截至发稿未收到回复。

Anthropic Claude Claude Sonnet AI模型训练成本大模型训练费用 Anthropic模型训练 AI技术成本分析

2025-04-28 10:31:11 248人关注

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

在人工智能领域，DeepSeek 团队于近日发布了最新研究成果，推出了一种名为 NSA（Native Sparse Attention）的创新稀疏注意力机制。这项技术的核心目标是提升长上下文训练和推理的速度，特别是针对现代硬件进行了优化，使得训练和推理的效率大幅提升。

DeepSeek NSA 长上下文训练长上下文推理大模型训练技术大模型推理优化

2025-04-26 18:31:24 301人关注

马斯克首次披露 Grok 3 的训练成本：高达 20 万块英伟达 GPU

近日，马斯克在直播中正式推出了全新的聊天机器人 Grok3，并透露了该模型训练的惊人成本。Grok3目前已面向 Premium + 订阅用户开放，并在多个评测领域表现出色，甚至超过了市场上其他竞争对手，如 Gemini、DeepSeek 和 ChatGPT。

Musk Grok 3 AI训练成本 NVIDIA GPU 大模型训练费用 AI硬件需求

2025-03-22 08:11:30 276人关注

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

天眼查App显示，腾讯科技（深圳）有限公司近日申请了一项名为“大语言模型的训练方法、装置、计算机设备及存储介质”的专利。这项专利的摘要揭示了该方法通过引入第一摘要文本和第二摘要文本，在大语言模型的训练过程中为模型提供更多可学习的信息。

腾讯专利大语言模型训练大模型训练技术腾讯大模型专利语言模型训练方法

2025-03-18 16:21:37 313人关注

潞晨科技推全新开源视频模型Open-Sora 2.0 训练流程全开源

还在为动辄百万美金的视频生成模型望而却步?还在感叹AI视频创作只是巨头的游戏?今天，开源社区用实力告诉你: “No!” 一款名为 Open-Sora2.0的全新开源模型横空出世，彻底颠覆了视频生成的“氪金”规则。难以置信的是，这款性能直逼商业级水准的110亿参数大模型，竟然只花费了区区20万美元（224张GPU）就训练成功! 要知道，那些动辄耗资数百万美元的闭源模型，在 Open-Sora2.0面前，性价比简直弱爆了!

OpenAI Sora 2.0 OpenAI Sora 训练 AI大模型训练 AI视频生成技术 OpenAI Sora 2.0 技术解析

2025-03-17 10:13:45 341人关注

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

在人工智能的激烈竞争中，一场耗资百万美元的大规模实验正悄然改变着大语言模型的训练方式。阶跃星辰研究团队日前发布重磅研究成果，他们通过耗费近100万NVIDIA H800GPU小时的算力，从零开始训练了3，700个不同规模的模型，累计训练了惊人的100万亿个token，揭示出一条被称为"Step Law"的普适性缩放规律，为大语言模型的高效训练提供了全新指南。

百万成本LLM训练 LLM训练参数优化大模型训练成本控制 LLM参数优化技巧高效LLM训练方法

2025-03-11 16:36:32 366人关注

科大讯飞依靠国产算力卡成功进入大模型研发梯队

近日，科大讯飞在互动平台上回答投资者提问，透露了其在国产算力领域的最新进展，引发广泛关注。科大讯飞表示，凭借仅仅1万张910B 国产算力卡，他们已经跻身于大模型研发的第一梯队。这一成绩令人瞩目，因为同类企业在此领域所需的算力往往远超此数。

国产算力 AI大模型科大讯飞计算能力人工智能技术大模型训练

2025-03-05 10:17:44 423人关注

vivo重组调整，成立新AI部门并将大模型训练转向端侧

近日，vivo 公司在其组织架构上进行了重要调整，宣布在原有的 OS 产品领域内新设立 AI 领域。这一新部门下将包括人工智能一部和人工智能二部，标志着 vivo 在人工智能技术上的持续投入和战略布局。此次变动还伴随着高层人事调整，原互联网平台运营领域的总经理张飞被任命为新 AI 领域的总经理，并兼任人工智能一部的负责人，直接向公司副总裁、OS 产品领域负责人周围汇报。

vivo重组AI部门边缘训练技术 AI部门架构调整 vivo AI战略边缘计算训练

2025-03-02 12:14:13 213人关注

上海启动全新数据采集车队，加速自动驾驶大模型训练进程

在浦东举行的一场发车仪式上，上海高级别自动驾驶引领区迎来了一支由30辆智己L6组成的数据采集车队。这支队伍将肩负起为自动驾驶大模型提供训练数据的重要使命，标志着上海在智能网联汽车领域又迈出了关键一步。

上海自动驾驶数据采集车队自动驾驶加速发展上海智能交通自动驾驶数据收集

2025-02-28 10:20:11 225人关注

研究发现，在不安全代码上训练的 AI 模型变得有毒

近日，一组 AI 研究者发现了一个令人关注的现象:当模型在不安全的代码上进行微调时，会产生一些相当有毒的输出。

AI大模型训练不安全代码检测有毒代码识别 AI模型安全风险 AI代码安全训练

2025-02-16 10:28:35 366人关注

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

近日，包括康泰纳仕（Condé Nast）、《大西洋月刊》(The Atlantic)和《福布斯》(Forbes)在内的14家出版商联合起诉 AI 初创公司 Cohere，指控其存在 “系统性” 的版权侵犯行为。

新闻出版商起诉Cohere Cohere版权侵权 AI版权争议大模型训练数据合法性新闻出版商诉讼案例

2025-02-15 16:33:25 499人关注

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。

Google DeepMind WebLi100B数据集 AI数据集大模型训练数据深度学习数据集

- 上云资讯 -

腾讯大模型架构重磅升级:成立 AI Infra 与 Data 部门，构建大模型训练推理全链路竞争力

蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾

蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

Anthropic称Claude 3.7 Sonnet训练成本数千万美元，远低于部分竞品

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

马斯克首次披露 Grok 3 的训练成本：高达 20 万块英伟达 GPU

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

潞晨科技推全新开源视频模型Open-Sora 2.0 训练流程全开源

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

科大讯飞依靠国产算力卡成功进入大模型研发梯队

vivo重组调整，成立新AI部门并将大模型训练转向端侧

上海启动全新数据采集车队，加速自动驾驶大模型训练进程

研究发现，在不安全代码上训练的 AI 模型变得有毒

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

推荐阅读

上云服务

- 上云资讯 -

腾讯大模型架构重磅升级:成立 AI Infra 与 Data 部门，构建大模型训练推理全链路竞争力

蚂蚁数科推出多语种视觉大模型训练框架，高效识别文档伪造与逻辑矛盾

蚂蚁数科发布多语种视觉大模型训练框架，打破语言壁垒！

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

腾讯开源WeChat-YATT大模型训练库，破解多模态训练两大核心瓶颈

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

DeepSeek开源第四天发布并行策略升级:DualPipe与EPLB技术推动大模型训练革命

Anthropic称Claude 3.7 Sonnet训练成本数千万美元，远低于部分竞品

​DeepSeek 推出 NSA 技术：加速长上下文训练与推理

马斯克首次披露 Grok 3 的训练成本：高达 20 万块英伟达 GPU

腾讯申请“大语言模型训练方法”专利，提升模型泛化能力与准确性

潞晨科技推全新开源视频模型Open-Sora 2.0 训练流程全开源

百万成本揭秘LLM训练黄金法则，阶跃星辰推出全领域适用的超参数优化工具

科大讯飞依靠国产算力卡成功进入大模型研发梯队

vivo重组调整，成立新AI部门并将大模型训练转向端侧

上海启动全新数据采集车队，加速自动驾驶大模型训练进程

研究发现，在不安全代码上训练的 AI 模型变得有毒

​多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

推荐阅读

上云服务

DeepSeek 推出 NSA 技术：加速长上下文训练与推理

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权