上云资讯 - 来上云吧，企业上云一站式服务

2025-08-26 15:35:23 317人关注

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

近日，谷歌在其研究中提出了一种新颖的主动学习筛选流程，旨在大幅降低微调大型语言模型所需的训练数据量。根据实验结果，这种方法能够将训练数据量降低至原来的1万分之一，同时提高模型与人类专家判断的一致性达65%。在实际应用中，如广告内容分类、金融数据安全分析等领域，对高保真训练数据的需求一直很高，但筛选出符合要求的数据不仅难度大，成本也极为昂贵。

主动学习筛选流程微调大模型训练数据优化高保真训练数据筛选广告内容分类模型微调金融数据安全分析模型训练降低大模型训练成本

2025-08-16 11:22:19 318人关注

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

近年来，随着人工智能技术的飞速发展，大型 AI 模型的训练数据来源问题日益成为业界关注的焦点。许多知名企业在构建其 AI 模型时，似乎都选择了使用大量未授权的版权内容作为数据。这一 “秘密配方” 引发了激烈的法律争论，并将硅谷的科技巨头们推上了风口浪尖。

AI大模型训练数据 AI模型版权争议未授权数据训练AI 硅谷AI法律风险科技巨头数据合规问题

2025-07-22 14:33:25 192人关注

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

近日，蚂蚁数科AI数据产业基地在太仓智汇谷·科技创新园正式投产。该基地作为苏州市首个AI数据产业基地，旨在通过跨行业人才与前沿技术，为长三角制造业、金融、医疗等领域的大模型落地提供场景化、高质量的训练数据支撑。

AI数据产业基地长三角大模型训练数据制造业AI数据支撑金融领域AI训练数据医疗大模型数据支持

2025-02-16 10:28:35 368人关注

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

近日，包括康泰纳仕（Condé Nast）、《大西洋月刊》(The Atlantic)和《福布斯》(Forbes)在内的14家出版商联合起诉 AI 初创公司 Cohere，指控其存在 “系统性” 的版权侵犯行为。

新闻出版商起诉Cohere Cohere版权侵权 AI版权争议大模型训练数据合法性新闻出版商诉讼案例

2025-02-15 16:33:25 499人关注

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。

Google DeepMind WebLi100B数据集 AI数据集大模型训练数据深度学习数据集

2025-01-21 17:41:31 483人关注

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

哈佛大学近日宣布，计划发布一个由近100万本公共领域书籍组成的数据集，任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。

Harvard百万书籍数据集 AI训练数据集哈佛AI数据集大模型训练数据书籍数据集应用

2025-01-15 07:36:19 217人关注

Meta AI 研究员：网络上的文本都是“垃圾” Llama 3全是合成数据

Meta AI的研究员Thomas Scialom最近在一次采访中分享了一些关于他们最新项目Llama3的见解。他直言不讳地指出，网络上的大量文本质量参差不齐，他认为在这些数据上进行训练是一种资源浪费。因此，Llama3的训练过程中并没有依赖任何人类编写的答案，而是完全基于Llama2生成的合成数据。

Meta AI LLaMA 3 合成数据 AI研究员大模型训练数据

2025-01-01 22:16:22 678人关注

智源推出千万级指令微调数据集Infinity-Instruct

智源研究院推出了一个名为Infinity-Instruct的千万级指令微调数据集，旨在提升语言模型在对话等方面的性能。近日，Infinity Instruct完成了新一轮迭代，包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

智源Infinity Instruct数据集 AI大模型训练数据集大模型指令数据集 Infinity Instruct应用场景数据集技术原理

2025-01-01 09:41:13 284人关注

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

在2024北京文化论坛上，北京智源人工智能研究院（BAAI）宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet)，进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ，是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。

智源研究院 CCI3语料库 1000GB语料大模型训练数据中文语料库人工智能数据集

2024-12-30 09:17:41 328人关注

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

在 AI 的世界里，数据就像是金矿，越丰富越闪亮。最近，LLM360推出了一个令人瞩目的数据集 TxT360，专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据，更是经历了一场全球范围的去重大作战，最终汇聚成5.7万亿个优质 tokens，真可谓是 “数据界的百宝箱”!

LLM训练 5-7万亿tokens 大模型训练数据 LLM训练规模 LLM训练token需求

- 上云资讯 -

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

Meta AI 研究员：网络上的文本都是“垃圾” Llama 3全是合成数据

智源推出千万级指令微调数据集Infinity-Instruct

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

推荐阅读

上云服务

- 上云资讯 -

谷歌推出新方法：训练数据量减少 1 万倍，提升模型精准度

AI大模型的版权风暴：行业巨头面临7500亿美元赔偿风险

蚂蚁数科AI数据产业基地正式投产，携手苏州推进AI产业落地

​多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料

Meta AI 研究员：网络上的文本都是“垃圾” Llama 3全是合成数据

智源推出千万级指令微调数据集Infinity-Instruct

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

5.7万亿个优质tokens的诞生：大语言模型训练的 “神秘宝藏” TxT360

推荐阅读

上云服务

多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料