LetsClouds-Logo
AI对话 上云服务 上云资讯 解决方案 关于我们
售前咨询 021-50583875
微信二维码

微信扫码

添加专属顾问

- 上云资讯 -

阿里云云原生 阿里云开发者 腾讯云开发者 火山引擎开发者社区 魔搭ModelScope社区 微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-07-22 14:33:25 32人关注

蚂蚁数科AI数据产业基地正式投产,携手苏州推进AI产业落地

近日,蚂蚁数科AI数据产业基地在太仓智汇谷·科技创新园正式投产。该基地作为苏州市首个AI数据产业基地,旨在通过跨行业人才与前沿技术,为长三角制造业、金融、医疗等领域的大模型落地提供场景化、高质量的训练数据支撑。

AI数据产业基地 长三角大模型训练数据 制造业AI数据支撑 金融领域AI训练数据 医疗大模型数据支持

2025-02-16 10:28:35 152人关注

​多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权

近日,包括康泰纳仕(Condé Nast)、《大西洋月刊》(The Atlantic)和《福布斯》(Forbes)在内的14家出版商联合起诉 AI 初创公司 Cohere,指控其存在 “系统性” 的版权侵犯行为。

新闻出版商起诉Cohere Cohere版权侵权 AI版权争议 大模型训练数据合法性 新闻出版商诉讼案例

2025-02-15 16:33:25 179人关注

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。

Google DeepMind WebLi100B数据集 AI数据集 大模型训练数据 深度学习数据集

2025-01-21 17:41:31 183人关注

哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料

哈佛大学近日宣布,计划发布一个由近100万本公共领域书籍组成的数据集,任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。

Harvard百万书籍数据集 AI训练数据集 哈佛AI数据集 大模型训练数据 书籍数据集应用

2025-01-15 07:36:19 74人关注

Meta AI 研究员:网络上的文本都是“垃圾” Llama 3全是合成数据

Meta AI的研究员Thomas Scialom最近在一次采访中分享了一些关于他们最新项目Llama3的见解。他直言不讳地指出,网络上的大量文本质量参差不齐,他认为在这些数据上进行训练是一种资源浪费。因此,Llama3的训练过程中并没有依赖任何人类编写的答案,而是完全基于Llama2生成的合成数据。

Meta AI LLaMA 3 合成数据 AI研究员 大模型训练数据

2025-01-01 22:16:22 345人关注

智源推出千万级指令微调数据集Infinity-Instruct

智源研究院推出了一个名为Infinity-Instruct的千万级指令微调数据集,旨在提升语言模型在对话等方面的性能。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。

智源Infinity Instruct数据集 AI大模型训练数据集 大模型指令数据集 Infinity Instruct应用场景 数据集技术原理

2025-01-01 09:41:13 125人关注

智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集

在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet),进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ,是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。

智源研究院 CCI3语料库 1000GB语料 大模型训练数据 中文语料库 人工智能数据集

2024-12-30 09:17:41 179人关注

5.7万亿个优质tokens的诞生:大语言模型训练的 “神秘宝藏” TxT360

在 AI 的世界里,数据就像是金矿,越丰富越闪亮。最近,LLM360推出了一个令人瞩目的数据集 TxT360,专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据,更是经历了一场全球范围的去重大作战,最终汇聚成5.7万亿个优质 tokens,真可谓是 “数据界的百宝箱”!

LLM训练 5-7万亿tokens 大模型训练数据 LLM训练规模 LLM训练token需求

推荐阅读

加载中...

上云服务

沪ICP备14033669号-10