- 上云资讯 -
2025-07-22 14:33:25 32人关注
蚂蚁数科AI数据产业基地正式投产,携手苏州推进AI产业落地
近日,蚂蚁数科AI数据产业基地在太仓智汇谷·科技创新园正式投产。该基地作为苏州市首个AI数据产业基地,旨在通过跨行业人才与前沿技术,为长三角制造业、金融、医疗等领域的大模型落地提供场景化、高质量的训练数据支撑。
2025-02-16 10:28:35 152人关注
多家知名出版商起诉AI初创公司Cohere涉嫌侵犯版权
近日,包括康泰纳仕(Condé Nast)、《大西洋月刊》(The Atlantic)和《福布斯》(Forbes)在内的14家出版商联合起诉 AI 初创公司 Cohere,指控其存在 “系统性” 的版权侵犯行为。
2025-02-15 16:33:25 179人关注
谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。
2025-01-21 17:41:31 183人关注
哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料
哈佛大学近日宣布,计划发布一个由近100万本公共领域书籍组成的数据集,任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。
2025-01-01 22:16:22 345人关注
智源推出千万级指令微调数据集Infinity-Instruct
智源研究院推出了一个名为Infinity-Instruct的千万级指令微调数据集,旨在提升语言模型在对话等方面的性能。近日,Infinity Instruct完成了新一轮迭代,包括Infinity-Instruct-7M基础指令数据集和Infinity-Instruct-Gen对话指令数据集。
智源Infinity Instruct数据集 AI大模型训练数据集 大模型指令数据集 Infinity Instruct应用场景 数据集技术原理
2024-12-30 09:17:41 179人关注
5.7万亿个优质tokens的诞生:大语言模型训练的 “神秘宝藏” TxT360
在 AI 的世界里,数据就像是金矿,越丰富越闪亮。最近,LLM360推出了一个令人瞩目的数据集 TxT360,专为大语言模型训练量身定做。这个庞然大物不仅收录了来自各行各业的高质量文本数据,更是经历了一场全球范围的去重大作战,最终汇聚成5.7万亿个优质 tokens,真可谓是 “数据界的百宝箱”!