- 上云资讯 -
2025-01-21 10:21:14 139人关注
哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集
哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。
2025-01-11 10:10:30 103人关注
Meta 涉嫌版权侵权:使用 LibGen 数据集训练 AI 并删除版权信息
Meta 正面临一起涉及版权侵权的诉讼,原告律师称,Meta 首席执行官马克·扎克伯格批准公司使用盗版电子书和文章的数据集来训练其 Llama AI 模型。该案件是针对多家科技巨头的众多版权诉讼之一,这些公司被指控在未获授权的情况下使用受版权保护的作品进行 AI 模型训练。