- 上云资讯 -
2025-02-15 16:33:25 179人关注
谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B
谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集,这是一个包含1000亿个图像 - 文本对的庞大数据集,旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集,研究人员希望改善视觉语言模型在不同文化和语言环境下的表现,同时减少各个子组之间的性能差异,从而提升人工智能的包容性。
2025-01-23 20:36:45 191人关注
蚂蚁数科业界首次构建百万级高质量 Deepfake 数据集
近日,在中关村论坛系列活动第12届数字金融与科技金融大会上,蚂蚁数科的 Deepfake 检测方案入选大会“金融科技技术创新与应用案例”。
2025-01-21 17:41:31 183人关注
哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料
哈佛大学近日宣布,计划发布一个由近100万本公共领域书籍组成的数据集,任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。
2025-01-21 10:21:14 177人关注
哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集
哈佛大学周四宣布,将公开一份包含近百万本公共领域图书的高质量数据集,任何人都可以利用它来训练大型语言模型和其他 AI 工具。 这份数据集由哈佛大学新成立的机构数据倡议 (Institutional Data Initiative) 创建,并获得了微软和 OpenAI 的资金支持。 其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。
2025-01-11 03:28:33 404人关注
医学多模态数据集MedTrinity-25M:包含2500万张医学影像
来自 UCSC-VLAA 团队的 “MedTrinity-25M” 大规模多模态数据集正式发布。这个数据集包含2500万张医学影像及详细注释。在医学领域中可谓是一次重要的创新,它拥有多粒度的注释,可以帮助研究人员更好地理解和应用医疗数据,用于训练医疗多模态大模型。
2025-01-06 12:21:16 143人关注
LAION 发布全新 AI 数据集 Re-LAION-5B,彻底清除儿童性虐待内容链接
最近,LAION 宣布推出经过安全审查的新版本 AI 训练数据集 ——Re-LAION-5B。这个新数据集在之前广受欢迎的 LAION-5B 基础上进行了重大改进,特别是在清理与儿童性虐待材料(CSAM)相关的链接方面。LAION 表示,Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除已知 CSAM 链接的网页规模数据集。
2025-01-01 20:29:43 135人关注
OpenAI 重磅发布多语言 AI 数据集,推动全球语言平等
近日,OpenAI 推出了一个重磅的多语言数据集,旨在评估人工智能在14种语言中的表现,包括阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语。