上云资讯 - 来上云吧，企业上云一站式服务

阿里云云原生阿里云开发者腾讯云开发者火山引擎开发者社区魔搭ModelScope社区微软科技 Azure云科技 Zilliz OpenAI Anthropic Gemini LangChain Hugging Face Mistral

2025-02-15 16:33:25 499人关注

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

谷歌 DeepMind 团队正式推出了 WebLI-100B 数据集，这是一个包含1000亿个图像 - 文本对的庞大数据集，旨在增强人工智能视觉语言模型的文化多样性和多语言性。通过这一数据集，研究人员希望改善视觉语言模型在不同文化和语言环境下的表现，同时减少各个子组之间的性能差异，从而提升人工智能的包容性。

Google DeepMind WebLi100B数据集 AI数据集大模型训练数据深度学习数据集

2025-02-02 10:41:17 533人关注

重磅：中国开源首个百万级机器人数据集，具身智能迎来ImageNet时刻

智元机器人携手上海人工智能实验室等机构，重磅发布AgiBot World数据集，这是全球首个基于真实场景的百万级机器人数据集。相较谷歌的Open X-Embodiment，其长程数据规模提升10倍，场景覆盖扩大100倍，数据质量达到工业级标准。

中国机器人数据集百万机器人数据集具身智能数据集中国AI数据集机器人训练数据具身智能技术

2025-01-23 20:36:45 435人关注

蚂蚁数科业界首次构建百万级高质量 Deepfake 数据集

近日，在中关村论坛系列活动第12届数字金融与科技金融大会上，蚂蚁数科的 Deepfake 检测方案入选大会“金融科技技术创新与应用案例”。

百万级深度伪造数据集 Ant Tech数据集构建深度伪造技术 AI数据集深度伪造数据集构建

2025-01-21 17:41:31 482人关注

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

哈佛大学近日宣布，计划发布一个由近100万本公共领域书籍组成的数据集，任何人都可以使用该数据集来训练大型语言模型和其他人工智能工具。

Harvard百万书籍数据集 AI训练数据集哈佛AI数据集大模型训练数据书籍数据集应用

2025-01-21 10:21:14 438人关注

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

哈佛大学周四宣布，将公开一份包含近百万本公共领域图书的高质量数据集，任何人都可以利用它来训练大型语言模型和其他 AI 工具。这份数据集由哈佛大学新成立的机构数据倡议（Institutional Data Initiative）创建，并获得了微软和 OpenAI 的资金支持。其中收录的图书均是 Google 图书项目扫描的、不再受版权保护的作品。

哈佛AI数据集 OpenAI数据集微软免费AI数据集 AI数据集下载哈佛OpenAI合作项目

2025-01-11 03:28:33 799人关注

医学多模态数据集MedTrinity-25M：包含2500万张医学影像

来自 UCSC-VLAA 团队的 “MedTrinity-25M” 大规模多模态数据集正式发布。这个数据集包含2500万张医学影像及详细注释。在医学领域中可谓是一次重要的创新，它拥有多粒度的注释，可以帮助研究人员更好地理解和应用医疗数据，用于训练医疗多模态大模型。

医学多模态数据集 MedTrinity 25M 医疗数据集多模态医疗数据医学AI数据集

2025-01-06 12:21:16 373人关注

LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接

最近，LAION 宣布推出经过安全审查的新版本 AI 训练数据集 ——Re-LAION-5B。这个新数据集在之前广受欢迎的 LAION-5B 基础上进行了重大改进，特别是在清理与儿童性虐待材料（CSAM）相关的链接方面。LAION 表示，Re-LAION-5B 是全球首个在文本 - 图像对数据集上全面清除已知 CSAM 链接的网页规模数据集。

LAION新AI数据集 LAION-5B数据集儿童不良内容移除 AI数据集清理 AI伦理审查

2025-01-01 20:29:43 337人关注

OpenAI 重磅发布多语言 AI 数据集，推动全球语言平等

近日，OpenAI 推出了一个重磅的多语言数据集，旨在评估人工智能在14种语言中的表现，包括阿拉伯语、德语、斯瓦希里语、孟加拉语和约鲁巴语。

OpenAI多语言数据集多语言AI技术语言平等技术 AI数据集应用 OpenAI语言模型创新

- 上云资讯 -

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

重磅：中国开源首个百万级机器人数据集，具身智能迎来ImageNet时刻

蚂蚁数科业界首次构建百万级高质量 Deepfake 数据集

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

医学多模态数据集MedTrinity-25M：包含2500万张医学影像

LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接

OpenAI 重磅发布多语言 AI 数据集，推动全球语言平等

推荐阅读

上云服务

- 上云资讯 -

谷歌 DeepMind 推出千亿级视觉语言数据集 WebLI-100B

重磅：中国开源首个百万级机器人数据集，具身智能迎来ImageNet时刻

蚂蚁数科业界首次构建百万级高质量 Deepfake 数据集

哈佛大学发布千万级书籍数据集 为AI模型提供高质量训练材料

哈佛大学将发布由 OpenAI 和微软资助的海量免费 AI 训练数据集

医学多模态数据集MedTrinity-25M：包含2500万张医学影像

​LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接

OpenAI 重磅发布多语言 AI 数据集，推动全球语言平等

推荐阅读

上云服务

哈佛大学发布千万级书籍数据集为AI模型提供高质量训练材料

LAION 发布全新 AI 数据集 Re-LAION-5B，彻底清除儿童性虐待内容链接