2025-01-01 09:41:13
126人关注
智源研究院发布中文互联网语料库CCI3.0 包含1000GB数据集
在2024北京文化论坛上,北京智源人工智能研究院(BAAI)宣布正式发布新一代中文互联网语料库CCI3.0(Chinese Corpora Internet),进一步推动数据共建共享。CCI3.0包含1000GB的数据集及498GB的高质量子集CCI3.0-HQ,是继2023年11月首次开源CCI1.0和2024年4月发布CCI2.0之后的又一次重要更新。
智源研究院
CCI3语料库
1000GB语料
大模型训练数据
中文语料库
人工智能数据集