智源研究院在巴黎发布CCI 4.0，多语种大模型训练数据集迈向全球合作新阶段

志斌 • 2025年5月8日下午1:35 • 人工智能

大模型之家讯 5月6日，在法国巴黎举行的GOSIM全球开源创新论坛上，智源研究院重磅发布了最新一代开源文本数据集——CCI 4.0。这一数据集不仅是中文互联网语料构建工作的持续演进，更标志着全球多语种大模型训练数据基础设施迈入新的阶段。CCI 4.0的发布，不仅丰富了高质量开源资源的供给，也成为推动全球开源协同的关键里程碑。

从CCI 1.0到CCI 4.0，智源研究院持续推动数据质量和结构优化。本次发布的CCI 4.0首次实现从单语到双语的跃迁，覆盖中英双语，并计划在后续版本中支持更多语种。该数据集总量达到35TB，包含三个子数据集：基础版CCI 4.0-M2-Base V1（中英双语，26TB）、CoT推理版CCI 4.0-M2-CoT V1（含4亿条模拟人类思维轨迹的中英推理数据，4250亿Token）以及扩展版CCI 4.0-M2-Extra V1，构建出面向多任务、多阶段训练场景的数据基座。值得注意的是，CCI 4.0-M2-CoT的规模已远超目前全球最大的开源推理数据集Cosmopedia，体量扩大近20倍。

CCI 4.0数据集由智源研究院牵头，联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献

构建数据质量新标尺

CCI 4.0在数据处理上引入更为系统的流程机制。原始数据依据来源差异，分别施加了去重、分类、流畅度及loss过滤等策略。其中英文数据聚焦语义清晰与流畅表达；中文数据则通过领域细分、质量打分等进一步优化；CoT合成数据则通过问题生成与思维链设计模拟人类推理过程，显著提升了数据的训练价值。

多项对比实验表明，CCI 4.0在多语言模型训练中的效果表现优于前代版本。以英文数据集为例，通过引入loss过滤机制，训练模型在多个下游任务中表现出更高的效率和更快的收敛速度。中文高质量数据也在多个参数规模模型上验证了其对训练效率的提升作用。尤其在合成数据实验中，含有推理轨迹的数据显著增强了模型的理解和任务迁移能力，为进一步提升多模态推理能力提供了可能。