智源研究院在巴黎发布CCI 4.0,多语种大模型训练数据集迈向全球合作新阶段

大模型之家讯 5月6日,在法国巴黎举行的GOSIM全球开源创新论坛上,智源研究院重磅发布了最新一代开源文本数据集——CCI 4.0。这一数据集不仅是中文互联网语料构建工作的持续演进,更标志着全球多语种大模型训练数据基础设施迈入新的阶段。CCI 4.0的发布,不仅丰富了高质量开源资源的供给,也成为推动全球开源协同的关键里程碑。

智源研究院在巴黎发布CCI 4.0,多语种大模型训练数据集迈向全球合作新阶段

从CCI 1.0到CCI 4.0,智源研究院持续推动数据质量和结构优化。本次发布的CCI 4.0首次实现从单语到双语的跃迁,覆盖中英双语,并计划在后续版本中支持更多语种。该数据集总量达到35TB,包含三个子数据集:基础版CCI 4.0-M2-Base V1(中英双语,26TB)、CoT推理版CCI 4.0-M2-CoT V1(含4亿条模拟人类思维轨迹的中英推理数据,4250亿Token)以及扩展版CCI 4.0-M2-Extra V1,构建出面向多任务、多阶段训练场景的数据基座。值得注意的是,CCI 4.0-M2-CoT的规模已远超目前全球最大的开源推理数据集Cosmopedia,体量扩大近20倍。

CCI 4.0数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献

构建数据质量新标尺

智源研究院在巴黎发布CCI 4.0,多语种大模型训练数据集迈向全球合作新阶段
CCI 4.0的数据加工方法在Nemotron-CC高质量数据集的使用前后效果对比

CCI 4.0在数据处理上引入更为系统的流程机制。原始数据依据来源差异,分别施加了去重、分类、流畅度及loss过滤等策略。其中英文数据聚焦语义清晰与流畅表达;中文数据则通过领域细分、质量打分等进一步优化;CoT合成数据则通过问题生成与思维链设计模拟人类推理过程,显著提升了数据的训练价值。

智源研究院在巴黎发布CCI 4.0,多语种大模型训练数据集迈向全球合作新阶段
CCI4.0-HQ中文数据集和CCI3.0-HQ数据集在训练500M模型效果上的对比

多项对比实验表明,CCI 4.0在多语言模型训练中的效果表现优于前代版本。以英文数据集为例,通过引入loss过滤机制,训练模型在多个下游任务中表现出更高的效率和更快的收敛速度。中文高质量数据也在多个参数规模模型上验证了其对训练效率的提升作用。尤其在合成数据实验中,含有推理轨迹的数据显著增强了模型的理解和任务迁移能力,为进一步提升多模态推理能力提供了可能。

智源研究院在巴黎发布CCI 4.0,多语种大模型训练数据集迈向全球合作新阶段
CCI 4.0-M2-CoT合成数据集效果验证

全球视野下的开源协作与实践延展

从2023年11月发布CCI 1.0起,智源系列数据集已累计被下载超过14万次,支撑了全球500余家机构的大模型训练任务,成为中文语料建设的重要支柱。而此次CCI 4.0的双语与推理能力拓展,意味着数据集不再仅为语言建模服务,而是为多模态、跨任务、通用智能演化提供深层基础。

为保障开源的可用性与合规性,智源研究院在CCI 4.0发布前进行了多轮严格审查。相关版本现已分别上线 Huggingface、BAAI DataHub 与魔搭平台,面向全球开发者与研究者开放获取。

未来,智源研究院将持续深耕高质量开源数据建设,逐步拓展语言和应用领域边界,在支撑模型技术演进的同时,进一步推动人工智能的产业共建与全球共益。

数据集获取链接:
Huggingface:https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1
BAAI DataHub:https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-Base-v1
魔搭平台:https://modelscope.cn/datasets/BAAI/CCI4.0-M2-Base-v1

原创文章,作者:志斌,如若转载,请注明出处:http://damoai.com.cn/archives/10277

(0)
上一篇 1天前
下一篇 2023年10月17日

相关推荐

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注