近日,在由国家数据局等单位联合主办的中国国际大数据产业博览会高质量数据集主题交流活动中,苏州企业中国移动云能力中心报送的“研发大模型高质量数据集”案例,凭借其在数据构建、治理与应用等方面的突出成果,成功入选“高质量数据集典型案例”。
在人工智能大模型加速渗透各行业的背景下,代码数据质量和动态利用方式是大模型推理能力的核心支撑,在软件工程等领域意义重大。针对当前代码数据来源广、质量参差、评估专业度不足等问题,中移云能构建“数据采集-数据处理-数据质量评估”高质量数据处理引擎,形成研发大模型数据集,并据此训练出具备代码补全、单元测试等能力的研发大模型,支撑研发全流程赋能需求。
为破解多源数据整合难题,中移云能构建了海量异构数据采集引擎,针对开源代码数据分散、多样、噪声多等问题,通过异构内容自动提取、低熵噪声自动去除,提升采集准确性与完整性,高效汇聚代码数据,形成超PB级别原始数据。围绕代码数据质量不足、研发场景数据缺失等痛点,搭建文本数据处理与多模态数据合成流水线,沉淀超50+核心算子,自动化率达90%,支持处理1500万文档/小时。为确保数据质量可控,结合行业标准和数据特性,建立覆盖12个核心维度的数据质量评估体系,实现数据全方位质量提升。