面向post-pretrain场景的数据清洗 登录到 本平台 ,在左侧功能列数据处理中选择 数据清洗 ,进入数据清洗的主任务界面,整体流程如下: 1.选择数据集 在数据处理-数据清洗页面中,选择“创建任务”。 处理前数据集:存放被清洗的泛文本源数据。 处理后数据集:存放清洗后的数据。
采集数据 校正的第一步是采集数据,数据的采集决定了校正的质量,请按步骤细心进行。 进入之前解压的程序所在的文件夹内,将模组接到PC,运行如下命令: .
数据增强 什么是数据增强 平台支持对 模型输入的文本数据集 进行数据增强。 当在实践中无法收集到数目庞大的高质量数据时,可以通过数据增强策略,对数据本身进行一定程度的扰动和扩充,从而产生 新 数据。在训练时会通过学习大量的 新 数据,提高模型的泛化能力。 注意文本数据增强功能仅支持增强已发布或未发布的非空数据集 。
数据清洗 什么是数据清洗 数据清洗是面向提升大语言模型数据质量的一站式数据处理方案,通过对数据进行异常清洗、文本过滤、文本去重和去除隐私信息,大幅提升数据质量,优化模型训练效果。 面向SFT场景的数据清洗 登录到 操作台 ,在左侧功能列数据洞察与处理中选择SFT数据的 数据清洗 ,进入数据清洗的主任务界面,整体流程如下: 1.选择数据集 在数据清洗主页面中,选择“创建任务”。
Prompt集类数据导出 Prompt数据导出,仅支持导出源文件 。 导出至BOS需要选择Bucket。 纯文本类数据导出 泛文本无标注数据导出,仅支持导出源文件 ,操作内容与 prompt集类数据导出 一致。 文生图数据导出 此类数据为Prompt+图片类数据。 导出数据内容如下图所示: 查看数据导出结果 数据开始导出后,您可在数据集导出页查看导出状态。
数据回流 目录 创建回流配置任务 预测数据回归至数据集 千帆ModelBuilder支持将线上预测服务的结果保存回数据集,经人工筛选、调整以及处理后,用于下一次的模型优化训练。 登录到 本平台 ,在左侧功能列选择 数据回流 ,进入创建数据回流主任务界面。 创建回流配置任务 您需要在数据回流任务界面,选择“创建回流配置”按钮。选择发布成功的在线服务或者 预置服务 。
活动亮点 数据资产是数字经济发展的关键生产要素,随着人工智能等新一代信息技术的发展,数据迎来爆发式增长。在国家大数据战略引领下,提高数据安全保护水平,保证数据依法合理有效利用,实现大数据规范、高质量发展,真正发挥对经济社会的促进作用,成为各行业与领域数据应用的创新方向。