导入方式 格式要求 本地导入 - BOS导入 文件导入:单个jsonl文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。 目录导入:单个jsonl文件/压缩包源文件大小,均不超过50G,所有文件数量不超过1000。 分享链接导入 每个jsonl文件/压缩前源文件大小在5G以内。 平台已有数据集 仅支持选择未发布的数据集版本。 以上所有步骤完成后,即可导入数据至数据集。
数据迁移 RDS 提供了数据迁移方案,使您可以在不影响业务的情况下平滑将数据库迁移至云数据库 RDS 上面。详情请参见 SQLServer 数据库上云迁移 。
4.在 配置管理 页面中选择 高级配置 ,在 数据同步配置 区域点击 新增配置 对该 Bucket 的数据迁移与备份进行配置。 5.在数据同步配置操作栏中,可以按需选择数据迁移与备份策略、数据迁移与备份对象、历史数据是否迁移与备份、迁移与备份目标区域、目标Bucket以及目标存储类型。
创建并查看数据洞察任务 平台提供交互性与可视化兼备的数据洞察工作台,对SFT数据集进行多维透视“诊断”与处理,为大语言模型打造更高质量的精调数据。 创建数据洞察 登录到 本平台 ,在左侧功能列数据处理中选择 数据洞察与处理 ,进入数据洞察的主任务界面,整体流程如下: 选择对应数据集的数据集,选择“开始使用”,新发起的数据洞察任务需要1~3分钟的洞察时间。
视图数据回调 接口描述 此文档用于解释视图库空间配置视图数据上报回调通知功能中的通知内容。 请求结构 无 请求头域 除公共头域外,无其它特殊头域。 请求参数 无 响应头域 除公共头域外,无其它特殊头域。
数据更新方式 该属性控制各批次数据的组合方式: “追加”表示新推送的数据被“添加”在现有数据之后,数据表最大行数为 1000 行,如超过最大行数,最早的数据被移出数据表(“先进先出”); “覆盖”表示新推送的消息将替换表中的现有数据。 预览消息示例数据表 点击页面最下方“下一步”按钮,进入数据预览页面。该页面展示了在上述配置下,最终数据表的格式与数据。
根据下表进行配置,并单击 创建识别规则 。 参数 说明 规则名称 输入规则的名称,为了方便后续查找和管理,请尽量使用有意义的名称。最多支持 16 个字符。 脱敏算法 选择对敏感列进行脱敏的方式。关于脱敏算法的详细信息,请参见 脱敏算法 。 描述 (非必填) 对识别规则进行说明,降低沟通成本。最多支持 100 个字符。 识别规则 输入识别规则,规则的语法结构请参见页面右侧的 规则示例 。
导入已标注数据 通过下图的”导入“进入到新创建的序列标注数据集的导入页面 在数据集的导入数据部分,您可以选择导入数据的方式,目前平台支持本地上传数据和在线导入已有数据集 本地上传数据,需要以压缩包的形式上传,压缩包内需要包括标注文本文件(utf-8,txt或tsv格式),标注标签的映射文件(utf-8,JSON格式;文件名必须为”label_map.json“),一个压缩包里可以有多个标注文本文件,
数据更新方式 该属性控制各批次数据的组合方式: “追加”表示新推送的数据被“添加”在现有数据之后,数据表最大行数为 1000 行,如超过最大行数,最早的数据被移出数据表(“先进先出”); “覆盖”表示新推送的消息将替换表中的现有数据。 预览消息示例数据表 点击页面最下方“下一步”按钮,进入数据预览页面。该页面展示了在上述配置下,最终数据表的格式与数据。
数据迁移 云数据库 RDS for PostgreSQL 支持用户使用离线的方式完成对自建数据库迁移的需求,详细操作请参考 PostgreSQL数据库上云迁移 。