概述 概述 DataBuilder 支持离线作业开发模式,主要面向离线数据处理场景,同时提供了可视化作业开发、脚本作业开发、作业组开发三种开发方式,满足不同客户开发需求。 进入项目 在【我的项目】中的项目列表点击具体某个项目,进入项目内部。 离线开发 项目内,选择【离线开发】,进入离线作业的开发和编排界面。离线开发分为三类: 可视化作业开发、脚本作业开发、作业组开发。
参数: 标准键:JAVA_HOME,填写value值 标准键:python2,填写 python 2.x bin执行文件路径 标准键:python3,填写 python 3.x bin执行文件路径 资源组 EDAP支持Serverless资源组, 用于数据开发、数据湖分析、数据服务。
数据输入bos目录,BOS服务说明请参考 BOS介绍 ,说明: (1)建议bos目录下不要嵌套目录 (2)数据尽可能均分到目录下的每个文件,单个任务文件数量100(含子目录) (3)全部文件累计大小不超过300MB (4)文件格式要求,示例请参考本文文件源数据格式说明: 文件内容必须符合JsonLine格式要求,⽂件内 id唯⼀,query为请求数据 文件格式不强制要求是.jsonl,可以是.txt
如果指定的下载范围是0 - 100,则返回第0到第100个字节的数据,包括第100个,共101字节的数据,即[0, 100]。
存储路径申请 存储路径是指,数据湖指定的存储路径,用于数据表数据存储 通过“存储路径申请”功能,普通用户可以申请访问和操作特定存储路径的权限,确保数据安全并防止未经授权的访问。授权时长可根据需要灵活设置,以满足不同场景的需求。 存储路径申请 单击权限申请按钮,弹出批量申请弹窗,用户可选择特定的存储路径并为其申请读取、写入、创建和管理权限。
之后,用户上传该 Bucket 的数据将以用户选择的自定义密钥进行加密保护。同样,当用户读取数据时,BOS 服务会向 KMS 服务申请进行数据解密后,向用户返回明文数据。 加密算法 :您可以配置一种加密算法。 AES256 SM4(国密) 点击 确认 ,完成服务端加密配置。 您可通过单击 修改配置 ,进行加密方式修改或者关闭存储桶服务端加密。
由于百度智能云Elasticsearch集群本身的特性、数据节点的特性、网络传输的不确定性,数据迁移过程可能会受到集群健康状态、节点存储情况等多方面因素影响。迁移不成功(集群健康状态不佳、迁移过程中断或出现类似后果的情形)可能会导致源数据和目标数据丢失,或迁移成功但迁移前后数据不一致。
导入已标注数据 目录 导入已标注数据方式说明 从已有数据集导入已标注数据 查看已标注数据 导入已标注数据方式说明 如果您已有标注好的数据,支持快速导入到BML,方便直接进入后续训练环节。 实例分割任务向选定的数据集导入已标注好的数据目前支持一种方式: 将其他数据集已经标注好的数据导入 从已有数据集导入已标注数据 从已有数据集导入已标注数据,支持选择数据集及导入的具体标签进行导入。
数据质量 数据汇聚到平台后,需要对数据的完整性、唯一性、有效性、准确性、一致性、及时性进行探查,清洗脏数据,以确保数据的存储和共享的质量。
当用户下载此Object的时候,此元数据也可以一并得到 一个Object可以有多个类似的参数,但所有的User Meta总大小不能超过2KB 上传Object时设置存储类型 BOS支持标准存储, 低频存储和冷存储,上传Object并存储为低频存储类型通过指定StorageClass实现,三种存储类型对应的参数如下: 存储类型 参数 标准存储 STANDARD 低频存储 STANDARD_IA 冷存储