数据回流功能,完成了 AI 应用生命周期的闭环,通过初试数据完成模型训练和服务部署,利用新采集的线上数据不断更新模型。通过该方式可以有效的解决线上数据特征漂移的问题。 当前在 BML 中,可以在视觉类应用中使用数据回流功能。
数据同步 为了方便数据发布生成数据API,需要将数据湖中的数据进行导出,本示例通过可视化ETL作业,将数据从EDAP数据湖同步到RDS。 数据湖数据导出到RDS 1、进入项目“产品体验测试”,选择可视化作业,在画布中添加源端插件DataLakeSource、目标端插件DataBase。 2、点击插件进行属性配置,源端数据表为test_stu,目标端数据表为mysql_stu。
根据数据文件的实际情况进行列名设置。 设置首行为列名:将导入的数据文件中的首行作为列名。 设置首行非列名:此时系统会自动生成列名,而将首行作为数据。 单击“确认并返回”完成导入操作。
短文本匹配数据导入与标注 1. 创建数据集 您可以在控制面板中,选择“数据总览”并点击按钮“创建数据集”,即可完成一个数据集的创建。 2.导入短文本相似度数据 进入到新创建的短文本数据集中,如果您手中的数据是未标注数据,可以选择数据标注状态为“无标注信息”,如果您手中的数据是完成标注的数据,可以选择数据标注状态为“有标注信息”。
平台去重策略 平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。 当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。
平台去重策略 平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。 当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。
Path参数 工作空间ID,不允许为空或者只包含空白字符 jobId String 是 Path参数 工作流ID,不允许为空或者只包含空白字符 modify String 是 Query参数 无需提供参数值 crontab String 是 Body参数 Crontab 表达式,必须是可触发的表达式,且触发周期需 ≥ 60 秒。
ation: authorization string 请求头域 除公共头域外,无其它特殊头域 请求参数 参数名 类型 是否必填 参数位置 说明 workspaceId String 是 Path参数 工作空间ID,不允许为空或者只包含空白字符 jobId String 是 Path
企业版:支持选择资源池对应区域和VPC下的,归属于主账号的容器镜像服务CCR-企业版的实例,并填写账号密码进行添加。 个人版:支持选择归属于主账号的容器镜像服务CCR-个人版的实例,并填写账号密码进行添加。 使用镜像提交自定义作业任务 在算法配置阶段,如果用户选择了用户资源池,即支持选择该资源池所关联的CCR镜像环境提交任务。
比如,执行以下代码时,会先从外部存储系统读取一个文本文件,利用该文件构建出一个RDD。接着,借助RDD的Map算子对其进行运算,从而得到文本文件中每一行的长度。最后,再通过Reduce算子进行计算,得出文本文件中各行长度的总和。