根据下表进行配置,并单击 创建识别规则 。 参数 说明 规则名称 输入规则的名称,为了方便后续查找和管理,请尽量使用有意义的名称。最多支持 16 个字符。 脱敏算法 选择对敏感列进行脱敏的方式。关于脱敏算法的详细信息,请参见 脱敏算法 。 描述 (非必填) 对识别规则进行说明,降低沟通成本。最多支持 100 个字符。 识别规则 输入识别规则,规则的语法结构请参见页面右侧的 规则示例 。
导入已标注数据 通过下图的”导入“进入到新创建的序列标注数据集的导入页面 在数据集的导入数据部分,您可以选择导入数据的方式,目前平台支持本地上传数据和在线导入已有数据集 本地上传数据,需要以压缩包的形式上传,压缩包内需要包括标注文本文件(utf-8,txt或tsv格式),标注标签的映射文件(utf-8,JSON格式;文件名必须为”label_map.json“),一个压缩包里可以有多个标注文本文件,
数据迁移 云数据库 RDS for PostgreSQL 支持用户使用离线的方式完成对自建数据库迁移的需求,详细操作请参考 PostgreSQL数据库上云迁移 。
数据导入方式 创建数据集 完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。 您可以使用以下方案上传数据集:本地导入、BOS导入、分享链接导入、平台已有数据集。 导入方式 格式要求 本地导入 压缩包(包含对话样本文件和关联图片集合)。 BOS导入 文件导入:压缩包(包含对话样本文件和关联图片集合)。
更多注意事项请查看 月光宝盒使用注意事项 预估待迁移数据量:填写您本次数据迁移的数据量 预估待迁移文件数量:5000以内(默认)、5000-1万、1万-5万、5万-10万、10万-50万、50万以上 选择宝盒规格:CloudFlow 提供多种月光宝盒规格,您可以选择适合您本次迁移迁移的规格:Mini型-50TB、Standard标准型-80TB、Large大容量型-160TB 预期使用时间:选择您本次的期望使用时间
具体方法是,调用与对应千帆数据集绑定的 Dataset 对象的 online_data_process 方法,并向其中传入传入包含了 QianfanOperator 对象的列表,其中 QianfanOperator 对象中包含了数据处理任务的具体配置 用户可以查看 qianfan.dataset.data_operator 下所包含的所有可用于在线处理的配置算子,并且自由组合。
Logstash数据存储到BOS 工具概述 Logstash 是一个开源的数据收集、处理、分析工具,可以从众多来源捕捉事件,流式传输到所需的存储库中,本文将描述Logstash如何把数据存储到BOS bucket。 配置教程 官网下载安装 Logstash安装包 ,选择对应操作系统的最新版本即可;下载后解压安装包并创建配置文件。
选择“已发布”的汇总表或应用表,单击“开发”按钮,进入模型开发-作业配置界面。 表十八 作业开发配置信息介绍 参数 描述 作业开发类型 作业开发的类型,支持HiveSQL、SparkSQL。 存在项目 选择平台已创建的项目,用于作业开发。 存放文件夹 选择作业开发项目下的文件夹。 完成作业配置之后,单击下一步,可展示作业开发结果。
配置源端以自建数据存储为例,源端选择您对应的自建实例即可。在本例中,将接入类型选择云服务器BCC,数据类型选择MongoDB,填入对应的实例账号与密码,点击 测试连通性 按钮就能测试源端实例的连通性。 配置目标端以百度智能云数据库为例,目标端数据类型会根据源端数据类型自动匹配。
导入数据 目前 PALO 支持两种数据导入方式:BOS 文件导入 和 本地文件导入。 BOS 文件导入 BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里 。 PALO 通过名为 broker 的进程读取 BOS 上的数据并导入到 PALO 存储引擎中。