数据处理实例 数据处理实例用于对接入平台的多源数据进行清洗、转换与加工,是数据价值化的核心环节。本模块介绍其创建、配置说明,明确操作规范,确保数据处理任务可靠执行。 创建数据处理实例 登录百度智能云 DataBuilder 控制台,在侧边导航选中 计算资源 模块。 在计算实例通过切换tab页选择 数据处理实例 ,在页面右上方单击 创建 按钮,进入配置流程。
从其他 TP 系统迁移数据 从其他 TP 系统,如 MySQL/SqlServer/Oracle 等,迁移数据到 Doris,可以有多种方式。 Multi-Catalog 使用 Catalog 映射为外表,然后使用 INSERT INTO 或者 CREATE-TABLE-AS-SELECT 语句,完成数据导入。
千帆数据智能平台 DataBuilder 千帆数据智能平台 DataBuilder有8个子类型,源连接与集成实例(SeatunnelCompute)、源连接与集成节点(SeatunnelNode)、数据处理常驻Ray实例(RayCompute)、数据处理常驻Ray节点(RayNode)、数据处理常驻Spark实例(SparkCompute)、数据处理常驻Spark节点(SparkNode)、分析与AI
除非消息非常大,否则几乎总是应该增加这个值。500k 到 1M 之间的值并不罕见。测试并评估对吞吐量性能的影响。 可以使用 kafka_num_consumers 增加表引擎的消费者数量。但是,默认情况下,除非 kafka_thread_per_consumer 从默认值 1 更改,否则插入将在单个线程中线性化。将其设置为 1 以确保并行执行刷新。
目前UDF仅注册在EDAP数据库上,可以使用UDF的功能如下: (1)数据湖分析,数据源类型为EDAPDataLake时 (2)数据开发,可视化作业开发、脚本作业开发、实时flink开发数据源类型为EDAPDatalake时,并且sql执行引擎为hsql、jdbcsql、sparksql、flinksql时,可以使用udf 功能 类别 UDF使用方式 数据湖-数据湖分析 EDAP select edap.databasename.udfname
查看WAF防护数据 概述 若您在CDN 域名管理 - 管理 页面中为域名进行了WAF配置,您可通过CDN提供的 统计分析 - WAF防护 查看指定WAF实例的防护数据统计。按照WAF实例进行展示,包括今日Web攻击事件、近7日Web攻击事件、今日自定义规则阻断事件、近7日自定义规则阻断事件等。 注意事项 当前子账户尚不支持查看WAF防护信息功能。
平台去重策略 平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。 当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。
为了提升数据的安全性,建议通过 HTTPS 调用。
离线作业列表 用户在开发界面开发好离线作业组、离线作业或者实时作业之后,进行发布;发布的任务将展示到任务运维列表中,在任务运维中心可对已发布的作业进行上线、设置定时调度、手动执行、修数据、任务下线及查看实例等操作。 单击 数据加工>运维(顶部导航)>实例运维(侧边导航)>离线作业 进入离线作业列表,列表显示离线作业组实例,开始时间默认选中近一小时。 列表形式展示离线作业组实例显示。
导入数据 :评估模块通过tab选择评估集,单击列表右上方导入数据按钮,对评估文档文件进行上传(支持PDF格式), 评估集列表 :导入成功的文件文档以列表形式展示,支持按照数据名称进行搜索,同时支持按照标注状态(未标注/已确认/标注中/自动标注/已标注)进行筛选。 评估集列表操作 :单击列表操作项按钮,对评估集进行不同操作。