假设有三个 Bucket,分别命名为 A、B、C: 支持将 A 作为 B 的源 Bucket 的同时,将 B 作为 C 的源 Bucket; 支持将 A 作为 B 的源 Bucket 的同时,将 B 作为 A 的源 Bucket; 支持将 A 同时作为 B 和 C 的源 Bucket; 支持将 C 同时作为 A 和 B 的目标 Bucket。
使用自定义任务处理数据 在百舸平台中用户可以利用已有资源池队列或创建专门的CPU资源池,使用分布式训练任务模块提交自定义任务方式处理数据,并将处理好的数据写入到BOS、PFS、CFS等存储中供后续业务使用。 此文档提供使用百舸自定义任务处理数据的最佳实践方法和思路,针对不同业务场景,用户可参考该文档实现更加复杂的数据处理任务,亦可以创建可以并发处理的分布式处理任务。
当访问相同的远程文件时,PALO 会检查本地缓存中是否存在该文件的缓存数据,并根据 Block 的 offset 和 size,确认哪些数据从本地 Block 读取,哪些数据从远程拉起,并缓存远程拉取的新数据。BE 节点重启的时候,扫描 cache_path 目录,恢复 Block 的元信息。当缓存大小达到阈值上限的时候,按照 LRU 原则清理长久未访问的 Block。
数据质量 数据汇聚到平台后,需要对数据的完整性、唯一性、有效性、准确性、一致性、及时性进行探查,清洗脏数据,以确保数据的存储和共享的质量。
数据同步 put_bucket_replication 创建数据同步。
ect 拷贝,具体如下: 使用CopyObject API接口拷贝Object 使用SDK拷贝Object Java SDK Python SDK PHP SDK C# SDK Android SDK 注意事项 您需要有源 Object 的读取权限及目标 Bucket 的读写权限,否则会无法完成操作。
查看分析数据 一、概述 您可通过 CDN 提供的数据分析功能,查看热点分析和用户行为分析,支持按照域名、时间粒度、时间区间等维度来筛选数据,您可根据需求对指定数据进行查询或下载。 统计大类 细分维度 特色功能点 热点分析 Top 域名 支持4xx、5xx、全部状态码; 支持多种查询粒度:1天粒度、1小时粒度。
在线reindex reindex from a remote cluster api 是Elasticsearch提供的一个 api接口,可以把数据从源Elasticsearch集群导入到当前Elasticsearch集群,实现数据的迁移。原理是从源 Elasticsearch 集群中查询数据,然后写入到目标 Elasticsearch 集群中。
文本创作数据标注 文本创作数据标注 图中所示,模型输出文本框中,您可直接编辑模型输出文本,如图所示: 编辑完成后,点击‘下一篇’按钮自动保存并进入下一篇数据
数据开发 新建项目 进入“数据加工-我的项目”菜单,创建项目“产品体验测试”,并为项目绑定计算资源。 数据开发 进入项目“产品体验测试”,创建一个脚本作业,脚本类型HiveSQL、SparkSQL均可。将1.1中的示例数据写入表test_stu,并点击执行。 作业运维 执行通过的作业,点击“发布”后将进入运维阶段,在“任务运维”中,可以对该作业进行调度配置、查询运行实例等。