需具有以下任一权限: 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy 完全控制千帆大模型平台数据管理(除数据标注外)的权限:QianfanDataFullControlAccessPolicy 鉴权说明 调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID 和 Secret Access Key进行鉴权
使用自定义任务处理数据 在百舸平台中用户可以利用已有资源池队列或创建专门的CPU资源池,使用分布式训练任务模块提交自定义任务方式处理数据,并将处理好的数据写入到BOS、PFS、CFS等存储中供后续业务使用。 此文档提供使用百舸自定义任务处理数据的最佳实践方法和思路,针对不同业务场景,用户可参考该文档实现更加复杂的数据处理任务,亦可以创建可以并发处理的分布式处理任务。
假设有三个 Bucket,分别命名为 A、B、C: 支持将 A 作为 B 的源 Bucket 的同时,将 B 作为 C 的源 Bucket; 支持将 A 作为 B 的源 Bucket 的同时,将 B 作为 A 的源 Bucket; 支持将 A 同时作为 B 和 C 的源 Bucket; 支持将 C 同时作为 A 和 B 的目标 Bucket。
数据质量 数据汇聚到平台后,需要对数据的完整性、唯一性、有效性、准确性、一致性、及时性进行探查,清洗脏数据,以确保数据的存储和共享的质量。
logicalStartTime(dd)},示例输入文件路径:bos:/bucket-name/文件夹名称/${logicalStartTime(yyyyMMddHH)} 输出数据路径 输入BOS路径。
当访问相同的远程文件时,PALO 会检查本地缓存中是否存在该文件的缓存数据,并根据 Block 的 offset 和 size,确认哪些数据从本地 Block 读取,哪些数据从远程拉起,并缓存远程拉取的新数据。BE 节点重启的时候,扫描 cache_path 目录,恢复 Block 的元信息。当缓存大小达到阈值上限的时候,按照 LRU 原则清理长久未访问的 Block。
若您希望从业务低峰时间开始迁移数据,如深夜 12:00,可以提前指定开始时间 固定时间段迁移:您可以指定迁移任务生效日期、迁移执行时间段。若您希望从业务低峰时间开始迁移数据,如周末深夜 12:00,可以提前指定生效日期、迁移执行时间段 源端设置 您需要迁移源端信息进行设置。
介绍百度大数据的数据工程和数据科学,为智慧城市带来的大数据平台和解决方案。
不同库名间的数据同步 数据传输服务 DTS 支持在配置数据传输任务时对数据库、表、列的名称进行映射,来设置任务对象在目标库实例中的名称。您可以通过该功能将数据同步到目标端中指定的数据库、数据表或字段(列),或在目标库实例中创建一个与任务对象结构相同但名称不同的对象。 适用场景 场景 说明 在目标库实例中创建一个新对象并接收任务数据。
知识库自定义提示词:公文检索问答 整体概述 目前应用配置页面暂不支持对知识库的提示词调整。如需定义知识库提示词,需要使用自建组件功能,使用工作流画布构建 RAG 知识库工作流,在工作流当中对知识库总结环节,通过提示词调试。 构建过程 确认了解工作流的基本操作: 工作流基本操作 构建一个 RAG 工作流,可以通过创建时选择知识库模板创建;或创建空白画布,引入 “知识节点”,“大模型节点”创建。