平台去重策略 平台提供了可去重的数据集,即对您上传的数据进行重复样本的去重。注意:当您确定了数据集为去重或非去重的属性后,便不可修改。 当您创建了一个去重的数据集时,在后续上传数据的过程中,平台可通过检验您当前上传的样本与已上传到此数据集下的样本是否相同,如果相同,则会使用新的样本替代旧的样本。
以下为部分数据示例: {"prompt": "请根据下面的新闻生成摘要, 内容如下:新华社受权于18日全文播发修改后的《中华人民共和国立法法》,修改后的立法法分为“总则”“法律”“行政法规”“地方性法规、自治条例和单行条例、规章”“适用与备案审查”“附则”等6章,共计105条。
删除数据清洗任务 功能介绍 本接口用于删除数据清洗任务。 SDK调用 使用说明 本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考 SDK安装及使用流程 。
删除数据增强任务 功能介绍 本接口用于删除数据增强任务。 SDK调用 使用说明 本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考 SDK安装及使用流程 。
系统定义的 Metadata 的详细描述参见下表: 名称 类型 描述 是否可被 用户修改 Cache-Control String 下载 Object 的 Cache 设置,常见的可取值为 private、no-cache、 max-age、must-revalidate。
创建数据增强任务 功能介绍 本接口用于创建数据增强任务。 SDK调用 使用说明 本文API支持通过Python SDK、Go SDK、Java SDK 和 Node.js SDK调用,调用流程请参考 SDK安装及使用流程 。
数据目的地管理 概述 数据目的地管理功能对规则有权限进行写入操作的下游产品进行统一管理,数据目的地分为百度智能云云产品和自定义两个类型。 百度智能云云产品 用户在百度云购买、开通的存储、计算、消息队列等产品,如时序数据库TSDB、百度消息服务for Kafka等。 该类型目的地不需要用户维护,系统会直接读取当前账户有权限操作的云产品列表供选择。
已存在表被重命名,系统会将任务表删除,重命名的表识别为新表 同步的表字段被删除 选择继续同步,目的地字段传空值或者暂停数据服务。重命名字段,系统会将任务原始字段删除, 重命名为新增字段 同步的表发现新增字段 选择继续同步新增字段或忽略新增字段。 读取设置 点击读取设置旁边添加按钮,在读取列表中可以在单个同步任务中批量选择多个数据库和表进行读取,还可以在编辑阶段向任务添加更多表。
为内容编制索引时,会为每个文档计算哈希值,并将以下信息存储在记录管理器中: 文档哈希(页面内容和元数据的哈希) 写入时间 源id – 每个文档都应该在其元数据中包含信息,以便我们确定该文档的最终来源 6.3 Deletion modes 该模块还提供了 Deletion modes。它的应用场景是:将文档索引到向量数据库时,可能会删除数据库中的一些现有文档。
下图是百度智能云大数据的一个处理流程,分为四个部分,数据采集、数据存储、计算分析和数据应用。 在数据采集的这部分,通过 Kafka、日志传输服务、实时同步或者增量同步的方案,把数据从关系型的数据库如 Oracle、MySQL、SQL Server,或者半结构或者非结化的存储平台以及第三方的业务、互联网数据等等,传输到存储系统。