3、选择新的数据源 如果导入文件中的报表和大屏中用到了数据库类型的数据源,您需要选择这些数据源在目标报表空间中对应的新数据源。如果没有,您需要在报表空间中先创建好新的对应数据源后再进行导入操作。
Label 的主要作用是唯一标识一个导入任务,并且能够保证相同的 Label 仅会被成功导入一次。 Label 机制可以保证导入数据的不丢不重。如果上游数据源能够保证 At-Least-Once 语义,则配合 PALO 的 Label 机制,能够保证 Exactly-Once 语义。 Label 在一个数据库下具有唯一性。Label 的保留期限默认是 3 天。
导入数据 目前 PALO 支持两种数据导入方式:BOS 文件导入 和 本地文件导入。 BOS 文件导入 BOS 是百度对象存储的简称。关于如何开通和使用BOS,可以参考 这里 。 PALO 通过名为 broker 的进程读取 BOS 上的数据并导入到 PALO 存储引擎中。
data数据 名称 类型 备注 successNum int 名单导入成功条数 failedNum int 名单导入失败条数 resList obj 导入明细 resList数据 名称 类型 备注 status boolean 导入的状态,true为 成功 bool extJson string 调用方的业务随路数据, 字符串,百度侧原文回传 reason string 失败原因 taskMemberId
查看导入 Profile 用户可以通过以下命令打开会话变量 is_report_success : SET is_report_success=true; 然后提交一个 Broker Load 导入请求,并等到导入执行完成。PALO 会产生该导入的一个 Profile。Profile 包含了一个导入各个子任务、Instance 的执行详情,有助于我们分析导入瓶颈。
导入数据 创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面,可以通过以下方式导入数据: 导入未标注的数据,在线进行数据标注 直接导入标注好的数据 不论您上传无标注信息的数据或有标注信息的数据,都需要以下述格式要求进行上传。
您可以使用3种方案上传数据,分别为: 本地导入 BOS目录导入 分享链接导入 本地导入 您可以通过以下三种方式进行本地数据的导入: 以压缩包的方式上传 以TXT文本文件方式上传 以Excel文件的方式上传 通过压缩包上传时,需注意: 压缩包内的一个文本文件将作为一个样本上传。
分享链接导入的要求如下: 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接 平台已有数据集 导入无标注数据时,选择需要导入的数据集名称,可导入其不带标注的全部数据,或未标注的数据 导入已标注数据时,选择需要导入的数据集名称,可导入其某个或全部标签下的数据 准备数据集的技巧 情感倾向分析任务中,可参考以下准备数据集的技巧: 设计分类 情感倾向分析的数据集,默认只使用正向和负向两种标签的数据
导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」; 通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传 通过文本上传时,需注意: 文本文件内数据格式要求为 文本内容\n (即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,
分享链接导入的要求如下: 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接 平台已有数据集 导入无标注数据时,选择需要导入的数据集名称,可导入其不带标注的全部数据,或未标注的数据 导入已标注数据时,选择需要导入的数据集名称,可导入其某个或全部标签下的数据 准备数据集的技巧 文本分类任务中,可参考以下准备数据集的技巧: 设计分类 设计整个数据集的分类体系,即抽象出文本所需识别的标签,