导入数据源 登录管理控制台。 在页面左上角选择“产品导览 > 专有云 > 广目混合云管理平台 > 存储资源 > 数据湖存储加速工具 > 数据源”,进入Rapidfs数据源列表页面。 在RapidFS数据源列表页面顶部选择要导入数据源的资源池和地域,单击“导入数据源”,弹出导入数据源窗口。 在导入数据源窗口配置数据源基本信息。
bos_accesskey 和 bos_secret_accesskey 可在公有云页面右上角点击 账户头像 -> 安全认证 获取。 bos_endpoint 和 BOS Bucket 所在地域有关,可查阅 访问域名 获取。 注:外部表中的数据也可以通过 SELECT 直接查询,但效率较低,推荐导入到 PALO 中后在执行查询。 导入数据 使用以下命令从外部表导入数据到内部表。
导入数据 创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面,可以通过以下方式导入数据: 导入未标注的数据,在线进行数据标注 直接导入标注好的数据 不论您上传无标注信息的数据或有标注信息的数据,都需要以下述格式要求进行上传。
您可以使用3种方案上传数据,分别为: 本地导入 BOS目录导入 分享链接导入 本地导入 您可以通过以下三种方式进行本地数据的导入: 以压缩包的方式上传 以TXT文本文件方式上传 以Excel文件的方式上传 通过压缩包上传时,需注意: 压缩包内的一个文本文件将作为一个样本上传。
分享链接导入的要求如下: 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接 平台已有数据集 导入无标注数据时,选择需要导入的数据集名称,可导入其不带标注的全部数据,或未标注的数据 导入已标注数据时,选择需要导入的数据集名称,可导入其某个或全部标签下的数据 准备数据集的技巧 情感倾向分析任务中,可参考以下准备数据集的技巧: 设计分类 情感倾向分析的数据集,默认只使用正向和负向两种标签的数据
导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」; 通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传 通过文本上传时,需注意: 文本文件内数据格式要求为 文本内容\n (即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,
分享链接导入的要求如下: 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接 平台已有数据集 导入无标注数据时,选择需要导入的数据集名称,可导入其不带标注的全部数据,或未标注的数据 导入已标注数据时,选择需要导入的数据集名称,可导入其某个或全部标签下的数据 准备数据集的技巧 文本分类任务中,可参考以下准备数据集的技巧: 设计分类 设计整个数据集的分类体系,即抽象出文本所需识别的标签,
您可以使用3种方案上传数据,分别为: 本地导入 BOS目录导入 分享链接导入 本地导入 您可以通过以下三种方式进行本地数据的导入: 以压缩包的方式上传 以TXT文本文件方式上传 以Excel文件的方式上传 通过压缩包上传时,需注意: 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断 压缩包的格式为zip;压缩包最大不超过
导入数据 创建数据集后,在「数据总览」页面中,找到该数据集,点击右侧操作列下的「导入」,即可进入导入数据页面。
创建数据集并导入 1. 创建数据集 您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,默认数据类型为“文本”,标注类型为“文本创作”。 2.导入文本数据 进入到新创建的文本创作数据集中。您可以在文本创作任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。 在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式。