您可以使用4种方案上传文本分类的数据,分别为: 本地导入 BOS目录导入 分享链接导入 平台已有数据集 本地导入 您可以通过以下三种方式进行本地数据的导入: 以压缩包的方式上传 以TXT文本文件方式上传 以Excel文件的方式上传 以压缩包方式上传 如果您想上传的数据为压缩包,请根据您的数据是否已标注,按照以下格式要求完成数据上传。
您可以使用3种方案上传数据,分别为: 本地导入 BOS目录导入 分享链接导入 本地导入 您可以通过以下三种方式进行本地数据的导入: 以压缩包的方式上传 以TXT文本文件方式上传 以Excel文件的方式上传 通过压缩包上传时,需注意: 压缩包内每一个txt文件为一个样本,文本文件编码须为UTF-8,每个样本字符数不得超过512个字符(包括汉字、数字、符号等),超出将被截断 压缩包的格式为zip;压缩包最大不超过
导入方式,分别为「本地导入」、「BOS目录导入」、「分享链接导入」、「平台已有数据集」; 通过本地导入时,可通过excel文件、TXT文件、压缩包形式上传 通过文本上传时,需注意: 文本文件内数据格式要求为 文本内容\n (即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,
压缩包格式为.zip格式,压缩包内文件类型支持txt,编码仅支持UTF-8 每组数据的数建议不超过512个字符,超出将被截断 通过TXT文本上传时,需注意: 文本文件内数据格式要求为 文本内容\n (即每行一个样本,使用回车换行),每一行表示一组数据,每组数据的数建议不超过512个字符,超出将被截断 文本文件类型支持txt,编码仅支持UTF-8,单次上传限制100个文本文件,最多可上传100万个文件
n生成摘要如下: } 数据文件要求 文件类型 格式要求 jsonl文件 文件内单条数据格式要求为[{ prompt :“prompt内容”}]。 xlsx文件 在表格中为一列,由表头定义prompt。 csv文件 在表格中为一列,由表头定义prompt。 txt文件 格式要求为 prompt内容 。 压缩包 支持 tar.gz/zip 压缩包。 文件编码支持UTF-8。
创建数据集并导入 1. 创建数据集 您可以在左侧导航栏中中,选择“数据总览”并点击主内容区域的按钮「创建数据集」,默认数据类型为“文本”,标注类型为“文本创作”。 2.导入文本数据 进入到新创建的文本创作数据集中。您可以在文本创作任务的数据集中,上传带有标注信息的数据,和无标注信息的数据。 在数据导入方式选择本地数据集,根据您已有的数据存储格式,选择上传格式。
100个文件,最多可上传100万个文本文件 每行样本最长不能超过512个汉字(字符),文件编码方式:UTF-8 以Excel文件上传 Excel文件上传数据格式为每行是一个样本,每个数据文本内容的字符数建议不超过512个,超出将被截断 文件类型支持xlsx格式,单次上传限制100个文件 需确保上传的样本在sheet1中,且数据都在首列 BOS目录导入 需选择Bucket地址与对应的文件夹地址。
txt文件 对话生成的数据序列格式要求为 prompt 。 文件内单条数据格式要求为 prompt内容 [[ response内容 ]]。 - 压缩包 支持 tar.gz/zip 压缩包。 文件编码支持UTF-8。 数据导入方式 创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
基于导入的批量删除 基于导入的批量删除 删除操作可以视为数据更新的一种特殊形式。在主键模型(Unique Key)表上,PALO 支持通过导入数据时添加删除标记来实现删除操作。 相比 DELETE 语句,使用删除标记在以下场景中具有更好的易用性和性能优势: CDC 场景 :在从 OLTP 数据库同步数据到 PALO 时,binlog 中的 Insert 和 Delete 操作通常交替出现。
基于导入的批量删除 基于导入的批量删除 删除操作可以视为数据更新的一种特殊形式。在主键模型(Unique Key)表上,Doris 支持通过导入数据时添加删除标记来实现删除操作。 相比 DELETE 语句,使用删除标记在以下场景中具有更好的易用性和性能优势: CDC 场景:在从 OLTP 数据库同步数据到 Doris 时,binlog 中的 Insert 和 Delete 操作通常交替出现。