导入纯文本数据
更新时间:2024-09-29
登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。
以下为部分纯为本数据示例内容:
{"content": "千帆ModelBuilder匹配场景:智能营销、智能客服、情感沟通等需要沟通对话的场景。\n在实际生活中,针对用户需求提供快速应答,精准匹配用户需求,完成营销商拓、及时响应、正向心理辅导等内容,提升客户体验。\n具体案例:针对用户需求,输出结果。例如,用户需要平台帮忙推荐一下四大名著。"}
纯文本数据多用于特定行业方向/场景下的大规模无标注数据语料,作为后续Post-pretrain的训练输入,推荐数据量至少10亿tokens,如需试用的话,则推荐1千万tokens及以上的数据量,凸显训练效果。
导入数据
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传文本数据:
本地导入
本地导入支持两种导入格式:单文件和压缩包。
导入格式 | 格式要求 |
---|---|
单文件 | 支持文本文件类型为txt/pdf/docx/jsonl,编码仅支持UTF-8,单个文件不超过60M,单次上传限制100个文件。 |
压缩包 | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8 2. 压缩包内支持多个txt/pdf/docx/jsonl文件的上传。 |
BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入格式 | 格式要求 | 格式示例 |
---|---|---|
Bucket地址·文件导入 | 支持文本文件类型为txt/pdf/docx/jsonl,编码仅支持UTF-8,总文件不超过50G,单次上传限制1000个文件 | |
Bucket地址·目录导入 | 文件夹内文件类型支持txt/pdf/doc/docx/jsonl,文件编码仅支持UTF-8。 | ----- |
分享链接导入
请确保将全部文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制5G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 |
---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在5G以内,文件编码仅支持UTF-8。 2. 压缩包内支持多个txt/pdf/docx/jsonl文件。 |
平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 已在平台导入的非空数据集。 |
以上所有步骤完成后,即可导入数据至数据集。