导入纯文本数据
更新时间:2024-12-05
登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。
数据格式说明
纯文本:特定领域的大规模无标注数据。适用于模型精调的Post-pretrain自监督预训练,作为后续Post-pretrain的训练输入,推荐数据量至少10亿tokens,如需试用,则推荐1千万tokens及以上的数据量,凸显训练效果。
- docx格式
千帆大模型平台
数据服务
用户可集中纳管大模型开发应用各阶段的基础数据,并通过智能化标注、多样化处理等手段,提升数据准备的质量与效率,为平台全流程工具链提供数据服务。
大模型训练
用户自定义创建大模型训练,不断调优迭代和RLHF训练,持续推动模型向实际场景聚焦,提升模型精准度。
- jsonl格式
{"content": "百度智能云千帆大模型平台(以下简称千帆或千帆大模型平台)是面向企业开发者的一站式..."}
数据文件要求
文件类型 | 具体要求 |
---|---|
压缩包 |
|
共享链接 |
|
文本文件 |
|
数据导入方式
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传文本数据:本地导入、BOS导入、分享链接导入、平台已有数据集。
导入方式 | 格式要求 |
---|---|
本地导入 |
|
BOS导入 |
|
分享链接导入 |
|
平台已有数据集 |
|
以上所有步骤完成后,即可导入数据至数据集。