导入Prompt+Chosen或Rejected数据
更新时间:2024-11-04
登录到千帆ModelBuilder操作台,在左侧功能列选通用数据集,进入主任务界面。
Prompt+Chosen/Rejected数据多用于直接偏好优化,作为后续KTO的训练输入,推荐数据量至少100条数据,才能显现训练效果。
以下为有标注样例(多轮对话)展示:
[{"system":"你是一个人工智能助手。","user":"生成一个关于人工智能的标题吧。","assistant":"好的,给您生成一些标题:1) 人工智能的未来与挑战; 2) 机器学习在现代生活中的应用; 3) 从AI发展历程看未来发展趋势。"},
{"user":"可以再给我一些具体的例子吗?","assistant":"当然,人工智能正在各个行业带来深远影响。以下是一些具体的例子:\n1. ** 医疗保健: ** AI用于医学影像分析, 帮助医生快速诊断疾病。 它还可以预测疾病风险, 个性化治疗方案, 并改善医疗保健的效率和精确度。\n2. ** 金融服务: ** 人工智能被用于制定风险模型, 预测市场走势, 进行高频交易, 以及提供智能投资建议。\n3. ** 制造业: ** 自动化和智能机器人改变了生产线, 提高了生产效率和产品质量。 AI还用于预测维护, 减少设备损坏和停机时间。\n4. ** 教育: ** AI个性化学习, 根据学生的学习风格和进度制定课程。 它还能提供定制化的教学资源和智能辅导。\n5. ** 交通运输: ** 自动驾驶汽车利用人工智能技术, 提高了道路安全, 并在未来可能改变整个交通系统。\n这些是人工智能在各个领域带来革命性变化的一些例子, 它们正在改变我们的生活方式, 提高效率, 并为未来开辟新的可能性。"},
{"user":"会导致这些行业大量失业么?","chosen":"是的"}]
平台支持上传多轮对话,但每个样例中的对话限制不超过150轮,超出部分将会被截断。
导入数据
创建数据集完成后,在数据集管理页面中,找到该数据集,点击右侧操作列下的“导入”按钮,即可进入导入数据页面。
您可以使用以下方案上传文本数据:
本地导入
本地导入支持两种导入格式:单文件和压缩包。
导入格式 | 格式要求 |
---|---|
单文件 | 支持文本文件类型为txt/pdf/doc/docx/jsonl,编码仅支持UTF-8,单个文件不超过1G,单次上传限制100个文件。查看示例 |
压缩包 | 1. 上传文件要求为zip/tar.gz格式压缩包,同时压缩前源文件大小1G以内,文件编码仅支持UTF-8 2. 压缩包内支持jsonl文件的上传。 |
BOS导入
选择BOS文件导入,需要指定到文件;选择BOS目录导入,需要指定到文件的路径。
导入格式 | 格式要求 |
---|---|
Bucket地址·文件导入 | 支持文本文件类型为jsonl,编码仅支持UTF-8,总文件不超过50G,单次上传限制1000个文件 |
Bucket地址·目录导入 | 文件夹内文件类型支持jsonl,文件编码仅支持UTF-8。 |
分享链接导入
请确保将全部文本文件保存至同一压缩包,压缩包仅支持zip/tar.gz格式,压缩前源文件大小限制1G以内
需输入链接地址。分享链接导入的要求如下:
- 仅支持来自百度BOS、阿里OSS、腾讯COS、华为OBS的共享链接。
导入方式 | 格式要求 |
---|---|
输入链接地址导入 | 1. 链接地址要求为zip/tar.gz格式压缩包,同时压缩前源文件大小在1G以内,文件编码仅支持UTF-8。 2. 压缩包内支持jsonl文件。 |
平台已有数据集
导入方式 | 格式要求 | 数据集要求 |
---|---|---|
选择数据集 | 仅支持选择未发布的数据集版本 | 已在平台导入的非空数据集。 |
以上所有步骤完成后,即可导入数据至数据集。