数据分析
更新时间:2024-09-19
数据分析是大模型平台面向大模型文本数据的分析,包括数据的领域类型/任务类型的分布统计和初步质量检查。帮助您更好地理解数据,为模型训练提供更准确的基础数据。
数据分析是构建高性能、高质量和全面适用性的大型语言模型的关键步骤之一。它有助于确保模型在广泛应用中表现出色,并且符合道德和法律规定,同时减少潜在的问题和挑战。
登录到本平台,进入数据分析主任务界面(只针对模型输入数据发起分析任务)。
创建任务
1.在主任务界面,需要您选择创建任务:
- 分析数据集:当前千帆大模型平台支持对文本数据进行数据分析,您选择的数据集需为平台发布的非空文本的纯文本数据集。
-
分析方法:分布统计文本数据的涉及的领域类型和任务类型等;质量检查则对字重复率、困惑度、特殊字符率等进行统计检查。
2.以上内容完成后,点击“确定”,即可进入数据分析阶段。
操作任务
当数据分析任务的状态变为“已完成”时,您可以对任务的分析结果进行详情查看和删除操作。
注意:针对未发布的数据集,新增导入的数据不纳入本次数据分析任务,数据集以创建任务时的状态为准,删除数据也不影响已经生成的分布统计结果。
详情
选择任务操作列的“详情”按钮,即可查看选择分析方式的输出结果。
- 分布统计:查看自动分析的领域类型和任务类型,并且您可以对筛选出的数据进行查看和删除。需注意:数据集发布后,不可在此界面删除。一旦删除数据,将不可恢复。
- 质量检查:输出数据分析任务的词目数、字重复率、特殊字符率等内容,如下所示:
注意:未发布的数据新增数据不再纳入质量检查分析范围,但是删除数据后,质量检查将无法查看数据内容。
删除
您可以在完成数据分析任务后,在操作列“删除”此操作,任务一旦删除,将不可恢复。