查看与管理SFT运行
更新时间:2024-09-29
在SFT任务界面,可以查看作业的详情、新建任务和删除整个作业(包括任务)。
在指定任务的详情页面,可以查看所有的模型训练作业任务状态及其他相关内容。
登录到本平台,在左侧功能列选择SFT,进入SFT主任务界面。
详情
在SFT的详情页,即可查看训练任务的列表。此界面可选择“创建训练作业”。
点击任务名称,在任务详情页可查看创建运行时的基本信息、训练配置和数据配置,详情数据的来源为创建SFT任务时填入的内容。
发布
可以指定某个运行成功的任务,发布为模型。
发布模型时,如果checkpoint保存个数大于1,增加Step的选择。默认选保存了Checkpoint的最新的Step(即最后一个Step)。如果checkpoint保存个数等于1,不显示Step的选择。
填写好如下参数后,将被我的模型所纳管。
需注意:当您发布到已有模型的新版本时,仅可以发布到和模型管理的基础模型一致的模型中。
评估报告
可以查看指定运行中心评估报告,包含评估信息的指标参数和Training Loss的曲线图。
- (1)大语言模型评估信息如下:
- BLEU 指标是NLP中机器翻译/⽂本摘要等任务常⽤的评价指标。它是基于精确率(Precision)来设计的。NLP中有个重要的概念是n-gram,指⼀个语句⾥⾯连续的n个单词组成的⽚段;BLEU-n其实就是基于n-gram的评价指标。
- rouge-N(1/2/L)-f:百分⽐。ROUGE通过将模型⽣成的摘要或者回答与参考答案(⼀般是⼈⼯⽣成的)进⾏⽐较计算,得到对应的得分。Rouge-N实际上是将模型⽣成的结果和标准结果按N-gram拆分后,计算召回率。
- Perplexity:困惑度,可以用来衡量大语言模型预测一个语言样本的能力,一个模型推理时的Perplexity数值越低,准确率也就越高,代表模型表现越好,反之亦然。
- Loss 曲线:训练集(Training)、验证集(validation)每个Step的损失。
- Embedding距离(基础模型为EB模型时):衡量两个向量相似度的度量方法。计算两段文本向量化后夹角的余弦值,值越小表示相似度越高。取值范围从0到2,0表示完全相同,1表示没有相似性,2表示完全相反。
- 编辑距离(基础模型为EB模型时):Edit distance,将一个字符串转换成另一个字符串所需的最少编辑操作次数。次数越小表示相关性越高。
- (2)文生图大模型评估信息如下:
下图以Stable-Diffusion-XL为例:
- CLIP Score:Contrastive Language-Image Pretraining (CLIP)评估自然语言和图像对之间的匹配度和相关性。值越大(接近1)代表效果越好。
- FID Score:Frechet Inception Distance(FID)借助Inception作为feature extractor, 是生成图像与真实图像之间的相似性(距离)度量。值越小代表效果越好。(文心一格不含此指标)
- Loss 曲线:训练集(Training)、验证集(validation)每个Step的损失。
训练日志
可以查看运行任务的训练情况,分为概览日志、数据处理日志和训练日志三部分,日志内容均支持下载(txt格式)。
- 概览日志:对模型训练过程中的关键步骤信息进行抽取展示。
- 数据处理日志:对模型训练过程中数据集等数据信息处理进行展示排查。
- 训练日志:对模型训练过程中的全量动作以日志的形式展示。
概览日志部分内容如下所示:
训练过程可视化
可以查看训练过程中的实时的参数变化。关于各项参数指标的定义可查看可视化指导。
删除
支持删除运行任务,运行任务一旦删除便不可恢复。