21
【教程】百度智能云千帆大模型平台使用指南-V1.0版本(上)
大模型开发/实践案例
- SFT
- 大模型训练
- 大模型推理
2023.08.2851792看过
本篇内容为您提供了千帆大模型平台数据服务、大模型调优、大模型管理等功能具体实操步骤。
目录
一、个人账号申请
二、数据服务实践
三、大模型调优
四、大模型管理
五、大模型服务
六、插件应用
七、Prompt工程
八、RLHF训练
一、个人账号申请
用户可进入千帆大模型平台产品页开通并使用,进入百度智能云千帆大模型平台产品页。
二、数据服务实践
在数据服务当中,你可以完成prompt数据创建、数据标准、批量数据导入、批量数据处理(清洗/增强)等工作。
2.1 数据集管理与数据标注
数据标注方法有两种:
-
在线标注
-
导入已标注数据
2.1.1导入未标注数据
-
创建文本对话类型的非排序数据集
-
导入未标注数据,直接导入如下压缩包
-
导入完毕如下图所示
2.1.2数据标注
-
对导入数据进行标注,在此处输入问题答案,填写完毕以后点击右上角保存标注
-
填写标注如下所示:
2.1.3导入已标注数据
手动标注800条数据需要比较多时间,此处直接将已标注好的数据导入,代替手动标注
-
创建2个数据集,分别是训练数据集和评估数据集
-
解压素材
-
将解压后得到的2个文件分别导入上面的2个数据集
-
发布数据集
2.2数据处理
2.2.1数据清洗
-
数据清洗,现在只支持泛文本。
-
导入测试数据集,1596条,这个数据集当中有emoji。
-
导入完成以后查看数据集如下:
-
创建数据处理任务
-
选择处理后数据集,以及清洗配置
注意:处理后数据集是必选,可以使用原有数据集,新建一个版本。
-
执行数据清洗任务
-
对比清洗前后数据,可以看到emoji 😄都去掉了
清洗前
清洗后
2.2.2数据增强
三、大模型调优
产品文档参考参考:SFT调优快速手册
3.1Bloom-全量参数
RD建议训练参数如下
大概需要20分钟
查看评估报告,可以看到loss收敛
发布模型
3.2ERNIE-Bot-turbo-全量参数
使用默认训练参数即可,不需要修改
四、大模型管理
在模型管理当中找到大模型调优发布过来的模型
支持模型的评估、压缩、部署
4.1模型评估
在模型部署之前,建议可以提前做一次模型评估,在模型评估报告当中,可以批量看到模型推断结果。
注意:
-
一个账号最多支持5个评估任务并行执行。
-
评估任务所只用的数据集必须为已发布状态。
-
当前只支持Bloom模型评估,ERNIE-Bot模型评估功能待开放
4.2模型压缩
当前主要支持INT8量化压缩,压缩以后生成新的模型版本。
可以对压缩以后的模型再次进行部署。
部署量化压缩以后的模型,算力单元从原来的4降低为2。
注意:以下截图有问题,展示的还是4算力单元,其实只需要2算力单元
4.3模型部署
-
点击模型部署
-
填写服务接口地址
-
选择算力单元时长
-
计费billing
注意:如果模型的一个版本已经部署,则不能再重复部署。会提示如下。但是1个模型的不同版本可以进行在线更新。在大模型服务章节,会介绍多版本服务切换。
评论