logo
20
话题头图

【教程】百度智能云千帆大模型平台使用指南-V1.0版本(上)

本篇内容为您提供了千帆大模型平台数据服务、大模型调优、大模型管理等功能具体实操步骤。
目录
一、个人账号申请
二、数据服务实践
三、大模型调优
四、大模型管理
五、大模型服务
六、插件应用
七、Prompt工程
八、RLHF训练

一、个人账号申请

用户可进入千帆大模型平台产品页开通并使用,进入百度智能云千帆大模型平台产品页

二、数据服务实践

在数据服务当中,你可以完成prompt数据创建、数据标准、批量数据导入、批量数据处理(清洗/增强)等工作。

2.1 数据集管理与数据标注

数据标注方法有两种:
  • 在线标注
  • 导入已标注数据

2.1.1导入未标注数据

  1. 创建文本对话类型的非排序数据集
  1. 导入未标注数据,直接导入如下压缩包
  1. 导入完毕如下图所示

2.1.2数据标注

  1. 对导入数据进行标注,在此处输入问题答案,填写完毕以后点击右上角保存标注
  1. 填写标注如下所示:

2.1.3导入已标注数据

手动标注800条数据需要比较多时间,此处直接将已标注好的数据导入,代替手动标注
  1. 创建2个数据集,分别是训练数据集评估数据集
  1. 解压素材
  1. 将解压后得到的2个文件分别导入上面的2个数据集
  2. 发布数据集

2.2数据处理

2.2.1数据清洗

  1. 数据清洗,现在只支持泛文本。
  2. 导入测试数据集,1596条,这个数据集当中有emoji。
  1. 导入完成以后查看数据集如下:
  1. 创建数据处理任务
  1. 选择处理后数据集,以及清洗配置
注意:处理后数据集是必选,可以使用原有数据集,新建一个版本。
  1. 执行数据清洗任务
  1. 对比清洗前后数据,可以看到emoji 😄都去掉了
清洗前
清洗后

2.2.2数据增强

三、大模型调优

产品文档参考参考:SFT调优快速手册

3.1Bloom-全量参数

RD建议训练参数如下
大概需要20分钟
查看评估报告,可以看到loss收敛
发布模型

3.2ERNIE-Bot-turbo-全量参数

使用默认训练参数即可,不需要修改

四、大模型管理

在模型管理当中找到大模型调优发布过来的模型
支持模型的评估、压缩、部署

4.1模型评估

在模型部署之前,建议可以提前做一次模型评估,在模型评估报告当中,可以批量看到模型推断结果。
注意:
  1. 一个账号最多支持5个评估任务并行执行。
  2. 评估任务所只用的数据集必须为已发布状态。
  3. 当前只支持Bloom模型评估,ERNIE-Bot模型评估功能待开放

4.2模型压缩

当前主要支持INT8量化压缩,压缩以后生成新的模型版本。
可以对压缩以后的模型再次进行部署。
部署量化压缩以后的模型,算力单元从原来的4降低为2。
注意:以下截图有问题,展示的还是4算力单元,其实只需要2算力单元

4.3模型部署

  1. 点击模型部署
  2. 填写服务接口地址
  1. 选择算力单元时长
  2. 计费billing
注意:如果模型的一个版本已经部署,则不能再重复部署。会提示如下。但是1个模型的不同版本可以进行在线更新。在大模型服务章节,会介绍多版本服务切换。
评论
用户头像