模型训练
更新时间:2024-10-29
当企业的业务类型及使用场景不同时,所需机器人的语义模型不同,为帮助企业中的AI训练工程师通过数据训练出满足自己业务需求的AI语义模型,特设置模型训练功能。通过模型训练,可以快速、灵活地按照自身的业务需求训练AI语义模型,自主完成数据模型的训练、测试。
企业版提供模型训练功能,根据当前生效的知识(目前只支持意图)可以训练多个版本的语义解析模型,以达到最佳的语义理解效果。根据知识的变化,可以训练多个版本模型,选择一个进行生效,并可以上传测试集验证模型效果
相关名词解释
- 训练集:用来训练模型的数据
- 测试集:用来验证模型效果的数据
- 模型版本:提交训练任务之后自动生成的模型版本号
- 添加问答库:采样问答库中的数据作为负例数据参与意图模型训练,优化意图和FAQ缠绕问题
- 数据增强:为语料较少的意图自动生成一些示例以参加模型训练
- 数据平衡:减少不同意图语料数量差异带来的影响
- 训练轮数:迭代一遍训练集算一轮;轮数越多,时间越长,效果越好,当训练轮数较多时容易产生过拟合(在训练的数据集上表现好,其他数据不好),训练轮数少会导致模型效果不好;默认建议值:20
- 迭代样本量:每次迭代更新模型参数所用样本数量;默认建议值:8
意图模型管理
对已经创建的模型进行增、删、查、下载、发布、上线操作。
添加训练模型
- 点击按钮添加训练模型。
- 添加必填字段模型备注,限制在20个字符内。
- 点击“高级设置”,可设置模型训练规则。该部分为非必选项目,其中模型算法会默认选中NGD定制模型,提交后开始训练模型。高级设置若未修改,则会按照默认值进行训练。
- 点击删除,二次确认后可删除训练模型,当模型正在训练中、已发布到测试环境、已发布到正式环境时不可删除。
- 若训练数据集没有改变,会给出提示“数据未发生变化不需要重复训练”。
查看详情
详情查看
- 点击“详情”进入详情查看页面。
- 查看基本信息,页面展示了训练模型的基本信息,包括:模型版本、模型备注、使用状态、训练集数量、创建人、创建时间、训练详情。
生效
点击“生效到测试环境”,模型进入测试环境。生效此版本到测试环境时,若已存在生效版本,生效该版本时会替换之前版本。
上线
模型生效到测试环境后,可选择将其部署到正式环境。部署成功后,正式环境将会使用该意图模型进行意图识别。
模型验证
- 选择测试集对模型进行检测(模型必须生效后方可检测),点击“马上创建”,选择测试集,点击确定,即可生成一条测试记录。
在测试记录中会展示:测试集名称、测试状态、测试集数量、准确率、召回率、测试人、创建时间、操作,下载的操作结果为excel文件。
- 点击“模型测一测”,使用单条数据对模型进行简单测试,测试框内会立刻展示意图识别情况。
问答模型管理
类似于意图模型管理,您可以对问答模型进行增、删、查、下载、发布和上线等操作。
模型训练增加高级设置,包含模型算法和高级选项;
-
模型算法包含以下两种模型支持选择:
- 通用排序模型:经典模型,训练速度较快,效果稳定
- 个性化排序模型:融入百度最新预训练技术,对用户数据深度适配,训练时间较长,效果更佳(推荐使用)
- 高级选项:支持勾选向量检索,该能力可提高模型效果,但训练耗时会有少量增加;
与意图模型一样,也可以对问答模型进行测试。以查看整体模型的召回识别情况,以此来评估问答相似问、问答模板等语料维护的效果。