模型训练
当企业的业务类型及使用场景不同时,所需机器人的语义模型不同,为帮助企业中的AI训练工程师通过数据训练出满足自己业务需求的AI语义模型,特设置模型训练功能。通过模型训练,可以快速、灵活地按照自身的业务需求训练AI语义模型,自主完成数据模型的训练、测试。
相关名词解释
- 训练集:用来训练模型的数据
- 测试集:用来验证模型效果的数据
- 模型版本:提交训练任务之后自动生成的模型版本号
- 添加问答库:采样问答库中的数据作为负例数据参与意图模型训练,优化意图和FAQ缠绕问题
- 使用深度模型:融合多模型算法,提升模型的准确率,但会增加模型训练所需的时间
- 数据增强:为语料较少的意图自动生成一些示例以参加模型训练
- 数据平衡:减少不同意图语料数量差异带来的影响
- 训练轮数:迭代一遍训练集算一轮;轮数越多,时间越长,效果越好,当训练轮数较多时容易产生过拟合(在训练的数据集上表现好,其他数据不好),训练轮数少会导致模型效果不好;默认建议值:20
- 迭代样本量:每次迭代更新模型参数所用样本数量;默认建议值:8
- 正则化:目的:减少泛化误差,正则化方法是在训练数据不够多时,或者over training时,常常会导致过拟合(overfitting)。这时向原始模型引入额外信息,以便防止过拟合和提高模型泛化性能的一类方法的统称;默认建议值:0.0001
- 学习率:学习率决定了参数每次更新的幅度,如果学习率过大,那么可能导致参数在极优值的两侧来回移动,如果学习率过小,训练时间越长,建议在合理的区间内设置学习率;默认建议值:0.001
- 优化算法:模型参数学习方法;默认建议值:MiniBatchSGDUpdater
意图模型管理
对已经创建的模型进行增、删、查、下载、发布、上线操作。
添加训练模型
点击按钮添加训练模型。
添加必填字段模型备注,限制在20个字符内。
点击“高级设置”,可设置模型训练规则。该部分为非必选项目,其中模型算法会默认选中NGD定制模型,提交后开始训练模型。高级设置若为修改,则会按照默认值进行训练。
点击删除,二次确认后可删除训练模型,当模型正在训练中、已发布到测试环境、已发布到正式环境时不可删除。
若训练数据集没有改变,会给出提示“数据未发生变化不需要重复训练”。
查看详情
详情查看
点击“详情”进入详情查看页面。
查看基本信息,页面展示了训练模型的基本信息,包括:模型版本、模型备注、使用状态、训练集数量、创建人、创建时间、训练详情。
生效
点击“生效到测试环境”,模型进入测试环境。生效此版本到测试环境时,若已存在生效版本,生效该版本时会替换之前版本。
上线
模型生效到测试环境后,可选择将其部署到正式环境。部署成功后,正式环境将会使用该意图模型进行意图识别。
模型验证
选择测试集对模型进行检测(模型必须生效后方可检测),点击“马上创建”,选择测试集,点击确定,即可生成一条测试记录。
在测试记录中会展示:测试集名称、测试状态、测试集数量、准确率、召回率、测试人、创建时间、操作,下载的操作结果为excel文件。
点击“模型测一测”,使用单条数据对模型进行简单测试,测试框内会立刻展示意图识别情况。
FAQ问答模型管理
类似于意图模型管理,您可以对问答模型进行增、删、查、下载、发布和上线等操作。
不过需要注意的是,问答模型训练不支持选择算法,将会以默认算法进行训练。
与意图模型一样,也可以对问答模型进行测试。以查看整体模型的召回识别情况,以此来评估问答相似问、问答模板等语料维护的效果。
测试集管理
上传测试集:点击“上传测试集”,选择文件点击上传。
对已经上传的测试集,可进行“删除”和“下载”操作。