Prompt评估
更新时间:2024-09-19
- 平台国内首发推出Prompt评估功能,支持用户在线进行Prompt打分及问题诊断,可多条Prompt多场景并行在线评估。
- Prompt评估可帮助用户定位Prompt语料的具体问题,并提供修改意见,配合本平台Prompt优化功能,用户可获取高质量Prompt,激发大模型推理潜能。
登录到本平台,在左侧功能列选择Prompt评估,进入Prompt评估主任务界面,按照以下步骤进行操作,即可完成Prompt的评估工作:
当前支持以下场景进行评估工作,您可根据实际需求,选择合适的评估链路。
全部推理 > 评估(已支持) | ||
全部仅评估 | ||
重新推理 > 评估(已支持) | ||
仅评估 | ||
重新推理 > 评估(已支持) | ||
仅评估 | —— |
- 选择评估推理服务 >> 2. 添加评估Prompt配置评估参数 >> 3. 编辑评估Prompt >> 4. 配置评估场景 >> 5. 评估全部 >> 6. 查看评估效果
选择评估推理服务
需要您选择平台的模型服务作为评估Prompt优劣的依据,即在此推理服务上的表现为Prompt优劣定义的标准,可在操作台左上方指定应用和服务。
关于创建应用可查看使用说明,推理服务可在预置服务中开通/终止付费。
添加评估Prompt配置评估参数
添加待评估的Prompt模板或⼿写,配置评估⽅法。
- 添加Prompt:可以添加新的被评估Prompt,或者直接添加Prompt模板。最多创建同时被评估的Prompt数量不超过3个,可以进行单个Prompt的评估或删除,新输入的Prompt也可直接保存为自制模板。
- 添加场景:新增Propmt的评估应用场景,需要输入预期生成内容,可以单独进行该场景的Prompt评估,也可以删除此场景。如设置了Prompt变量,则需在场景模块进行填写,支持每个场景填写不同的变量内容与预期生成内容
- 评估设置:设置Prompt的评估标准和变量识别符,支持开启/关闭评估总结文本分析功能。
- 1)语义相似性:基于语义理解,评估生成内容与目标生成内容的语义相似度,适用于评估创作生成类场景。
- 2)Regex匹配:正则表达式匹配,适用于评估对生成内容格式要求比较高的场景,例如代码生成的场景。
- 3)精确匹配:通过比较生成内容与目标生成内容的字符相同个数来进行评估,适用于评估数理推算、内容提取等场景。
编辑评估Prompt
可以根据需要填写Prompt内容,支持通过设定的变量参数格式来定义添加变量。
配置评估场景
对添加评估对象配置评估参数中添加的场景进行编辑,可以生成预期生成的内容,同时可以对场景进行单独评估或删除。
评估全部
以上所有动作完成后,可以选择“开始评估”,则按照应用和服务内容生成response和评估结果。
查看评估效果
获取单/多个场景下的单/多个模板评分,从评分及⽣成结果综合评估Prompt。可根据评估总结的反馈考虑进行Prompt优化或者对模型进行微调优化。