创建模型评估任务
更新时间:2024-01-23
功能介绍
用于创建并启动模型评估任务。
注意事项
调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
调用示例
import os
from qianfan import resources
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
resp = resources.Model.create_evaluation_task(
"test_name_only_rule",
[
{
"modelId": "am-gh0azfeb9adu",
"modelVersionId": "amv-g73j3faikzpz",
},
{
"modelId": "am-gh0axxxb9adu",
"modelVersionId": "amv-g73jxxxikzpz",
},
],
333,
{
"evalMode": "rule",
"scoreModes": [
"similarity",
"accuracy"
]
}
)
返回示例
QfResponse(code=200,
headers={...},
body={
'log_id': '1111',
'result': {
'evalId': 100,
'evalIdStr': 'ame-wjmxxxt71gfg'
}
})
参数说明
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
pending_eval_id | string | 否 | 评估任务id,示例:ame-vwgs2ybhyhfv,说明: (1)此参数仅支持已存在的编辑中的评估任务id;如果是直接新建任务,不需要填写此参数 (2)在千帆控制台-模型评估页面,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示 (3) 该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型 |
name | string | 是 | 任务名称 |
description | string | 否 | 任务描述 |
version_info | List[Dict[str, Any]] | 是 | 待评估模型版本信息列表 |
dataset_id | string | 是 | 评估数据集版本的ID,示例:17786,可以通过以下任一方式获取该字段值: · 方式一,通过调用创建数据集接口,返回的datasetId字段获取 · 方式二,在千帆控制台-数据集管理列表页面查看,如下图所示: |
eval_config | Dict[str, Any] | 是 | 评估模式配置 |
version_info说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
modelId | string | 是 | 模型ID,示例值:am-gh0azfeb9adu,说明: (1)通过以下方法获取该字段值:在千帆控制台-我的模型查看,如下图所示 (2)该字段新增支持string类型,如果之前使用的是integer类型,建议变更为string类型,后续可能将逐步废弃integer类型 |
modelVersionId | string | 是 | 模型版本ID,,示例值:amv-g73j3faikzpz,说明: (1)在千帆控制台-我的模型,点击某模型详情,在版本列表中查看,如下图所示 (2)该字段新增支持string类型,如果之前使用的是integer类型,建议变更为string类型,后续可能将逐步废弃integer类型 |
eval_config说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
evalMode | string | 是 | 评估模式,说明: (1)可选值如下 : · rule:基于规则 · model:裁判员模型 · manual:人工评估 (2)多个模式使用,拼接,示例“model,manual,rule” |
stopWordsPath | string | 否 | 基于规则的停用词表路径,说明:当evalMode参数中包含rule,即存在规则评估模式时,此字段有效,非必填 |
scoreModes | string[] | 是 | 基于规则下的评分规则选择列表。说明: (1)可选值如下: · similarity :表示相似度打分 · accuracy:表述准确率打分 (2)当evalMode参数中包含rule,即存在规则评估模式时,此字段必填 |
appId | number | 是 | 裁判员模型的应用APPID,说明: · 当evalMode参数中包含model,即存在裁判员评估模式时,此字段必填 · 在智能云千帆控制台-应用接入列表查看该字段值,如下图所示: |
prompt | dict | 是 | 裁判员评估打分模板配置,说明: · 当evalMode参数中包含model,即存在裁判员评估模式时,此字段必填 |
evaluationDimension | dict[] | 是 | 人工评估评价维度,说明: · 默认维度为满意度,不可删除 · 用户可自行添加其他维度,最多添加4个维度 · 当evalMode参数中包含manual,即存在人工评估模式时,此字段必填 |
resultDatasetStorageType | string | 否 | bos类型,说明: (1)可选值如下: · sysBos:系统bos · usrBos:用户bos (2)不填默认是系统bos |
resultDatasetStorageId | string | 否 | 用户bos的bucket |
resultDatasetRawPath | string | 否 | 用户bos用于存放数据集的路径,不包含bucket的子路径 |
prompt说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
templateContent | string | 是 | 模板内容 |
metric | string | 是 | 指标内容,替换{metric}占位符 |
steps | string | 是 | 评分步骤,用于替换{steps}占位符 |
maxScore | number | 是 | 最高分,用于替换{max_score}占位符 |
evaluationDimension说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
dimension | string | 是 | 评价维度 |
description | string | 否 | 维度的描述 |
返回参数
名称 | 类型 | 描述 |
---|---|---|
log_id | int | 请求ID |
result | dict | 请求结果 |
result说明
名称 | 类型 | 描述 |
---|---|---|
evalId | int | 评估任务id,注意:该字段后续将废弃,如需使用评估任务id,evalIdStr |
evalIdStr | string | 评估任务id |