查看模型评估详情
更新时间:2024-09-23
注意: 为提升开发者使用体验,本文内容已合并至对应API文档,请查看API鉴权及调用-模型调优-模型评估-查看模型评估详情文档;本文档已于2024年6月28日在平台文档中心下线,内容不再更新。
功能介绍
用于获得模型评估任务详情。
注意事项
调用本文API,需使用安全认证AK/SK鉴权,调用流程及鉴权介绍详见SDK安装及使用流程。
调用示例
import os
from qianfan import resources
# 使用安全认证AK/SK鉴权,通过环境变量方式初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
resp = resources.Model.get_evaluation_info(eval_id="ame-vwgsxxxhyhfv")
返回示例
QfResponse(code=200,
headers={...},
body={
'log_id': '111',
'result': {
'computeResourceConf': {
'computeResourceId': '',
'cpu': 0,
'memory': 0,
'vmNumber': 8,
'vmType': 1
},
'datasetId':111,
'datasetName':'我的数据集>sdk_trainer_ds_test2>V1',
'description':'',
'evalStandardConf': {
'evalMode':'manual',
'evaluationDimension': [{
'description': '',
'dimension': '满意度',
'maxScore': 2,
'minScore': 0
}],
'resultDatasetId':1112,
'resultDatasetImportStatus':2,
'resultDatasetName':'评估任务_model_run_14x8azdccy_结果集_eeee55',
'resultDatasetStorageType': 'usrBos',
'resultDatasetStorageId': 'test-bucket',
'resultDatasetRawPath': '/dataset',
'resultDatasetProjectType':20,
'resultDatasetReleaseStatus':0
},
'evalUnits': [{
'message': '',
'modelId': 222,
'modelIdStr':'am-t8htyzkkwdu4',
'modelName': 'm_222_111',
'modelSource': 'Train',
'modelTags': None,
'modelVersion': '1',
'modelVersionDesc': '',
'modelVersionId': 222,
'modelVersionIdStr':'amv-dd7xxx5finr9',
'state': 'Doing'
}],
'evaluationId':220,
'evaluationIdStr':'ame-hgigxxx9s7ne',
'name':'xxxx',
'state':'DoingWithManualBegin'
}
})
参数说明
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
eval_id | string | 是 | 评估任务id,示例:ame-vwgs2ybhyhfv,说明: (1)可以通过以下方式获取该字段值: · 方式一,通过调用创建模型评估任务接口,返回的字段evalIdStr获取 · 方式二,在控制台-模型评估页面,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示 (2)该字段新增支持string类型,如果之前使用的是int类型,建议变更为string类型,后续可能将逐步废弃int类型;例如之前是通过调用创建模型评估任务接口,返回的字段evalId获取,建议替换为返回的字段evalIdStr获取 |
返回参数
名称 | 类型 | 描述 |
---|---|---|
log_id | int | 请求ID |
result | dict | 请求结果 |
result说明
名称 | 类型 | 描述 |
---|---|---|
evaluationId | string | 评估任务id,注意,该字段后续可能废弃,如需使用评估任务id,请使用evaluationIdStr |
evaluationIdStr | string | 评估任务id |
name | string | 评估任务名称 |
description | string | 评估任务描述 |
state | string | 说明: · Pending:任务已提交,待调度 · Doing:任务已调度,执行中 · DoingWithManualBegin:运行中(可人工标注) · DoingWithMetricsCalculating:指标计算中(人工标注完成后,数据同步中) · Stopping:任务停止中 · Done:评估任务全部评估成功 · PartlyDone:评估任务部分评估成功 · Fail:评估任务全部失败 · Stopped:任务已全部停止 |
evalUnits | dict[] | 模型评估子任务,每个模型有一个子任务 |
datasetName | string | 评估数据集名称 |
datasetId | int | 评估数据集id |
datasetIdStr | string | 评估数据集字符串id |
evalStandardConf | dict | 评估模式配置 |
computeResourceConf | dict | 计算资源配置 |
evalUnits说明
名称 | 类型 | 描述 |
---|---|---|
modelName | string | 评估模型名称 |
modelId | integer | 模型ID,注意,该字段后续可能废弃,如需使用模型ID,请使用modelIdStr |
modelIdStr | string | 模型ID |
modelVersionId | integer | 模型版本ID,注意,该字段后续可能废弃,如需使用模型版本ID,请使用modelVersionIdStr |
modelVersionIdStr | string | 模型版本ID |
modelVersion | string | 模型版本号 |
modelSource | string | 评估模型来源,说明: · UserCreate :训练发布或平台压缩生成 · PlatformPreset:平台预置模型 |
state | string | 评估子任务状态 |
modelVersionDesc | string | 评估模型版本描述 |
message | string | 错误信息 |
modelTags | string[] | 评估模型业务标签列表 |
evalUnitId | string | 评估子任务id,用于唯一标识评估子任务 |
modelForm | string | 评估的物料类型,说明: · model:模型,旧数据(推理结果集评估功能上线前的评估任务)类型都是模型,即值为model · inferDataset:推理结果集 |
createNewInferDataset | bool | 是否需要产出推理结果集,说明: (1)模型评估全为true(推理结果集评估功能上线前的评估任务除外) (2)推理结果集评估全为false (3)旧数据(推理结果集评估功能上线前的评估任务)全为false |
inferDatasetId | string | 推理结果集id |
inferDatasetState | string | 推理结果集状态,说明 · pending:等待创建 · success: (1)如果选择已有推理结果集评估,返回success; (2)如果选择模型评估,代表新建的推理结果集记录创建成功 · failed:创建推理结果集记录失败 |
inferDatasetName | string | 推理结果集名称 |
inferDatasetStorageType | string | 推理结果集存储类型,说明: · usrBos:用户存储 · sysBos:系统存储 |
inferDatasetStorageId | string | 推理结果集存储bucket |
inferDatasetRawPath | string | 推理结果集存储路径,不包含bucket的子路径 |
inferDatasetErrMsg | string | 创建推理结果集失败时的报错信息 |
prompt | Prompt | prompt模板信息 |
params | Params | 模型推理超参 |
prompt说明
prompt模板信息如下:
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
enable | bool | 否 | 是否启用Prompt模板 |
content | string | 否 | Prompt模板内容,说明: (1)需要包含{input}标签,作为输入数据集中prompt的占位符 (2)示例,例如此字段为:"请你回答以下问题:{input}"在实际推理时,假设输入数据集中一条数据prompt为:"请给出一个人工智能的标题"最终模型推理时,会传入以下prompt:"请你回答以下问题:请给出一个人工智能的标题" |
params说明
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
temperature | float | 否 | 温度,说明: (1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定 (2)两位小数,范围 (0, 1.0],不能为0 |
top_p | float | 否 | 多样性,说明: (1)影响输出文本的多样性,取值越大,生成文本的多样性越强 (2)取值范围 [0, 1.0] |
penalty_score | float | 否 | 通过对已生成的token增加惩罚,减少重复生成的现象。说明: (1)值越大表示惩罚越大 (2)取值范围:[1.0, 2.0] |
disable_search | bool | 否 | 是否强制关闭实时搜索功能,默认false,表示不关闭 |
enable_citation | bool | 否 | 搜索溯源,开启后有概率触发搜索溯源信息 |
top_k | int | 否 | Top-K 采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明: (1)影响输出文本的多样性,取值越大,生成文本的多样性越强 (2)取值范围:正整数 |
evalStandardConf说明
名称 | 类型 | 描述 |
---|---|---|
evalMode | string | 评估模式,说明: (1)有以下评估模式 : · rule:基于规则 · model:裁判员模型 · manual:人工评估 (2)多个模式使用,拼接,示例“model,manual,rule” |
stopWordsPath | string | 基于规则模式停用词表路径 |
scoreModes | string[] | 基于规则下的评分规则选择,说明: · similarity :相似度打分 · accuracy:准确率打分 |
appId | number | 裁判员模型的应用id |
appAk | string | 裁判员应用的ak |
appSk | string | 裁判员应用的sk |
apiName | string | 裁判员应用的api名称 |
apiUrl | string | 裁判员应用的api url |
prompt | dict | 裁判员评估打分模板配置 |
resultDatasetId | string | 人工评估结果集id |
resultDatasetName | string | 人工评估结果集名称 |
resultDatasetStorageType | string | bos类型,说明: (1)可选值如下: · sysBos:系统bos · usrBos:用户bos (2)不填默认是系统bos |
resultDatasetStorageId | string | 用户bos的bucket |
resultDatasetRawPath | string | 用户bos用于存放数据集的路径,不包含bucket的子路径 |
resultDatasetProjectType | int | 人工评估结果集类型 |
resultDatasetImportStatus | int | 人工评估结果集导入状态,说明: · -1 : 未导入 · 0 : 待导入任务开始 · 1 : 导入中 · 2 : 导入完成 · 3 : 导入失败 · 4 : 导入中止 |
resultDatasetReleaseStatus | int | 人工评估结果集发布状态,说明: · 0 : 未发布 · 1 : 发布中 · 2 : 发布成功 · 3 : 发布失败 |
evaluationDimension | dict[] | 人工评估评价维度,说明: · 默认维度为满意度,不可删除 · 用户可自行添加其他维度,最多添加4个维度 |
prompt说明
裁判员评估打分模板配置如下:
名称 | 类型 | 描述 |
---|---|---|
templateName | string | 当前版本固定值为裁判员模型打分模板(含参考答案) |
templateContent | string | 模板内容 |
metric | string | 指标内容,替换{metric}占位符 |
steps | string | 评分步骤,用于替换{steps}占位符 |
maxScore | number | 最高分,用于替换{max_score}占位符 |
evaluationDimension说明
名称 | 类型 | 描述 |
---|---|---|
dimension | string | 评价维度 |
description | string | 维度的描述 |
minScore | int | 固定值为0 |
maxScore | int | 固定值为2 |
computeResourceConf说明
名称 | 类型 | 描述 |
---|---|---|
vmType | integer | 计算资源规格ID |
vmNumber | number | 计算资源数量 |
accCardType | string | 加速卡类型,私有化 |
accCardNum | number | 加速卡个数,私有化 |
cpu | number | 私有化 |
memory | number | 私有化,单位为MB |
computeResourceId | string | 私有化,资源池id |
computeResourceName | string | 私有化 |