查看模型评估任务详情
本接口用于根据评估任务id,查看模型评估任务详情。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
- 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
- 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID和Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求参数
方法名称,固定值DescribeEvalTask
评估任务ID,说明:
(1)可以通过以下方式获取该字段值:
· 方式一:通过调用创建模型评估任务接口,返回的字段result获取
· 方式二:在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示
POST /v2/eval?Action=DescribeEvalTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json
{
"taskId": "ame-4kvnxxx"
}
示例代码
# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTask'\
--header 'Authorization: bce-auth-v1/047abxxxxxb1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7df79xxxxxx9d811cecfbd7d11ef'\
--header 'Content-Type: application/json'\
--data '{
"taskId": "ame-4kvnxxx"
}'
返回响应
请求ID
错误码,错误时返回
错误信息,请求失败时返回
请求结果,请求成功时返回
显示子属性
隐藏子属性
评估任务ID
评估任务名称
评估任务描述
评估类型,说明:
· manual:人工评估
· auto:自动评估。可选值: manual, auto
说明:
· Queued:任务已提交,待调度
· Running:任务已调度,执行中
· RunningWithManualBegin:运行中(可人工标注)
· RunningWithMetricsCalculating:指标计算中(人工标注完成后,数据同步中)
· Successed:评估任务全部评估成功
· Stopping:任务停止中
· Failed:评估任务部分或全部失败
· Stopped:任务已全部停止。可选值: Queued, Running, RunningWithManualBegin, RunningWithMetricsCalculating, Successed, Stopping, Failed, Stopped
模型评估对象配置
显示子属性
隐藏子属性
评估模型配置信息
显示子属性
隐藏子属性
评估数据集版本的ID,当评估对象是模型或者服务的时候,即evalObjectType=model,此字段有效
推理结果集存储类型,说明:
(1)仅针对模型评估,用于存储评估过程中产生的推理结果集
(2)值如下:
· BOS:对象存储BOS
· sysStorage:平台共享存储。可选值: BOS, sysStorage
存储路径,说明:当存储类型为对象存储BOS时,即storageType=BOS,对应的完整存储路径
评估子对象配置列表
显示子属性
隐藏子属性
显示子属性
隐藏子属性
模型版本ID
推理Prompt,说明:
(1)必须包含{input}
(2)示例:你是一个好助手,请遵照{input)要求,以商务风格做出相应回复,要求语言简练,客观详尽。
模型推理超参
显示子属性
隐藏子属性
温度,说明:
(1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定
(2)建议该参数和top_p只设置1个
(3)两位小数,范围[0.01, 1.00]
多样性,说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)建议该参数和temperature只设置1个
(3)一位小数,取值范围[0.0, 1.0]
重复惩罚,用通过对已生成的token增加惩罚,减少重复生成的现象。说明:
(1)值越大表示惩罚越大
(2)一位小数,取值范围[1.0, 2.0]
模型人设字段
采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明:
(1)影响输出文本的多样性,取值越大,生成文本的多样性越强
(2)取值范围:正整数
推理应用词表
显示子属性
隐藏子属性
启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2
评估结果集配置信息
显示子属性
隐藏子属性
评估子对象配置列表
显示子属性
隐藏子属性
显示子属性
隐藏子属性
推理结果集ID
启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2
评估参数配置
显示子属性
隐藏子属性
评估模式,具体值如下 :
· rule:基于规则
· model:裁判员模型
· manual:人工评估
· rule,model:同时支持自动规则和自动裁判员评估
人工评估配置
显示子属性
隐藏子属性
人工评估评价维度,说明:
(1)默认维度为满意度,不可删除,平台会自动内置
(2)用户可自行添加其他维度,最多添加4个维度
(3)当evalMode参数中包含manual,即存在人工评估模式时,此字段有效
显示子属性
隐藏子属性
显示子属性
隐藏子属性
评价维度
维度的描述
自动规则评估配置
显示子属性
隐藏子属性
基于规则的停用词表,说明:当evalMode参数中包含rule,即存在规则评估模式时,此字段有效
显示子属性
隐藏子属性
基于规则下的评分规则选择,说明:
具体值如下:
· similarity:相似度打分
· accuracy:准确率打分
显示子属性
隐藏子属性
可选值: similarity, accuracy
基于规则模式停用词表文件路径
自动裁判员评估配置
显示子属性
隐藏子属性
裁判员评估打分模板配置,说明:
(1)当evalMode参数中包含model,即存在裁判员评估模式时,此字段有效
(2)用户若未指定则采用平台默认配置
显示子属性
隐藏子属性
指标内容,替换{metric}占位符
评分步骤,用于替换{steps}占位符
最高分,用于替换{max_score}占位符
裁判员打分应用名称,裁判员打分应用默认使用EB3.5和EB4.0的主线版本的预置服务进行评估,说明:
(1)当前仅开放两类名称,如下所示:
· EB3.5:ERNIE-Bot
· EB4.0:ERNIE-Bot-4.0
(2)不填默认是 ERNIE-Bot。可选值: EB3.5, EB4.0
评估过程中产生的推理结果集列表,基于结果集的评估任务不会生成
显示子属性
隐藏子属性
显示子属性
隐藏子属性
推理结果集ID
产出推理结果集的模型版本ID
创建时间
修改时间
{
"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
"result": {
"taskId": "ame-4kvnxxxxx",
"taskName": "自动评估_停止测试0910",
"description": "",
"state": "Succeeded",
"evalObjectConfig": {
"evalModelConfig": {
"versionId": "ds-mwmk3mwkxxxxx",
"storageType": "BOS",
"storagePath": "bos:/aip-static/123",
"evalModelConfigList": [
{
"modelId": "amv-6j6ixxxxx",
"isBaseline": false,
"promptTemplate": "",
"params": {}
},
{
"modelId": "amv-tts8vxxxx",
"isBaseline": false,
"promptTemplate": "",
"params": {}
}
]
}
},
"evalConfig": {
"evalMode": "rule",
"autoRuleEvalConfig": {
"scoreModes": [
"similarity",
"accuracy"
],
"stopWordList": null,
"stopWordsPath": ""
}
},
"inferDatasetList": [
{
"inferDatasetId": "ds-sueg3fqxxxxx",
"modelId": "amv-6j6is3sp166h"
},
{
"inferDatasetId": "ds-ecwqqjxxxxx",
"modelId": "amv-tts8v6re61hp"
}
],
"createTime": "2024-09-10 11:52:53",
"updateTime": "2024-09-10 16:52:25"
}
}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
| 名称 | 描述 |
|---|---|
requestId |
请求ID |
code |
错误码 |
message |
错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
{
"requestId":"6ba7b810-xxxc04fd430c8",
"code":"AccessDenied",
"message":"Access denied."
}
更多其他错误码,也可以查看错误码说明。
