查看模型评估任务详情

查看模型评估任务详情

更新时间：2026-05-14

POST

https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTask

本接口用于根据评估任务ID，查看模型评估任务详情。

权限说明

调用本文API，需符合以下权限要求，权限介绍及分配，请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限：

完全控制千帆大模型平台的权限：QianfanFullControlAccessPolicy
只读访问千帆大模型平台的权限：QianfanReadAccessPolicy
完全控制千帆大模型平台模型调优的权限：QianfanModelTuningFullControlAccessPolicy
只读访问千帆大模型平台模型调优的权限：QianfanModelTuningReadAccessPolicy

鉴权说明

调用本文API，使用“基于安全认证AK/SK”进行签名计算鉴权，即使用安全认证中的Access Key ID和Secret Access Key进行鉴权，具体鉴权认证机制参考HTTP调用鉴权说明。

请求参数

Headers 参数

除公共头域外，无其它特殊头域

Query 参数

Action string

方法名称，固定值DescribeEvalTask

必选

Body 参数

taskId string

评估任务ID，说明：
（1）可以通过以下方式获取该字段值：
· 方式一：通过调用创建模型评估任务接口，返回的字段result获取
· 方式二：在控制台-模型调优-模型评估，点击某评估任务名称打开详情页，在任务详情的基本信息中查看

必选

请求结构

POST /v2/eval?Action=DescribeEvalTask HTTP/1.1
Host: qianfan.baidubce.com
Authorization: authorization string
Content-Type: application/json

{
    "taskId": "ame-4kvnxxx"
}

示例代码

请求示例

# 替换下列示例中的Authorization值、x-bce-date值
curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTask'\
--header 'Authorization: bce-auth-v1/047abxxxxxb1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7df79xxxxxx9d811cecfbd7d11ef'\ 
--header 'Content-Type: application/json'\ 
--data '{
    "taskId": "ame-4kvnxxx"
}'

返回响应

Headers 参数

除公共头域外，无其它特殊头域

返回参数

requestId string

请求ID

可选

code string

错误码，错误时返回

可选

message string

错误信息，请求失败时返回

可选

result object {10}

请求结果，请求成功时返回

可选

显示子属性隐藏子属性

taskId string

评估任务ID

可选

taskName string

评估任务名称

可选

description string

评估任务描述

可选

evalType string

评估类型，说明：
· manual：人工评估
· auto：自动评估。可选值: manual, auto

可选

state string

说明：
· Queued：任务已提交，待调度
· Running：任务已调度，执行中
· RunningWithManualBegin：运行中（可人工标注）
· RunningWithMetricsCalculating：指标计算中（人工标注完成后，数据同步中）
· Successed：评估任务全部评估成功
· Stopping：任务停止中
· Failed：评估任务部分或全部失败
· Stopped：任务已全部停止。可选值: Queued, Running, RunningWithManualBegin, RunningWithMetricsCalculating, Successed, Stopping, Failed, Stopped

可选

evalObjectConfig object {2}

模型评估对象配置

可选

显示子属性隐藏子属性

evalModelConfig object {4}

评估模型配置信息

可选

显示子属性隐藏子属性

versionId string

评估数据集版本的ID，当评估对象是模型或者服务的时候，即evalObjectType=model，此字段有效

可选

storageType string

推理结果集存储类型，说明：
（1）仅针对模型评估，用于存储评估过程中产生的推理结果集
（2）值如下：
· BOS：对象存储BOS
· sysStorage：平台共享存储。可选值: BOS, sysStorage

可选

storagePath string

存储路径，说明：当存储类型为对象存储BOS时，即storageType=BOS，对应的完整存储路径

可选

evalModelConfigList array

评估子对象配置列表

可选

显示子属性隐藏子属性

items object {4}

显示子属性隐藏子属性

modelId string

模型版本ID

可选

promptTemplate string

推理Prompt，说明：
（1）必须包含{input}
（2）示例：你是一个好助手，请遵照{input)要求，以商务风格做出相应回复，要求语言简练，客观详尽。

可选

params object {6}

模型推理超参

可选

显示子属性隐藏子属性

temperature float

温度，说明：
（1）较高的数值会使输出更加随机，而较低的数值会使其更加集中和确定
（2）建议该参数和top_p只设置1个
（3）两位小数，范围[0.01, 1.00]

可选

top_p float

多样性，说明：
（1）影响输出文本的多样性，取值越大，生成文本的多样性越强
（2）建议该参数和temperature只设置1个
（3）一位小数，取值范围[0.0, 1.0]

可选

penalty_score float

重复惩罚，用通过对已生成的token增加惩罚，减少重复生成的现象。说明：
（1）值越大表示惩罚越大
（2）一位小数，取值范围[1.0, 2.0]

可选

system string

模型人设字段

可选

top_k integer

采样参数，在每轮token生成时，保留k个概率最高的token作为候选。说明：
（1）影响输出文本的多样性，取值越大，生成文本的多样性越强
（2）取值范围：正整数

可选

stop array

推理应用词表

可选

显示子属性隐藏子属性

items string

isBaseline boolean

启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

可选

evalInferDatasetConfig object {1}

评估结果集配置信息

可选

显示子属性隐藏子属性

evalInferDatasetConfigList array

评估子对象配置列表

可选

显示子属性隐藏子属性

items object {2}

显示子属性隐藏子属性

inferDatasetId string

推理结果集ID

可选

isBaseline boolean

启用GSB的时候，表示基准对象；若开启，要求待评估对象的数量为2

可选

evalConfig object {4}

评估参数配置

可选

显示子属性隐藏子属性

evalMode string

评估模式，具体值如下：
· rule：基于规则
· model：裁判员模型
· manual：人工评估
· rule,model：同时支持自动规则和自动裁判员评估

可选

manualEvalConfig object {1}

人工评估配置

可选

显示子属性隐藏子属性

evalDimension array

人工评估评价维度，说明：
（1）默认维度为满意度，不可删除，平台会自动内置
（2）用户可自行添加其他维度，最多添加4个维度
（3）当evalMode参数中包含manual，即存在人工评估模式时，此字段有效

可选

显示子属性隐藏子属性

items object {2}

显示子属性隐藏子属性

dimension string

评价维度

可选

description string

维度的描述

可选

autoRuleEvalConfig object {3}

自动规则评估配置

可选

显示子属性隐藏子属性

stopWordList array

基于规则的停用词表，说明：当evalMode参数中包含rule，即存在规则评估模式时，此字段有效

可选

显示子属性隐藏子属性

items string

scoreModes array

基于规则下的评分规则选择，说明：
具体值如下：
· similarity：相似度打分
· accuracy：准确率打分

可选

显示子属性隐藏子属性

items string

可选值: similarity, accuracy

stopWordsPath string

基于规则模式停用词表文件路径

可选

autoModelEvalConfig object {2}

自动裁判员评估配置

可选

显示子属性隐藏子属性

promptParam object {3}

裁判员评估打分模板配置，说明：
（1）当evalMode参数中包含model，即存在裁判员评估模式时，此字段有效
（2）用户若未指定则采用平台默认配置

可选

显示子属性隐藏子属性

metric string

指标内容，替换{metric}占位符

可选

steps string

评分步骤，用于替换{steps}占位符

可选

maxScore number

最高分，用于替换{max_score}占位符

可选

apiName string

裁判员打分应用名称，裁判员打分应用默认使用EB3.5和EB4.0的主线版本的预置服务进行评估，说明：
（1）当前仅开放两类名称，如下所示：
· EB3.5：ERNIE-Bot
· EB4.0：ERNIE-Bot-4.0
（2）不填默认是 ERNIE-Bot。可选值: EB3.5, EB4.0

可选

inferDatasetList array

评估过程中产生的推理结果集列表，基于结果集的评估任务不会生成

可选

显示子属性隐藏子属性

items object {2}

显示子属性隐藏子属性

inferDatasetId string

推理结果集ID

可选

modelId string

产出推理结果集的模型版本ID

可选

createTime string

创建时间

可选

updateTime string

修改时间

可选

JSON

{
	"requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
	"result": {
		"taskId": "ame-4kvnxxxxx",
		"taskName": "自动评估_停止测试0910",
		"description": "",
		"state": "Succeeded",
		"evalObjectConfig": {
			"evalModelConfig": {
				"versionId": "ds-mwmk3mwkxxxxx",
				"storageType": "BOS",
				"storagePath": "bos:/aip-static/123",
				"evalModelConfigList": [
					{
						"modelId": "amv-6j6ixxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					},
					{
						"modelId": "amv-tts8vxxxx",
						"isBaseline": false,
						"promptTemplate": "",
						"params": {}
					}
				]
			}
		},
		"evalConfig": {
			"evalMode": "rule",
			"autoRuleEvalConfig": {
				"scoreModes": [
					"similarity",
					"accuracy"
				],
				"stopWordList": null,
				"stopWordsPath": ""
			}
		},
		"inferDatasetList": [
			{
				"inferDatasetId": "ds-sueg3fqxxxxx",
				"modelId": "amv-6j6is3sp166h"
			},
			{
				"inferDatasetId": "ds-ecwqqjxxxxx",
				"modelId": "amv-tts8v6re61hp"
			}
		],
		"createTime": "2024-09-10 11:52:53",
		"updateTime": "2024-09-10 16:52:25"
	}
}

错误码

若请求错误，服务器将返回的JSON文本包含以下参数：

名称	描述
`requestId`	请求ID
`code`	错误码
`message`	错误描述信息，帮助理解和解决发生的错误

例如错误返回：

text

{
    "requestId":"6ba7b810-xxxc04fd430c8",
    "code":"AccessDenied",
    "message":"Access denied."
}

更多其他错误码，也可以查看错误码说明。

评价此篇文章

有帮助没帮助

百度智能云

千帆AI应用开发者中心-API参考 qianfan-api

千帆AI应用开发者中心-API参考 qianfan-api

权限说明

鉴权说明

请求参数

示例代码

返回响应

错误码