查看模型评估任务详情
更新时间:2025-07-03
功能介绍
用于根据评估任务id,查看模型评估任务详情。
使用说明
本文API支持通过Go SDK、Java SDK和Node.js SDK调用,调用流程请参考SDK安装及使用流程。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
- 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
- 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy
SDK调用
调用示例
1import os
2from qianfan import resources
3
4# 通过环境变量初始化认证信息
5# 使用安全认证AK/SK调用,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk,如何获取请查看https://cloud.baidu.com/doc/Reference/s/9jwvz2egb
6os.environ["QIANFAN_ACCESS_KEY"] = "your_iam_ak"
7os.environ["QIANFAN_SECRET_KEY"] = "your_iam_sk"
8
9resp = resources.console.utils.call_action(
10 # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
11 "/v2/eval",
12 # 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
13 "DescribeEvalTask",
14 # 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
15 {"taskId": "ame-4kvnxxx"}
16)
17print(resp.body)
1package main
2
3import (
4 "context"
5 "fmt"
6 "os"
7
8 "github.com/baidubce/bce-qianfan-sdk/go/qianfan"
9)
10
11func main() {
12 // 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
13 os.Setenv("QIANFAN_ACCESS_KEY", "your_iam_ak")
14 os.Setenv("QIANFAN_SECRET_KEY", "your_iam_sk")
15
16 ca := qianfan.NewConsoleAction()
17
18 res, err := ca.Call(context.TODO(),
19 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
20 "/v2/eval",
21 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
22 "DescribeEvalTask",
23 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
24 map[string]interface{}{
25 "taskId": "ame-4kvnxxx",
26 })
27 if err != nil {
28 panic(err)
29 }
30 fmt.Println(string(res.Body))
31
32}
1import com.baidubce.qianfan.Qianfan;
2import com.baidubce.qianfan.model.console.ConsoleResponse;
3import com.baidubce.qianfan.util.CollUtils;
4import com.baidubce.qianfan.util.Json;
5import java.util.Map;
6
7public class Dome {
8 public static void main(String args[]){
9 // 使用安全认证AK/SK鉴权,替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
10 Qianfan qianfan = new Qianfan("your_iam_ak", "your_iam_sk");
11
12 ConsoleResponse<Map<String, Object>> response = qianfan.console()
13 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
14 .route("/v2/eval")
15 // 调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
16 .action("DescribeEvalTask")
17 // 需要传入参数的场景,可以自行封装请求类,或者使用Map.of()来构建请求Body
18 // Java 8可以使用SDK提供的CollUtils.mapOf()来替代Map.of()
19 // 请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
20 .body(CollUtils.mapOf(
21 "taskId", "ame-4kvnxxx"
22 ))
23 .execute();
24
25 System.out.println(Json.serialize(response));
26 }
27}
1import {consoleAction, setEnvVariable} from "@baiducloud/qianfan";
2
3// 使用安全认证AK/SK鉴权,通过环境变量初始化;替换下列示例中参数,安全认证Access Key替换your_iam_ak,Secret Key替换your_iam_sk
4setEnvVariable('QIANFAN_ACCESS_KEY','your_iam_ak');
5setEnvVariable('QIANFAN_SECRET_KEY','your_iam_sk');
6
7async function main() {
8 //base_api_route:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求结构-请求地址的后缀
9 //action:调用本文API,该参数值为固定值,无需修改;对应API调用文档-请求参数-Query参数的Action
10 //data:请查看本文请求参数说明,根据实际使用选择参数;对应API调用文档-请求参数-Body参数
11 const res = await consoleAction({base_api_route: '/v2/eval', action: 'DescribeEvalTask', data: {
12 "taskId": "ame-4kvnxxx"
13 });
14
15 console.log(res);
16}
17
18main();
返回示例
1{
2 'requestId': '81252b33-a63e-4231-93cb-8df1f2720a0d',
3 'result': {
4 'taskId': 'ame-4kvnxxxxx',
5 'taskName': '自动评估_停止测试0910',
6 'description': '',
7 'state': 'Succeeded',
8 'evalObjectConfig': {
9 'evalModelConfig': {
10 'versionId': 'ds-mwmk3mwkxxxxx',
11 'storageType': 'BOS',
12 'storagePath': 'bos:/aip-static/123',
13 'evalModelConfigList': [
14 {
15 'modelId': 'amv-6j6ixxxxx',
16 'isBaseline': False,
17 'promptTemplate': '',
18 'params': {}
19 },
20 {
21 'modelId': 'amv-tts8vxxxx',
22 'isBaseline': False,
23 'promptTemplate': ',
24 'params': {}
25 }
26 ]
27 }
28 },
29 'evalConfig': {
30 'evalMode': 'rule',
31 'autoRuleEvalConfig': {
32 'scoreModes': [
33 'similarity',
34 'accuracy'
35 ],
36 'stopWordList': null,
37 'stopWordsPath': '
38 }
39 },
40 'inferDatasetList': [
41 {
42 'inferDatasetId': 'ds-sueg3fqxxxxx',
43 'modelId': 'amv-6j6is3sp166h'
44 },
45 {
46 'inferDatasetId': 'ds-ecwqqjxxxxx',
47 'modelId': 'amv-tts8v6re61hp'
48 }
49 ],
50 'createTime': '2024-09-10 11:52:53',
51 'updateTime': '2024-09-10 16:52:25'
52 }
53}
1{
2 "requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
3 "result": {
4 "taskId": "ame-4kvnxxxxx",
5 "taskName": "自动评估_停止测试0910",
6 "description": "",
7 "state": "Succeeded",
8 "evalObjectConfig": {
9 "evalModelConfig": {
10 "versionId": "ds-mwmk3mwkxxxxx",
11 "storageType": "BOS",
12 "storagePath": "bos:/aip-static/123",
13 "evalModelConfigList": [
14 {
15 "modelId": "amv-6j6ixxxxx",
16 "isBaseline": false,
17 "promptTemplate": "",
18 "params": {}
19 },
20 {
21 "modelId": "amv-tts8vxxxx",
22 "isBaseline": false,
23 "promptTemplate": "",
24 "params": {}
25 }
26 ]
27 }
28 },
29 "evalConfig": {
30 "evalMode": "rule",
31 "autoRuleEvalConfig": {
32 "scoreModes": [
33 "similarity",
34 "accuracy"
35 ],
36 "stopWordList": null,
37 "stopWordsPath": ""
38 }
39 },
40 "inferDatasetList": [
41 {
42 "inferDatasetId": "ds-sueg3fqxxxxx",
43 "modelId": "amv-6j6is3sp166h"
44 },
45 {
46 "inferDatasetId": "ds-ecwqqjxxxxx",
47 "modelId": "amv-tts8v6re61hp"
48 }
49 ],
50 "createTime": "2024-09-10 11:52:53",
51 "updateTime": "2024-09-10 16:52:25"
52 }
53}
1{
2 "requestId": "81252b33-a63e-4231-93cb-8df1f2720a0d",
3 "result": {
4 "taskId": "ame-4kvnxxxxx",
5 "taskName": "自动评估_停止测试0910",
6 "description": "",
7 "state": "Succeeded",
8 "evalObjectConfig": {
9 "evalModelConfig": {
10 "versionId": "ds-mwmk3mwkxxxxx",
11 "storageType": "BOS",
12 "storagePath": "bos:/aip-static/123",
13 "evalModelConfigList": [
14 {
15 "modelId": "amv-6j6ixxxxx",
16 "isBaseline": false,
17 "promptTemplate": "",
18 "params": {}
19 },
20 {
21 "modelId": "amv-tts8vxxxx",
22 "isBaseline": false,
23 "promptTemplate": "",
24 "params": {}
25 }
26 ]
27 }
28 },
29 "evalConfig": {
30 "evalMode": "rule",
31 "autoRuleEvalConfig": {
32 "scoreModes": [
33 "similarity",
34 "accuracy"
35 ],
36 "stopWordList": null,
37 "stopWordsPath": ""
38 }
39 },
40 "inferDatasetList": [
41 {
42 "inferDatasetId": "ds-sueg3fqxxxxx",
43 "modelId": "amv-6j6is3sp166h"
44 },
45 {
46 "inferDatasetId": "ds-ecwqqjxxxxx",
47 "modelId": "amv-tts8v6re61hp"
48 }
49 ],
50 "createTime": "2024-09-10 11:52:53",
51 "updateTime": "2024-09-10 16:52:25"
52 }
53}
1{
2 requestId: '81252b33-a63e-4231-93cb-8df1f2720a0d',
3 result: {
4 taskId: 'ame-4kvnxxxxx',
5 taskName: '自动评估_停止测试0910',
6 description: '',
7 state: 'Succeeded',
8 evalObjectConfig: {
9 evalModelConfig: {
10 versionId: 'ds-mwmk3mwkxxxxx',
11 storageType: 'BOS',
12 storagePath: 'bos:/aip-static/123',
13 evalModelConfigList: [
14 {
15 modelId: 'amv-6j6ixxxxx',
16 isBaseline: false,
17 promptTemplate: '',
18 params: {}
19 },
20 {
21 modelId: 'amv-tts8vxxxx',
22 isBaseline: false,
23 promptTemplate: '',
24 params: {}
25 }
26 ]
27 }
28 },
29 evalConfig: {
30 evalMode: 'rule',
31 autoRuleEvalConfig: {
32 scoreModes: [
33 "similarity",
34 "accuracy"
35 ],
36 stopWordList: null,
37 stopWordsPath: ''
38 }
39 },
40 inferDatasetList: [
41 {
42 inferDatasetId: 'ds-sueg3fqxxxxx',
43 modelId: 'amv-6j6is3sp166h'
44 },
45 {
46 inferDatasetId: 'ds-ecwqqjxxxxx',
47 modelId: 'amv-tts8v6re61hp'
48 }
49 ],
50 createTime: '2024-09-10 11:52:53',
51 updateTime: '2024-09-10 16:52:25'
52 }
53}
请求参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
taskId | string | 是 | 评估任务ID,说明: (1)可以通过以下方式获取该字段值: · 方式一:通过调用创建模型评估任务接口,返回的字段result获取 · 方式二:在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示 ![]() |
返回参数
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result | object | 请求结果,请求成功时返回 |
result说明
名称 | 类型 | 描述 |
---|---|---|
taskId | string | 评估任务ID |
taskName | string | 评估任务名称 |
description | string | 评估任务描述 |
evalType | string | 评估类型,说明: · manual:人工评估 · auto:自动评估 |
state | string | 说明: · Queued:任务已提交,待调度 · Running:任务已调度,执行中 · RunningWithManualBegin:运行中(可人工标注) · RunningWithMetricsCalculating:指标计算中(人工标注完成后,数据同步中) · Successed:评估任务全部评估成功 · Stopping:任务停止中 · Failed:评估任务部分或全部失败 · Stopped:任务已全部停止 |
evalObjectConfig | List<object> | 模型评估对象配置 |
evalConfig | object | 评估参数配置 |
inferDatasetList | List<object> | 评估过程中产生的推理结果集列表,基于结果集的评估任务不会生成 |
createTime | string | 创建时间 |
updateTime | string | 修改时间 |
evalObjectConfig说明
名称 | 类型 | 描述 |
---|---|---|
evalModelConfig | object | 评估模型配置信息 |
evalInferDatasetConfig | object | 评估结果集配置信息 |
evalInferDatasetConfig说明
- 评估结果集对象的配置信息
名称 | 类型 | 描述 |
---|---|---|
evalInferDatasetConfigList | List<object> | 评估子对象配置列表 |
evalInferDatasetConfigList说明
名称 | 类型 | 描述 |
---|---|---|
inferDatasetId | string | 推理结果集ID |
isBaseline | bool | 启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2 |
evalModelConfig说明
- 评估模型对象的配置信息
名称 | 类型 | 描述 |
---|---|---|
versionId | string | 评估数据集版本的ID,当评估对象是模型或者服务的时候,即evalObjectType=model,此字段有效 |
storageType | string | 推理结果集存储类型,说明: (1)仅针对模型评估,用于存储评估过程中产生的推理结果集 (2)值如下: · BOS:对象存储BOS · sysStorage:平台共享存储 |
storagePath | string | 存储路径,说明:当存储类型为对象存储BOS时,即storageType=BOS,对应的完整存储路径 |
evalModelConfigList | List<object> | 评估子对象配置列表 |
evalModelConfigList说明
名称 | 类型 | 描述 |
---|---|---|
modelId | string | 模型版本ID |
promptTemplate | string | 推理Prompt,说明: (1)必须包含{input} (2)示例:你是一个好助手,请遵照{input)要求,以商务风格做出相应回复,要求语言简练,客观详尽。 |
params | object | 模型推理超参 |
isBaseline | bool | 启用GSB的时候,表示基准对象;若开启,要求待评估对象的数量为2 |
params说明
名称 | 类型 | 描述 |
---|---|---|
temperature | float | 温度,说明: (1)较高的数值会使输出更加随机,而较低的数值会使其更加集中和确定 (2)建议该参数和top_p只设置1个 (3)两位小数,范围[0.01, 1.00] |
top_p | float | 多样性,说明: (1)影响输出文本的多样性,取值越大,生成文本的多样性越强 (2)建议该参数和temperature只设置1个 (3)一位小数,取值范围[0.0, 1.0] |
penalty_score | float | 重复惩罚,用通过对已生成的token增加惩罚,减少重复生成的现象。说明: (1)值越大表示惩罚越大 (2)一位小数,取值范围[1.0, 2.0] |
system | string | 模型人设字段 |
top_k | int | 采样参数,在每轮token生成时,保留k个概率最高的token作为候选。说明: (1)影响输出文本的多样性,取值越大,生成文本的多样性越强 (2)取值范围:正整数 |
stop | List<string> | 推理应用词表 |
evalConf说明
名称 | 类型 | 描述 |
---|---|---|
evalMode | string | 评估模式,说明: 具体值如下 : · rule:基于规则 · model:裁判员模型 · manual:人工评估 · rule,model:同时支持自动规则和自动裁判员评估 |
manualEvalConfig | object | 人工评估配置 |
autoRuleEvalConfig | object | 自动规则评估配置 |
autoModelEvalConfig | object | 自动裁判员评估配置 |
manualEvalConfig说明
- 人工评估参数
名称 | 类型 | 描述 |
---|---|---|
evalDimension | List<object> | 人工评估评价维度,说明: (1)默认维度为满意度,不可删除,平台会自动内置 (2)用户可自行添加其他维度,最多添加4个维度 (3)当evalMode参数中包含manual,即存在人工评估模式时,此字段有效 |
evalDimension说明
名称 | 类型 | 描述 |
---|---|---|
dimension | string | 评价维度 |
description | string | 维度的描述 |
autoRuleEvalConfig说明
- 自动规则评估参数
名称 | 类型 | 描述 |
---|---|---|
stopWordList | List<string> | 基于规则的停用词表,说明:当evalMode参数中包含rule,即存在规则评估模式时,此字段有效 |
scoreModes | List<string> | 基于规则下的评分规则选择,说明: 具体值如下: · similarity:相似度打分 · accuracy:准确率打分 |
stopWordsPath | string | 基于规则模式停用词表文件路径 |
autoModelEvalConfig说明
- 自动裁判员评估参数
名称 | 类型 | 描述 |
---|---|---|
promptParam | object | 裁判员评估打分模板配置,说明: (1)当evalMode参数中包含model,即存在裁判员评估模式时,此字段有效 (2)用户若未指定则采用平台默认配置 |
apiName | string | 裁判员打分应用名称,裁判员打分应用默认使用EB3.5和EB4.0的主线版本的预置服务进行评估,说明: (1)当前仅开放两类名称,如下所示: · EB3.5:ERNIE-Bot · EB4.0:ERNIE-Bot-4.0 (2)不填默认是ERNIE-Bot |
promptParam说明
名称 | 类型 | 描述 |
---|---|---|
metric | string | 指标内容,替换{metric}占位符 |
steps | string | 评分步骤,用于替换{steps}占位符 |
maxScore | number | 最高分,用于替换{max_score}占位符 |
inferDatasetList说明
- 评估产生的推理结果集列表信息
名称 | 类型 | 描述 |
---|---|---|
inferDatasetId | string | 推理结果集ID |
modelId | string | 产出推理结果集的模型版本ID |