查看模型评估任务报告
更新时间:2025-07-01
接口描述
本接口用于根据评估任务ID,查看模型评估任务报告。
权限说明
调用本文API,需符合以下权限要求,权限介绍及分配,请查看角色与权限控制列表、账号创建与权限分配。需具有以下任一权限:
- 完全控制千帆大模型平台的权限:QianfanFullControlAccessPolicy
- 只读访问千帆大模型平台的权限:QianfanReadAccessPolicy
- 完全控制千帆大模型平台模型调优的权限:QianfanModelTuningFullControlAccessPolicy
- 只读访问千帆大模型平台模型调优的权限:QianfanModelTuningReadAccessPolicy
鉴权说明
调用本文API,使用“基于安全认证AK/SK”进行签名计算鉴权,即使用安全认证中的Access Key ID和Secret Access Key进行鉴权,具体鉴权认证机制参考HTTP调用鉴权说明。
请求结构
Bash
1POST /v2/eval?Action=DescribeEvalTaskReport HTTP/1.1
2Host: qianfan.baidubce.com
3Authorization: authorization string
4Content-Type: application/json
5
6{
7 "taskId": "ame-4kvnxxx"
8}
请求头域
除公共头域外,无其它特殊头域。
请求参数
- Query参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
Action | string | 是 | 方法名称,固定值DescribeEvalTaskReport |
- Body参数
名称 | 类型 | 必填 | 描述 |
---|---|---|---|
taskId | string | 是 | 评估任务ID,说明: (1)可以通过以下方式获取该字段值: · 方式一:通过调用创建模型评估任务接口,返回的字段result获取 · 方式二:在控制台-模型调优-模型评估,点击某评估任务名称打开详情页,在任务详情的基本信息中查看,如下图所示 ![]() |
响应头域
除公共头域外,无其它特殊头域。
响应参数
名称 | 类型 | 描述 |
---|---|---|
requestId | string | 请求ID |
code | string | 错误码,错误时返回 |
message | string | 错误信息,请求失败时返回 |
result | List<object> | 请求结果,请求成功时返回 |
result说明
名称 | 类型 | 描述 |
---|---|---|
taskId | string | 评估任务ID |
taskName | string | 评估任务名称 |
modelId | string | 模型版本ID |
inferDatasetId | string | 当前评估子任务使用的推理结果集id |
evalObjectType | string | 评估的数据类型,说明: · model:模型推理 · inferDataset:推理结果集 |
evalMode | string | 评估模式,具体值如下 : · rule:基于规则 · model:裁判员模型 · manual:人工评估 · rule,model:同时支持自动规则和自动裁判员评估 |
effectMetric | object | 效果指标 |
effectMetric说明
名称 | 类型 | 描述 |
---|---|---|
accuracy | number | 基于规则-准确率打分 |
f1Score | number | 基于规则-准确率打分 |
rouge_1 | number | 基于规则-相似度打分 |
rouge_2 | number | 基于规则-相似度打分 |
rouge_l | number | 基于规则-相似度打分 |
bleu4 | number | 基于规则-相似度打分 |
avgJudgeScore | number | 裁判员打分-均值 |
stdJudgeScore | number | 裁判员打分-标准差 |
medianJudgeScore | number | 裁判员打分-中位数 |
scoreDistribution | map[string]int | 裁判员打分-分值分布,说明: (1)含有从最小值到最大值的所有分数 (2)-1为无效打分 |
manualAvgScore | number | 平均分 |
goodCaseProportion | number | Good case占比 |
subjectiveImpression | string | 人工打分-主观印象 |
manualScoreDistribution | List<object> | 维度分数分布 |
gsbDistribution | map[string]int | GSB打分分布 |
manualScoreDistribution说明
名称 | 类型 | 描述 |
---|---|---|
dimension | string | 评价维度 |
scoreDistribution | map[string]int | 维度分值分布,key为分值,value为分值的个数 |
请求示例
Bash
1curl -i --location 'https://qianfan.baidubce.com/v2/eval?Action=DescribeEvalTaskReport'\
2--header 'Authorization: bce-auth-v1/047ab241ba****28b1ac/2024-09-20T02:31:36Z/1800/host;x-bce-date/badcdfc045033df7d****1ef'\
3--header 'Content-Type: application/json'\
4--data '{
5 "taskId": "ame-4kvnxxxxx"
6}'
响应示例
JSON
1{
2 "requestId": "d60a00c4-a724-4851-96e5-b4dc3b258ca0",
3 "result": [
4 {
5 "taskId": "ame-4kvnxxxx",
6 "taskName": "自动评估_停止测试0910",
7 "modelId": "amv-tts8v6re61hp",
8 "inferDatasetId": "ds-ecwqqjb787dk1vm6",
9 "evalObjectType": "service",
10 "evalMode": "rule",
11 "effectMetric": {
12 "accuracy": 0,
13 "f1Score": 0.34983957,
14 "rouge_1": 0.33882716,
15 "rouge_2": 0.15241386,
16 "rouge_l": 0.26100817,
17 "bleu4": 0.09671887,
18 "avgJudgeScore": 0,
19 "stdJudgeScore": 0,
20 "medianJudgeScore": 0,
21 "scoreDistribution": null,
22 "manualAvgScore": 0,
23 "goodCaseProportion": 0,
24 "subjectiveImpression": "",
25 "manualScoreDistribution": null,
26 "gsbDistribution": null
27 }
28 },
29 {
30 "taskId": "ame-4kvnxxxx",
31 "taskName": "自动评估_停止测试0910",
32 "modelId": "amv-6j6is3sp166h",
33 "inferDatasetId": "ds-sueg3fqnd14h9kqt",
34 "evalObjectType": "service",
35 "evalMode": "rule",
36 "effectMetric": {
37 "accuracy": 0,
38 "f1Score": 0.34691638,
39 "rouge_1": 0.32689363,
40 "rouge_2": 0.13487022,
41 "rouge_l": 0.25140443,
42 "bleu4": 0.087691635,
43 "edit_dist": 331.97778,
44 "embedding_dist": 0.16930991,
45 "avgJudgeScore": 0,
46 "stdJudgeScore": 0,
47 "medianJudgeScore": 0,
48 "scoreDistribution": null,
49 "manualAvgScore": 0,
50 "goodCaseProportion": 0,
51 "subjectiveImpression": "",
52 "manualScoreDistribution": null,
53 "gsbDistribution": null
54 }
55 }
56 ]
57}
错误码
若请求错误,服务器将返回的JSON文本包含以下参数:
名称 | 描述 |
---|---|
requestId | 请求ID |
code | 错误码 |
message | 错误描述信息,帮助理解和解决发生的错误 |
例如错误返回:
Plain Text
1{
2 "requestId":"6ba7b810-xxxc04fd430c8",
3 "code":"AccessDenied",
4 "message":"Access denied."
5}
更多其他错误码,也可以查看错误码说明。