前缀缓存对话

POST

https://qianfan.baidubce.com/v2/chat/completions

使用已经创建的前缀缓存信息，进行对话。

支持模型列表

参考前缀缓存使用指南

权限说明

调用本文API，需使用API Key鉴权方式。使用API Key鉴权调用API流程，具体调用流程，请查看认证鉴权。

请求参数

Headers 参数

除公共头域外，无其它特殊头域

Body 参数

model string

大模型ID

必选

messages array

聊天历史信息列表

非空，首条消息为user/system/assistant，末条消息为user/tool
总内容长度不得超模型限制
合并连续角色后，模式应为 (user/tool) -> assistant -> (user/tool)……
含tool_calls的assistant消息不可合并，其前必为user，其后必有数量匹配的连续tool消息

必选

显示子属性隐藏子属性

items object {5}

显示子属性隐藏子属性

role string

当前支持：

system：人设
user：用户
assistant：对话助手
tool：函数

必选

name string

message名

可选

content oneOf {2}

多选一且必需“只能”符合其中一个

对话内容，说明：

不能为空
最后一个message对应的content不能为blank字符，如空格、"\n"、“\r”、“\f”等

可选

显示子属性隐藏子属性

content string

content array

显示子属性隐藏子属性

items object {4}

显示子属性隐藏子属性

type string

当前支持以下类型：

text：文本
image_url：图像url
video_url：视频url

必选

text string

文本信息，当参数type为text时必填

必选

image_url object {2}

图片信息，当参数type为image_url时必填

多图支持，无数量上限
所有图片的总Token数需在8K以内
每张图片大小不超过10MB（URL图片的下载大小或Base64图片解码后的大小）

必选

显示子属性隐藏子属性

url string

图片数据的url或者base64

通过Base64传入

支持格式：JPG, JPEG, PNG, BMP
数据格式：data:image/<图片格式>;base64,<Base64编码>

通过URL传入

支持格式：JPG, JPEG, PNG, BMP, WEBP

必选

detail string

图像/分辨率质量

low：低分辨率
high：高分辨率，默认为high

可选

video_url object {2}

视频信息，当参数type为video_url时必填

必选

显示子属性隐藏子属性

url string

视频数据的url或者base64
单个视频最大为64MB

必选

fps float

每秒钟从视频中抽取指定数量的图像
取值范围：[0.2, 5]，默认值是2

可选

tool_calls array

函数调用
模型返回的函数调用请求（tool_calls）及其结果，必须作为历史信息传入下一轮对话的 messages中，以确保模型拥有连续的对话上下文

可选

显示子属性隐藏子属性

items object {3}

显示子属性隐藏子属性

id string

function call的唯一标识，由模型生成

必选

type string

固定值function

必选

function object {2}

function call的具体内容

可选

显示子属性隐藏子属性

name string

函数名称

可选

arguments string

函数参数

可选

tool_call_id string

当role为tool时，必填
模型生成的function call id，对应tool_calls中的tool_calls[].id
需传递真实的、由模型生成id，否则严重影响模型后续回复的质量

可选

stream boolean

是否以流式接口的形式返回数据，默认false

可选

stream_options object {1}

流式响应的选项，当设置stream为true时生效

可选

显示子属性隐藏子属性

include_usage boolean

流式响应是否输出usage
设为true时，在最后一个输出的数据块中包含一个附加的usage字段，记录整个请求的token统计信息

可选

temperature float

温度值控制输出的随机性，默认0.8，范围[0, 2]
温度值高，输出结果更具随机性和创造性
温度值低，输出结果更集中、确定和可预测

可选

top_p float

输出文本的多样性，取值越大，生成文本的多样性越强。
默认0.8，取值范围[0, 1]

可选

penalty_score float

重复惩罚，默认1，范围 [1,2]
此值越大，对已出现内容的惩罚越重，能有效降低文本重复率。

可选

max_completion_tokens integer

指定模型最大输出token数，参见模型列表-最大输出token

可选

seed integer

取值范围（0,2147483647‌），由模型随机生成，默认值为空
如果指定，系统将尽最大努力进行确定性采样，以便使用相同seed和参数的重复请求返回相同的结果

可选

stop array

生成停止标识。若生成内容以列表中任一字符串结尾，则停止生成
元素长度≤20，最多4个

可选

显示子属性隐藏子属性

items string

user string

用户唯一标识符，用于安全风控
登录用户传passportid，未登录传空

可选

frequency_penalty float

频率惩罚。设为正值时，惩罚已频繁出现的词元，降低重复率
默认值因模型而异，取值范围[-2.0, 2.0]，仅百亿模型支持

可选

presence_penalty float

存在惩罚。设为正值时，惩罚所有已出现的词元，鼓励谈论新主题
默认值因模型而异，取值范围[-2.0, 2.0]，仅百亿模型支持

可选

tools array

可触发函数的描述列表

可选

显示子属性隐藏子属性

items object {2}

显示子属性隐藏子属性

type string

工具类型，取值function

必选

function object {3}

函数说明

必选

显示子属性隐藏子属性

name string

函数名

必选

description string

函数说明

可选

parameters string

函数请求参数，JSON Schema格式

可选

tool_choice oneOf {2}

多选一且必需“只能”符合其中一个

控制模型如何选择调用函数，仅千亿模型支持

可选

显示子属性隐藏子属性

tool_choice string

当前支持：

none：禁用函数调用。模型只会生成普通文本回复
auto：默认模式。由模型智能判断是否需要调用函数，以及调用哪个函数
required：强制模型必须调用至少一个函数

tool_choice object {2}

强制指定具体函数，该函数必须存在于提供的function列表中。

显示子属性隐藏子属性

type string

指定工具类型，取值function

必选

function object {1}

指定要使用的函数

必选

显示子属性隐藏子属性

name string

指定要使用的函数名

必选

parallel_tool_calls boolean

true：开启函数并行调用，默认开启
false：关闭函数并行调用

可选

safety object {2}

安全参数配置

可选

显示子属性隐藏子属性

input_level string

文本输入安全等级，默认standrard

none：完全不经安全过滤模块
minimal：较宽松等级，不主动过滤，但会对输出结果进行安全校验
base：宽松等级，仅拦截干预类、攻击涉政、高危涉政内容，其余视为安全
moderate：在standard基础上去掉涉黄，保留涉政
standard：默认等级，对涉政、涉黄、暴恐、违禁等内容进行标准拦截
strict：最严格等级，全面强化敏感内容识别与拦截

可选

input_image_level string

图像输入安全等级，默认standrard

none：完全不经安全过滤模块
base：宽松等级，仅对高危涉政和黄赌毒做基础管控
moderate：在standard基础上仅对涉政场景做图审管控
standard：默认等级，对涉政、涉黄、暴恐、违禁等内容进行标准拦截
strict：最严格等级，全面强化敏感内容识别与拦截

可选

web_search object {6}

搜素增强

可选

显示子属性隐藏子属性

enable boolean

是否开启实时搜索功能，默认关闭
如果关闭实时搜索，角标和溯源信息都不会返回

可选

enable_citation boolean

是否开启上角标返回，默认关闭
开启后，触发搜索增强场景下，响应内容附上角标及对应搜索溯源信息
如果检索内容包含非公开网页，角标不生效

可选

enable_trace boolean

是否返回搜索溯源信息，默认关闭
开启后，触发搜索增强场景下，返回搜索溯源信息
如果检索内容为非公开网页，即使触发搜索也不返回溯源信息。

可选

enable_status boolean

是否返回搜索信号，默认关闭
开启后，触发搜索时通过delta_tag:search_status表示信号包

可选

reference_number integer

参考文章数量，默认由系统内部指定，取值范围：[1, 28]

可选

search_number integer

返回检索网页的数量，默认由系统内部指定，取值范围：[1, 28]，不能小于reference_number

可选

cache_id string

本次请求所用缓存的ID，使用的缓存ID由[创建前缀缓存]（https://cloud.baidu.com/doc/qianfan-api/s/kmhka93gq）接口创建。本次对话将在该缓存基础上继续。

可选

response_format object {2}

指定响应内容的格式

可选

显示子属性隐藏子属性

type string

指定响应内容的格式

json_object：以json格式返回
text：以文本格式返回，默认选项
json_schema：以json_scheam规定的格式返回

可选

json_schema object {0}

json_schema格式，会校验json格式
当type为json_schema时，必填此项

可选

显示子属性隐藏子属性

暂无参数

请求结构

POST /v2/chat/completions HTTP/1.1
Host: qianfan.baidubce.com
Authorization: Bearer <API key>

{
    "messages": [
        {
            "role": "user", 
            "content": "请用一句话介绍一下千帆的caching接口。"
        }
        // 可以继续添加新消息
    ],
    "model": "deepseek-v3.1-250821", 
    "cache_id": "cache-20251105******-etw****xnr",  // 使用之前创建的缓存
    "stream": false
}

示例代码

Shell

Python

curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--data '{
     "messages": [
        {
            "role": "user",
            "content": "请解释一下RESTful API"
        }
    ],
    "model": "deepseek-v3.1-250821",
    "cache_id": "cache-20251105*****-s9h****djn",
    "stream": false,
    "temperature": 0.7,
    "max_completion_tokens": 500
}'

import requests
def main():
    url = "https://qianfan.baidubce.com/v2/chat/completions"
    payload_dict= {
        "messages": [
        {
            "role": "system",
            "content": "你是一个资深软件工程师，擅长用比喻解释技术概念"
        },
        {
            "role": "user",
            "content": "请解释一下RESTful API"
        }
    ],
        "model": "deepseek-v3.1-250821", 
        "cache_id": "cache-20251105*****-s9h****djn",
        "stream": false,
        "temperature": 0.7,
        "max_completion_tokens": 500
    }

    headers = {
        'Content-Type': 'application/json',
        'Authorization': 'Bearer bce-v3/ALTAK-*********/614fb**********'
    }
    response = requests.request("POST", url, headers=headers, json=payload_dict)
    print(response.text)
if __name__ == '__main__':
    main()

返回响应

Headers 参数

除公共头域外，还包含以下特殊头域

X-Ratelimit-Limit-Requests integer

一分钟内允许的最大请求次数

可选

X-Ratelimit-Limit-Tokens integer

一分钟内允许的最大token消耗，包含输入和输出

可选

X-Ratelimit-Remaining-Requests integer

达到RPM速率限制前，剩余可发送的请求数配额，如果配额用完，将会在0-60s后刷新

可选

X-Ratelimit-Remaining-Tokens integer

达到TPM速率限制前，剩余可消耗的tokens数配额，如果配额用完，将会在0-60s后刷新

可选

返回参数

id string

本次请求的唯一标识，可用于排查问题

必选

object string

回包类型
chat.completion：多轮对话返回

必选

created integer

时间戳

必选

model string

本次请求使用的大模型ID

必选

choices oneOf {2}

多选一且必需“只能”符合其中一个

响应列表

必选

显示子属性隐藏子属性

choices object {7}

stream=false时，返回该内容，返回类型为choices

显示子属性隐藏子属性

index integer

choice列表中的序号

必选

message object {3}

响应信息

必选

显示子属性隐藏子属性

role string

system：人设
user：用户
assistant：对话助手

必选

name string

message名

可选

content string

对话内容

必选

finish_reason string

输出完成原因标识

normal：输出内容由大模型生成，未触发截断、替换
stop：输出结果命中入参stop中指定的字段后被截断
length：达到token限制
content_filter：内容安全过滤
tool_calls：使用function call功能

必选

flag integer

安全细分类型

0或不返回：安全
1：低危不安全场景，可以继续对话
2：禁聊，不允许继续对话，但可以展示内容
3：禁止上屏，不允许继续对话且不能上屏展示
4：撤屏

必选

ban_round integer

当flag != 0 时，该字段会告知第几轮对话有敏感信息，如果是当前问题，ban_round = -1

可选

plugin_info array

透传的插件的信息状态

可选

显示子属性隐藏子属性

items object {0}

显示子属性隐藏子属性

暂无参数

plugin_metas array

透传的插件元信息

可选

显示子属性隐藏子属性

items object {0}

显示子属性隐藏子属性

暂无参数

choices object {8}

stream=true时的响应列表

显示子属性隐藏子属性

index integer

choice列表中的序号

必选

delta object {3}

响应信息

必选

显示子属性隐藏子属性

role string

仅在流式第一帧返回

可选

content string

流式响应内容

可选

tool_calls array

由模型生成的函数调用，包含函数名称，和调用参数

可选

显示子属性隐藏子属性

items object {3}

显示子属性隐藏子属性

id string

function call的唯一标识，由模型生成

可选

type string

取值: function

可选

function object {2}

function call的具体内容

可选

显示子属性隐藏子属性

name string

函数名称

可选

arguments string

函数参数

可选

delta_tag string

响应信息标识
search_status：触发搜索信号

可选

finish_reason string

输出完成原因标识

normal：输出内容由大模型生成，未触发截断、替换
stop：输出结果命中入参stop中指定的字段后被截断
length：达到token限制
content_filter：内容安全过滤
tool_calls：使用function call功能

可选

flag integer

返回flag表示触发安全

可选

ban_round integer

当flag != 0 时，该字段会告知第几轮对话有敏感信息，如果是当前问题，ban_round = -1

可选

plugin_info array

透传的插件的信息状态

可选

显示子属性隐藏子属性

items object {0}

显示子属性隐藏子属性

暂无参数

plugin_metas array

透传的插件元信息

可选

显示子属性隐藏子属性

items object {0}

显示子属性隐藏子属性

暂无参数

usage object {4}

token统计信息，同步请求默认返回，流式请求默认不返回
当开启stream_options.include_usage=true时，会在最后一个chunk返回实际内容，其他chunk仅返回null

可选

显示子属性隐藏子属性

prompt_tokens integer

问题token数，包含历史问答

可选

prompt_tokens_details object {2}

问题token详情

可选

显示子属性隐藏子属性

search_tokens integer

触发检索增强以后膨胀的token
用户可以通过usage.prompt_tokens_details.search_tokens>0判断是否触发检索增强，并且计算触发检索增强的次数

可选

plugin_tokens object {2}

触发插件以后膨胀的token

可选

显示子属性隐藏子属性

key string

插件名称

可选

value integer

token数

可选

completion_tokens integer

回答token数

可选

total_tokens integer

总token数

可选

search_results object {4}

搜索结果列表

可选

显示子属性隐藏子属性

index integer

序号

可选

url string

搜索结果url

可选

title string

搜索结果标题

可选

datasource_id string

搜索来源ID

可选

响应示例

{
    "id": "as-s******4yiv",
    "object": "chat.completion",
    "created": 1762344232,
    "model": "deepseek-v3.1-250821",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "就像一位高效又讲究的餐厅服务员。\n\n想象一下你去餐厅点餐：\n- 你不需要知道厨房如何做菜（服务器内部逻辑）\n- 只需按菜单（API文档）点菜（发送请求）\n- 服务员（API）按标准方式处理你的需求\n- 最后给你上菜（返回响应）\n\nRESTful的特点就像优秀服务员的工作原则：\n1. 每道菜都有固定编号（URI统一资源标识）\n2. 你点牛排不会上来一碗面（无状态性）\n3. 点餐、加菜、退菜都有标准流程（HTTP方法：GET/POST/PUT/DELETE）\n4. 不管哪个服务员服务，体验都一样（统一接口）\n\n这样设计的好处是：简单、标准、可扩展，就像标准化服务让餐厅能高效服务更多顾客。"
            },
            "finish_reason": "stop",
            "flag": 0
        }
    ],
    "usage": {
        "prompt_tokens": 31,
        "completion_tokens": 175,
        "total_tokens": 206,
        "prompt_tokens_details": {
            "cached_tokens": 11
        }
    }
}

错误码

如果请求错误，服务器返回的JSON文本包含以下参数。

名称	描述
code	错误码
message	错误描述信息，帮助理解和解决发生的错误
type	错误类型

更多相关错误码，请查看模型错误码说明。

百度智能云

千帆AI应用开发者中心-API参考 qianfan-api

千帆AI应用开发者中心-API参考 qianfan-api

支持模型列表

权限说明

请求参数

示例代码

返回响应

错误码