上下文管理

更新时间：2026-02-14

模型的上下文包括输入和输出信息，当使用深度思考模型时，输出中除回答外还包含思维链内容。

上下文输入

千帆平台支持 Chat API 和 Responses API，两种 API 均支持传入历史上下文信息。

Chat API

Chat API 每次请求是独立无状态的，需要手动传递上下文信息，您可以在messages数组中交替传入 user 和 assistant 消息。

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5    "model": "deepseek-v3.2",
6    "messages": [
7        {
8            "role": "user",
9            "content": "帮我讲个笑话"
10        },
11        {
12            "role": "assistant",
13            "content": "我正好有一个，听我讲哈：\n\n**两个番茄过马路，突然一辆车飞快开过来……“砰”一声！**\n**一个番茄被压扁了。**\n**另一个番茄慢慢走过去，对扁了的番茄说：**\n**“喂！兄弟，原来番茄酱是这么来的啊！”**\n\n（说完赶紧溜走，怕你打我）"
14        },
15        {
16            "role": "user",
17            "content": "这个笑话的笑点在哪?"
18        }
19    ]
20}'

Responses API

Responses API 可以高效管理上下文状态，默认将请求的输入、输出进行存储，后续只需传入所需轮次的 id 即可引入历史上下文，无需手动传入。

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/responses' \
2--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********'\
3--header 'Content-Type: application/json' \
4--data '{
5    "model": "deepseek-v3.2",
6    "input": "帮我讲个笑话"
7}'

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/responses' \
2--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
3--header 'Content-Type: application/json' \
4--data '{
5    "model": "deepseek-v3.2",
6    "previous_response_id": "resp-inyf3******",
7    "input": "这个笑话的笑点在哪？"
8}'

第二次请求通过previous_response_id传入上一次请求返回的 Response id，即可引入历史信息。

上下文长度控制

多轮对话或长输入、长输出场景下，需要同时考虑模型的上下文窗口限制和输入、输出长度限制，达到长度限制后模型会截断或报错。千帆平台支持通过参数控制模型的输出长度（含思维链和回答），具体含义如下：

不同模型的上下文长度、最大输入、最大输出、最大思维链长度不同，详情请查看模型列表。

控制输出长度

Chat API 使用max_completion_tokens控制模型输出长度（回答+思维链），当模型输出达到配置值时，模型停止推理，返回中的finish_reason 字段为length。

支持的模型：

deepseek-v3.2-think
deepseek-v3.1-think-250821
deepseek-r1-250528
deepseek-r1

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5    "model": "deepseek-v3.2",
6    "thinking": {
7        "type": "enabled"
8    },
9    "messages": [
10        {
11            "role": "user",
12            "content": "你好"
13        }
14    ],
15    "max_completion_tokens": 200
16}'

控制回答长度

Chat API 使用max_tokens控制模型回答长度（不含思维链），当模型回答长度达到配置值时，模型停止输出，返回中的finish_reason 字段为length。各模型默认的最大回答长度请查看模型列表。

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5    "model": "deepseek-v3.2",
6    "thinking": {
7        "type": "enabled"
8    },
9    "messages": [
10        {
11            "role": "user",
12            "content": "你好"
13        }
14    ],
15    "max_tokens": 200
16}'

注意：若同时设置 max_completion_tokens 和 max_tokens，则以 max_completion_tokens 的设置为准，即限制模型思维链和回答的总长度。

控制思维链长度

Chat API 支持使用thinking_budget控制模型思维链的长度，当思考长度达到配置值时，模型停止思考直接输出回答内容。支持模型详见指定思维链长度。

Plain Text

1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5    "model": "deepseek-v3.2",
6    "thinking": {
7        "type": "enabled"
8    },
9    "messages": [
10        {
11            "role": "user",
12            "content": "你好"
13        }
14    ],
15    "thinking_budget": 200
16}'

上下文缓存

交错思考

百度智能云

千帆AI应用开发者中心-开始使用 qianfan-docs

千帆AI应用开发者中心-开始使用 qianfan-docs

上下文管理

上下文输入

Chat API

Responses API

上下文长度控制

控制输出长度

控制回答长度

控制思维链长度