上下文管理
模型的上下文包括输入和输出信息,当使用深度思考模型时,输出中除回答外还包含思维链内容。
上下文输入
千帆平台支持 Chat API 和 Responses API,两种 API 均支持传入历史上下文信息。
Chat API
Chat API 每次请求是独立无状态的,需要手动传递上下文信息,您可以在messages数组中交替传入 user 和 assistant 消息。
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5 "model": "deepseek-v3.2",
6 "messages": [
7 {
8 "role": "user",
9 "content": "帮我讲个笑话"
10 },
11 {
12 "role": "assistant",
13 "content": "我正好有一个,听我讲哈:\n\n**两个番茄过马路,突然一辆车飞快开过来……“砰”一声!**\n**一个番茄被压扁了。**\n**另一个番茄慢慢走过去,对扁了的番茄说:**\n**“喂!兄弟,原来番茄酱是这么来的啊!”**\n\n(说完赶紧溜走,怕你打我)"
14 },
15 {
16 "role": "user",
17 "content": "这个笑话的笑点在哪?"
18 }
19 ]
20}'
Responses API
Responses API 可以高效管理上下文状态,默认将请求的输入、输出进行存储,后续只需传入所需轮次的 id 即可引入历史上下文,无需手动传入。
1curl --location 'https://qianfan.baidubce.com/v2/responses' \
2--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********'\
3--header 'Content-Type: application/json' \
4--data '{
5 "model": "deepseek-v3.2",
6 "input": "帮我讲个笑话"
7}'
1curl --location 'https://qianfan.baidubce.com/v2/responses' \
2--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
3--header 'Content-Type: application/json' \
4--data '{
5 "model": "deepseek-v3.2",
6 "previous_response_id": "resp-inyf3******",
7 "input": "这个笑话的笑点在哪?"
8}'
第二次请求通过previous_response_id传入上一次请求返回的 Response id,即可引入历史信息。
上下文长度控制
多轮对话或长输入、长输出场景下,需要同时考虑模型的上下文窗口限制和输入、输出长度限制,达到长度限制后模型会截断或报错。千帆平台支持通过参数控制模型的输出长度(含思维链和回答),具体含义如下:

不同模型的上下文长度、最大输入、最大输出、最大思维链长度不同,详情请查看模型列表。
控制输出长度
Chat API 使用max_completion_tokens控制模型输出长度(回答+思维链),当模型输出达到配置值时,模型停止推理,返回中的finish_reason 字段为length。
支持的模型:
- deepseek-v3.2-think
- deepseek-v3.1-think-250821
- deepseek-r1-250528
- deepseek-r1
- qwen3-next-80b-a3b-thinking
- qwen3-235b-a22b-thinking-2507
- qwen3-30b-a3b-thinking-2507
- qwen3-32b
- qwen3-14b
- qwen3-8b
- qwen3-4b
- qwen3-1.7b
- qwen3-0.6b
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5 "model": "deepseek-v3.2",
6 "thinking": {
7 "type": "enabled"
8 },
9 "messages": [
10 {
11 "role": "user",
12 "content": "你好"
13 }
14 ],
15 "max_completion_tokens": 200
16}'
控制回答长度
Chat API 使用max_tokens控制模型回答长度(不含思维链),当模型回答长度达到配置值时,模型停止输出,返回中的finish_reason 字段为length。各模型默认的最大回答长度请查看模型列表。
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5 "model": "deepseek-v3.2",
6 "thinking": {
7 "type": "enabled"
8 },
9 "messages": [
10 {
11 "role": "user",
12 "content": "你好"
13 }
14 ],
15 "max_tokens": 200
16}'
注意:若同时设置 max_completion_tokens 和 max_tokens,则以 max_completion_tokens 的设置为准,即限制模型思维链和回答的总长度。
控制思维链长度
Chat API 支持使用thinking_budget控制模型思维链的长度,当思考长度达到配置值时,模型停止思考直接输出回答内容。支持模型详见指定思维链长度。
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
4--data '{
5 "model": "deepseek-v3.2",
6 "thinking": {
7 "type": "enabled"
8 },
9 "messages": [
10 {
11 "role": "user",
12 "content": "你好"
13 }
14 ],
15 "thinking_budget": 200
16}'
