DeepSeek-OCR

DeepSeek-OCR

更新时间：2025-12-22

POST

https://qianfan.baidubce.com/v2/chat/completions

DeepSeek-OCR专用于文档识别与图像转文本场景，能将图像中的文档内容转换为可编辑文本。
该模型仅支持单轮、单张图像的独立识别任务。

权限说明

调用本文API，需使用API Key鉴权方式。使用API Key鉴权调用API流程，具体调用流程，请查看认证鉴权。

请求参数

Headers 参数

除公共头域外，无其它特殊头域

Body 参数

model string

大模型ID，固定值为 deepseek-ocr

必选

messages array

聊天历史信息列表

messages成员仅支持user
输入总长度不能超过对应model的输入字符限制和输入tokens限制

必选

显示子属性隐藏子属性

items object {3}

显示子属性隐藏子属性

role string

固定值为：user

必选

name string

message名

可选

content oneOf {2}

多选一且必需“只能”符合其中一个

不能为空
最后一个message对应的content不能为blank字符，如空格、"\n"、“\r”、“\f”等

可选

显示子属性隐藏子属性

content array

显示子属性隐藏子属性

items object {3}

显示子属性隐藏子属性

type string

当前支持以下类型：

text：文本
image_url：图像url

可选

text string

文本信息，当参数type为text时，必填
推荐的预设提示词，以获得最佳使用效果：

将文档内容转换为markdown格式：Convert the document to markdown.
对该图像进行文本识别：OCR this image.
不考虑版式，直接提取所有文本：Free OCR.
解析文档中的图形或表格内容：Parse the figure.
详细描述图片内容：Describe this image in detail.
在图像中定位 <|ref|>xxxx<|/ref|> 的位置：Locate <|ref|>xxxx<|/ref|> in the image.

可选

image_url object {1}

可选

显示子属性隐藏子属性

url string

图像url

传入图片链接，输入为图像url时，url链接在UTF-8编码下最大不超过1024个字节，超出限制后图片无法下载
图片的Base64编码，传入Base64编码格式时，传入的格式需为：data:image/<图片格式>;base64,<Base64编码>
图像的大小不超过10MB，最短边长不小于5px

可选

content string

stream boolean

是否以流式接口的形式返回数据，默认false

可选

stream_options object {1}

流式响应的选项，当字段stream为true时，该字段生效

可选

显示子属性隐藏子属性

include_usage boolean

流式响应是否输出usage

设置为true时，在最后一个chunk会输出一个字段，这个chunk上的usage字段显示整个请求的token统计信息
设置为false时，流式响应默认不输出usage

可选

max_tokens integer

指定模型最大输出token数，请查看千帆-模型列表页，表格中最大输出(tokens)列说明。

可选

stop array

生成停止标识，当模型生成结果以stop中某个元素结尾时，停止文本生成

每个元素长度不超过20字符
最多4个元素

可选

显示子属性隐藏子属性

items string

停止标识，长度不超过20字符

user string

表示最终用户的唯一标识符

可选

请求结构

POST /v2/chat/completions HTTP/1.1
Host: qianfan.baidubce.com
Authorization: Bearer <API Key>
Content-Type: application/json

{
  "model": "deepseek-ocr",
  "messages": [
    {
      "role": "user",
      "content": [
        {
          "type": "text",
          "text": "Free OCR."
        },
        {
          "type": "image_url",
          "image_url": {
            "url": "https://e*****le.com/image1.jpg"
          }
        }
      ]
    }
  ]
}

示例代码

Shell

Python

curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
--header 'Content-Type: application/json' \
--header 'Authorization: Bearer bce-v3/ALTAK-*********/614fb**********' \
--data '{
 "model": "deepseek-ocr",
    "messages": [
      {
        "role": "user",
        "content": [
          {
            "type": "text",
            "text": "OCR this image."
          },
          {
            "type": "image_url",
            "image_url": {
              "url": "https://e****le.com/image1.jpg"
            }
          }
        ]
      }
    ]
}'

import requests
import json


def main():
    url = "https://qianfan.baidubce.com/v2/chat/completions"

    payload = json.dumps({
        "model": "deepseek-ocr",
        "messages": [
            {
                "role": "user",
                "content": [
                    {
                        "type": "image_url",
                        "image_url": {
                            "url": "data:image/jpeg;base64,/9j/4AA*********AQAAAQABAAD/2wBDAA..."
                        }
                    },
                    {
                        "type": "text",
                        "text": "OCR this image."
                    }
                ]
            }
        ]
    })
    
    headers = {
        'Content-Type': 'application/json',
        'Authorization': 'Bearer bce-v3/ALTAK-*********/614fb**********'
    }

    response = requests.request("POST", url, headers=headers, data=payload)

    print(response.text)


if __name__ == '__main__':
    main()

返回响应

Headers 参数

除公共头域外，还包含以下特殊头域

X-Ratelimit-Limit-Requests integer

一分钟内允许的最大请求次数

可选

X-Ratelimit-Limit-Input-Tokens integer

一分钟内允许的最大输入tokens消耗

可选

X-Ratelimit-Limit-Output-Tokens integer

一分钟内允许的最大输出tokens消耗

可选

X-Ratelimit-Remaining-Tokens integer

达到TPM速率限制前，剩余可消耗的tokens数配额，如果配额用完，将会在0-60s后刷新

可选

X-Ratelimit-Remaining-Input-Tokens integer

达到TPM速率限制前，剩余可消耗的输入tokens数配额，如果配额用完，将会在0-60s后刷新

可选

X-Ratelimit-Remaining-Output-Tokens integer

达到TPM速率限制前，剩余可消耗的输出tokens数配额，如果配额用完，将会在0-60s后刷新

可选

返回参数

id string

本次请求的唯一标识，可用于排查问题

必选

object string

回包类型：chat.completion

必选

created integer

时间戳

必选

model string

返回模型ID：deepseek-ocr

必选

choices oneOf {2}

多选一且必需“只能”符合其中一个

必选

显示子属性隐藏子属性

choices object {5}

stream=false时，返回该内容

显示子属性隐藏子属性

index integer

choices列表中的序号

可选

message object {3}

响应信息，当stream=false时返回

可选

显示子属性隐藏子属性

role string

role=assistant

可选

name string

message名

可选

content string

返回内容

可选

finish_reason string

输出内容标识

stop：模型自然停止或命中提供的停止序列
length：达到了最大的token数
content_filter：输出内容被截断、兜底、替换等

可选

flag integer

安全细分类型，当stream=false，flag值含义如下

0或不返回：安全
1：低危不安全场景，可以继续对话
2：禁聊：不允许继续对话，但是可以展示内容
3：禁止上屏：不允许继续对话且不能上屏展示
4：撤屏

可选

ban_round integer

当flag不为0时，该字段会告知第几轮对话有敏感信息；如果是当前问题，ban_round = -1

可选

choices object {5}

stream=true时，返回该内容

显示子属性隐藏子属性

index integer

choices列表中的序号

可选

delta object {2}

响应信息，当stream=true时返回

可选

显示子属性隐藏子属性

role string

仅在流式第一帧返回

可选

content string

流式响应内容

可选

finish_reason string

输出内容标识

stop：模型自然停止或命中提供的停止序列
length：达到了最大的token数
content_filter：输出内容被截断、兜底、替换等

可选

flag integer

安全细分类型，说明：当stream=true时，返回flag表示触发安全

可选

ban_round integer

当flag不为0时，该字段会告知第几轮对话有敏感信息；如果是当前问题，ban_round = -1

可选

usage object {3}

token统计信息

同步请求默认返回
流式请求默认不返回

可选

显示子属性隐藏子属性

prompt_tokens integer

问题tokens数，包含历史问答

可选

completion_tokens integer

回答tokens数

可选

total_tokens integer

总tokens数

可选

响应示例

{
    "id": "as-*****rpmh3",
    "object": "chat.completion",
    "created": 1762498170,
    "model": "deepseek-ocr",
    "choices": [
        {
            "index": 0,
            "message": {
                "role": "assistant",
                "content": "\n电子发票（铁路电子客票）\n发票号码：2432916804000xxxxxx\n开票日期：2024年11月15日\n南京南站\nG1948\n郑州东站\nNanjingnan\nZhengzhoudong\n2024年11月14日 11:46开\n04车12A号\n二等座\n票价：¥337.50\n4107281991****5515 读小光\n电子客票号：1680489086111492054xxxxxxx\n换开 原发票号码：2432916804000xxxxxx\n购买方名称：读小光公司\n统一社会信用代码：91410728MA9Kxxxxxx\n买票请到12306 发货请到95306\n中国铁路祝您旅途愉快"
            },
            "finish_reason": "stop",
            "flag": 0
        }
    ],
    "usage": {
        "prompt_tokens": 898,
        "completion_tokens": 169,
        "total_tokens": 1067
    }
}

错误码

如果请求错误，服务器返回的JSON文本包含以下参数。

名称	描述
code	错误码
message	错误描述信息，帮助理解和解决发生的错误
type	错误类型

更多相关错误码，请查看模型错误码说明。

评价此篇文章

有帮助没帮助

百度智能云

千帆AI应用开发者中心-API参考 qianfan-api

千帆AI应用开发者中心-API参考 qianfan-api

权限说明

请求参数

示例代码

返回响应

错误码