PaddleOCR-VL
调用本接口,可根据用户输入的图像和文字,进行OCR文字识别。
权限说明
调用本文API,需使用API Key鉴权方式。使用API Key鉴权调用API流程,具体调用流程,请查看 认证鉴权。
请求参数
大模型ID:固定值为paddleocr-vl-0.9b
输入文件。
图像文件或PDF文件,支持URL或Base64
- 单pdf文档:大小控制50MB
- 单图片image:大小控制10MB
文件类型。
0表示PDF文件,1表示图像文件。
- 若
file参数值为URL,可不传,将根据URL推断文件类型. - 若
file参数值为base64,此字段为必传.
图片方向矫正。
启用后,将自动检测并校正图片的朝向。支持0°、90°、180°、270°旋转,以确保获得最佳的OCR效果。
图片扭曲矫正。
启用后,将自动检测并矫正图片中的文本区域形变,如褶皱和倾斜,为后续的识别步骤提供更规整的文本图像。
版面分析。
开启后,将智能分析图片中的文档区域,如标题、段落,并按照正常的阅读顺序输出结果。
图表识别。
开启后,可以自动解析文档中的图表,如柱状图、饼图等,并转换为表格形式,方便查看和编辑数据。
NMS后处理。
开启后,会自动移除重复或高度重叠的区域框。
prompt 的类型设置。
- 若开启版面分析(
useLayoutDetection为 True),则系统将执行全面的版面识别,此时promptLabel参数的设置无效。 - 若关闭版面分析(
useLayoutDetection为 False),则必须通过promptLabel参数指定识别类型,其有效值为:"ocr"(文本)、"formula"(公式)、"table"(表格)或"chart"(图表)。
控制重复惩罚。
默认1.0,取值范围:[1.0, 2.0]
控制模型生成重复内容的惩罚系数。值大于 1.0 会降低重复单词或短语出现的概率,值越高,惩罚越强,表格预测出现幻觉时可适当调高。
控制随机性。
默认0.0,范围 [0, 2]
高值(如 0.8)更发散,低值(如 0.2)更确定,出现幻觉时可适当调高。
核采样阈值。
默认1.0,取值范围 [0, 1.0]
仅在累计概率达阈值的词集中采样,如 0.9 代表只考虑最可能的 90%。
动态分辨率下限。
默认147384,取值范围: [3136, 147384]
预处理时若调整后总像素低于minPixels的值会放大到不低于该阈值。
动态分辨率上限。
默认2822400,取值范围: [1003520, 3211264]
预处理时若调整后总像素超过maxPixels的值会缩小到不超过该阈值。
可视化。
控制本次请求是否返回可视化图像,如结果图或中间过程图。
默认值为 true。
- 传入
true:返回图像。 - 传入
false:不返回图像。
POST /v2/ocr/paddleocr HTTP/1.1
Host: qianfan.baidubce.com
Authorization: Bearer <API Key>
Content-Type: application/json
{
"model":"paddleocr-vl-0.9b",
"file": "https://****.com/image1.jpg",
"fileType": 1,
"useChartRecognition": true,
"useDocUnwarping":true,
"useChartRecognition":true,
"useLayoutDetection":true,
"layoutNms":true,
"repetitionPenalty":1.0,
"temperature":0,
"topP":1.0,
"minPixels":147384,
"maxPixels":2822400,
"visualize":true
}
示例代码
curl https://qianfan.baidubce.com/v2/ocr/paddleocr \
-H "Content-Type: application/json" \
-H "Authorization: Bearer <API Key>" \
-d '{
"model":"paddleocr-vl-0.9b",
"file": "https://****.com/image1.jpg",
"fileType": 1,
"useChartRecognition": true,
"useDocUnwarping":true,
"useChartRecognition":true,
"useLayoutDetection":true,
"layoutNms":true,
"repetitionPenalty":1.0,
"temperature":0,
"topP":1.0,
"minPixels":147384,
"maxPixels":2822400,
"visualize":true
}'
返回响应
本次请求的唯一标识,可用于排查问题。
版面解析结果。
数组长度为1(对于图像输入)或实际处理的文档页数(对于PDF输入)。对于PDF输入,数组中的每个元素依次表示PDF文件中实际处理的每一页的结果
显示子属性
隐藏子属性
显示子属性
隐藏子属性
处理后结果。
对象的predict方法生成结果的 JSON 表示中res字段的简化版本,其中去除了input_path和page_index字段。
显示子属性
隐藏子属性
配置 PaddleOCR-VL 所需的模型参数。
显示子属性
隐藏子属性
是否启用文档预处理子产线。
是否启用版面检测模块。
是否开启图标识别功能。
是否在JSON中保存格式化后的markdown内容。
解析结果的列表,每个元素为一个字典,列表顺序为解析后的阅读顺序。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
版面区域的边界框。
版面区域的标签,例如text, table等。
内容为版面区域内的内容。
显示子属性
隐藏子属性
版面区域的索引,用于显示版面排序结果。
版面区域的顺序,用于显示版面阅读顺序。
对于非排序部分,默认值为 null。
版面区域检测排序结果。
显示子属性
隐藏子属性
预测的目标框信息,一个字典列表。每个字典代表一个检出的目标。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
类别 id。
类别名称。
目标框置信度。
目标框坐标,一个浮点数列表,格式为[xmin, ymin, xmax, ymax]。
显示子属性
隐藏子属性
输入的待预测图像的路径。
如果输入是PDF文件,则表示当前是PDF的第几页。
Markdown 结果。
显示子属性
隐藏子属性
Markdown 文本。
Markdown图片相对路径和Base64编码图像的键值对
显示子属性
隐藏子属性
暂无参数
当前页面第一个元素是否为段开始
当前页面最后一个元素是否为段结束
输出图片链接,为JPEG格式,有效期24h
返回的预测结果是一个dict类型的数据。
显示子属性
隐藏子属性
用于显示版面区域检测的可视化图像。
用于显示版面阅读顺序结果的可视化图像。
用于展示图像预处理的可视化图像。
输入图片链接,为JPEG格式,有效期24h。
输入数据信息
显示子属性
隐藏子属性
输入文件类型,可为image或pdf
文件页数。
当type=pdf时返回。
每页详细信息,包括宽高。
当type=pdf时返回。
显示子属性
隐藏子属性
显示子属性
隐藏子属性
暂无参数
图片宽度。
当type=image时返回。
图片高度。
当type=image时返回。
{
"id": "as-32y3dfyda9",
"result": {
"layoutParsingResults": [
{
"prunedResult": {
"model_settings": {
"use_doc_preprocessor": true,
"use_layout_detection": true,
"use_chart_recognition": true,
"format_block_content": false
},
"parsing_res_list": [
{
"block_label": "image",
"block_content": "",
"block_bbox": [
0,
2,
800,
531
],
"block_id": 0,
"block_order": null
}
],
"layout_det_res": {
"boxes": [
{
"cls_id": 14,
"label": "image",
"score": 0.5476956963539124,
"coordinate": [
0.01312255859375,
2.161956787109375,
800,
531
]
}
]
}
},
"markdown": {
"text": "<div style=\"text-align: center;\"><img src=\"imgs/img_in_image_box_0_2_800_531.jpg\" alt=\"Image\" width=\"100%\" /></div>\n",
"images": {
"imgs/img_in_image_box_0_2_800_531.jpg": "http://qianfan-modelbuilder-4121fcd138434a1580eeb0b675450b91.bj-bos-sandbox.baidu-int.com/ocr/paddleocr/a5917dda-fc8d-4406-7b71-d9220befe416.jpeg?x-bce-security-token=ODgzNjk4N2NiNzZjNGI2NjhhYjBhMDY1NzRhM2M1ODR8AAAAAM0BAABwmhKw%2Fca0f%2BSPEwPGq8pjJCtOPjE7YvWYQHm4a3O%2FpXSeIPuHkmBQPqRbNffDug3HQQGSn%2BjQl2FuMZPvLYH6FQgcpCsuEEELwZ26i0EPYw2I1H%2BYZUOhKT%2B7X2K7680qhmqhf%2B%2FWjPs2qB1Q9l%2B46RQduAY7VpHzCIeBFTlA3ebRvpJnfEfng0ZSVIe7ptQZ3yEXadDRsPvBzv9M1hYXwM9t2vL7nMlROF7ngc9er5qpTlS4PP326lZCHDTP34SXpie39K00s4EXnY1DXXzuPGusd95%2Fi%2BooDkLj6fcVV9Ygmqsk7CTfILcDocPT9D908s8XZcLzklWuLaE%2BiiKjouKgEqcu7VKR88VPl5aniPYMRj0xW6DV5wktlbG3r1w%3D&authorization=bce-auth-v1%2Fcfadd3e2bbac11f096131b71a5c141d5%2F2025-11-07T07%3A38%3A54Z%2F86400%2Fhost%2Fd7f1f869b85628f83f30d37634fbf6e7f5fa0129f178cd282485bc6eb093e102"
}
},
"outputImages": {
"layout_det_res": "http://qianfan-modelbuilder-4121fcd138434a1580eeb0b675450b91.bj-bos-sandbox.baidu-int.com/ocr/paddleocr/76a8647c-1b22-4e1b-6f83-a44b5711b4b6.jpeg?x-bce-security-token=ODgzNjk4N2NiNzZjNGI2NjhhYjBhMDY1NzRhM2M1ODR8AAAAAM0BAABwmhKw%2Fca0f%2BSPEwPGq8pjJCtOPjE7YvWYQHm4a3O%2FpXSeIPuHkmBQPqRbNffDug3HQQGSn%2BjQl2FuMZPvLYH6FQgcpCsuEEELwZ26i0EPYw2I1H%2BYZUOhKT%2B7X2K7680qhmqhf%2B%2FWjPs2qB1Q9l%2B46RQduAY7VpHzCIeBFTlA3ebRvpJnfEfng0ZSVIe7ptQZ3yEXadDRsPvBzv9M1hYXwM9t2vL7nMlROF7ngc9er5qpTlS4PP326lZCHDTP34SXpie39K00s4EXnY1DXXzuPGusd95%2Fi%2BooDkLj6fcVV9Ygmqsk7CTfILcDocPT9D908s8XZcLzklWuLaE%2BiiKjouKgEqcu7VKR88VPl5aniPYMRj0xW6DV5wktlbG3r1w%3D&authorization=bce-auth-v1%2Fcfadd3e2bbac11f096131b71a5c141d5%2F2025-11-07T07%3A38%3A54Z%2F86400%2Fhost%2F4b155b656e2085113bd1f4d1e431b05d3eb85b4a028ba99632cc44cbee9b6d3b",
"layout_order_res": "http://qianfan-modelbuilder-4121fcd138434a1580eeb0b675450b91.bj-bos-sandbox.baidu-int.com/ocr/paddleocr/6043f57f-708c-4c7d-634e-e6124d1d7f11.jpeg?x-bce-security-token=ODgzNjk4N2NiNzZjNGI2NjhhYjBhMDY1NzRhM2M1ODR8AAAAAM0BAABwmhKw%2Fca0f%2BSPEwPGq8pjJCtOPjE7YvWYQHm4a3O%2FpXSeIPuHkmBQPqRbNffDug3HQQGSn%2BjQl2FuMZPvLYH6FQgcpCsuEEELwZ26i0EPYw2I1H%2BYZUOhKT%2B7X2K7680qhmqhf%2B%2FWjPs2qB1Q9l%2B46RQduAY7VpHzCIeBFTlA3ebRvpJnfEfng0ZSVIe7ptQZ3yEXadDRsPvBzv9M1hYXwM9t2vL7nMlROF7ngc9er5qpTlS4PP326lZCHDTP34SXpie39K00s4EXnY1DXXzuPGusd95%2Fi%2BooDkLj6fcVV9Ygmqsk7CTfILcDocPT9D908s8XZcLzklWuLaE%2BiiKjouKgEqcu7VKR88VPl5aniPYMRj0xW6DV5wktlbG3r1w%3D&authorization=bce-auth-v1%2Fcfadd3e2bbac11f096131b71a5c141d5%2F2025-11-07T07%3A38%3A54Z%2F86400%2Fhost%2Fd5f9d0ee65255a96b83b7e0b68c5ffada39e96229e07368516125e5b35897e12",
"preprocessed_img": "http://qianfan-modelbuilder-4121fcd138434a1580eeb0b675450b91.bj-bos-sandbox.baidu-int.com/ocr/paddleocr/c7f92081-d403-4189-79c9-931f9883de03.jpeg?x-bce-security-token=ODgzNjk4N2NiNzZjNGI2NjhhYjBhMDY1NzRhM2M1ODR8AAAAAM0BAABwmhKw%2Fca0f%2BSPEwPGq8pjJCtOPjE7YvWYQHm4a3O%2FpXSeIPuHkmBQPqRbNffDug3HQQGSn%2BjQl2FuMZPvLYH6FQgcpCsuEEELwZ26i0EPYw2I1H%2BYZUOhKT%2B7X2K7680qhmqhf%2B%2FWjPs2qB1Q9l%2B46RQduAY7VpHzCIeBFTlA3ebRvpJnfEfng0ZSVIe7ptQZ3yEXadDRsPvBzv9M1hYXwM9t2vL7nMlROF7ngc9er5qpTlS4PP326lZCHDTP34SXpie39K00s4EXnY1DXXzuPGusd95%2Fi%2BooDkLj6fcVV9Ygmqsk7CTfILcDocPT9D908s8XZcLzklWuLaE%2BiiKjouKgEqcu7VKR88VPl5aniPYMRj0xW6DV5wktlbG3r1w%3D&authorization=bce-auth-v1%2Fcfadd3e2bbac11f096131b71a5c141d5%2F2025-11-07T07%3A38%3A54Z%2F86400%2Fhost%2F88607d0b1392bce7ac1dffc9bfa61bc5c7c237b5b3c8582e96b767c92aa4653f"
},
"inputImage": "http://qianfan-modelbuilder-4121fcd138434a1580eeb0b675450b91.bj-bos-sandbox.baidu-int.com/ocr/paddleocr/91f300cb-8e7a-43ae-544b-a683c5e52185.jpeg?x-bce-security-token=ODgzNjk4N2NiNzZjNGI2NjhhYjBhMDY1NzRhM2M1ODR8AAAAAM0BAABwmhKw%2Fca0f%2BSPEwPGq8pjJCtOPjE7YvWYQHm4a3O%2FpXSeIPuHkmBQPqRbNffDug3HQQGSn%2BjQl2FuMZPvLYH6FQgcpCsuEEELwZ26i0EPYw2I1H%2BYZUOhKT%2B7X2K7680qhmqhf%2B%2FWjPs2qB1Q9l%2B46RQduAY7VpHzCIeBFTlA3ebRvpJnfEfng0ZSVIe7ptQZ3yEXadDRsPvBzv9M1hYXwM9t2vL7nMlROF7ngc9er5qpTlS4PP326lZCHDTP34SXpie39K00s4EXnY1DXXzuPGusd95%2Fi%2BooDkLj6fcVV9Ygmqsk7CTfILcDocPT9D908s8XZcLzklWuLaE%2BiiKjouKgEqcu7VKR88VPl5aniPYMRj0xW6DV5wktlbG3r1w%3D&authorization=bce-auth-v1%2Fcfadd3e2bbac11f096131b71a5c141d5%2F2025-11-07T07%3A38%3A54Z%2F86400%2Fhost%2F8eea84bb5efe08949034f97fece765a75318d85f6a669625263ccf5a07327a09"
}
],
"dataInfo": {
"type": "image",
"width": 800,
"height": 531
}
}
}
{
"error": {
"code": "invalid_argument",
"message": "fetch object failed",
"type": "invalid_request_error"
},
"id": "as-xpv8aftdfq"
}
错误码
如果调用失败并返回报错信息,请参见错误码进行解决。
公共错误码:查看公共错误码
本接口专有错误码如下:
| HTTP状态码 | 类型 | 错误码 | 错误信息 | 说明 |
|---|---|---|---|---|
| 500 | internal_error | ocr_internal_error | 返回的具体错误信息 | ocr内部错误 |
| 400 | invalid_request_error | invalid_argument | 返回的具体错误信息 | 参数报错 |
| 401 | invalid_request_error | invalid_model | No permission to use the model | model鉴权失败,该用户没有使用这个model的权限 |
| 500 | invalid_request_error | invalid_model | Model is empty | 未指定model参数 |
