Qianfan-OCR
更新时间:2025-12-08
qianfan-ocr 支持多种场景,本文给出不同场景的 prompt 请求示例与返回示例
文档解析
有固定 prompt,包含思考和非思考两种模式
深度思考
prompt
Plain Text
1## 不保留页眉页脚
2"Perform OCR on the image and convert the recognized text into well-structured Markdown, excluding any header or footer content.<think>"
3"识别图像文字,去除页眉和页脚,以清晰的Markdown格式输出内容。<think>"
4"Extract the main textual content from the image and output it in Markdown, skipping header/footer text.<think>"
5"从图像中提取正文内容,忽略页眉和页脚,保持段落与标题结构,以Markdown格式输出。<think>"
6"Perform OCR on the image and format the result as clean, structured Markdown.<think>"
7"识别图片中的文字内容,并根据版式结构以Markdown输出。<think>"
8"Convert the image text to Markdown, preserving headings, lists, and tables where possible.<think>"
9"将图像内容识别并转写为Markdown格式,尽量保持原有的层级与排版。<think>"
10## 保留页眉页脚
11"Perform OCR on the image and output all recognized text in Markdown, including header and footer content.<think>"
12"Extract all text from the given image and convert it into a clean Markdown document, including headers and footers.<think>"
13"Read the image content and return the text as a structured Markdown file, including headers and footers.<think>"
14"从图片中提取所有文本,保留页眉和页脚,保持层次结构,输出Markdown格式。<think>"
15"OCR the image and provide the result in Markdown syntax, keeping headers and footers.<think>"
16"识别图像文字,完整保留页眉和页脚,以Markdown格式输出。<think>"
17"从图像中提取全部文本信息,保留页眉页脚,并按Markdown格式呈现。<think>"
请求示例
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--data '{
5 "model": "qianfan-ocr",
6 "messages": [
7 {
8 "role": "user",
9 "content": [
10 {
11 "type": "text",
12 "text": "从图像中提取正文内容,忽略页眉和页脚,保持段落与标题结构,以Markdown格式输出。<think>"
13 },
14 {
15 "type": "image_url",
16 "image_url": {
17 "url": "https://pplines-online.bj.bcebos.com/deploy/official/paddleocr/pp-ocr-vl//dcce4b6d-1a12-4741-b571-bd27cb574200/input_img_0.jpg?authorization=bce-auth-v1%2F5cfe9a5e1454405eb2a975c43eace6ec%2F2025-10-24T10%3A16%3A01Z%2F-1%2F%2F34dbe5163f75e0db030ba8a81f3ecdae00e7be74e052ac72ac2e57e0953de954"
18 }
19 }
20 ]
21 }
22 ]
23}'
返回
JSON
1{
2 "id": "as-ch3rt5cp44",
3 "object": "chat.completion",
4 "created": 1765204145,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "<think>\n<layout>\n[<COORD_94>, , , ]\n[<COORD_92>, , , ]\n[<COORD_94>, , , ]\n[, , , ]\n[, , , ]\n[, , , ]\n[, , , ]\n[, , , ]\n[<COORD_93>, , , ]\n[<COORD_94>, , , ]\n[<COORD_93>, , , ]\n[, , , ]\n[<COORD_94>, , , ]\n[<COORD_94>, , , ]\n[<COORD_94>, , , ]\n[, , , ]\n[, , , ]\n[, , , ]\n</layout>\n<text_list>\n<text>## 知识概\n1. 平行四边形定义:有两组对动分别平行的四边形叫做平行四边形。</text>\n<text></text>\n<text>## 对角线关系 ___。</text>\n<text>证对边平行相等的四边形是平行四边形</text>\n<text>②对角线相交的四边形是平行四边形;\n证两组对边分别相等的四边形是平行四边形;</text>\n<text></text>\n<text></text>\n<text>和一组对边平行自等的是</text>\n<text>4. 三角形中位线平行于三角形的第三边,且等于第三边的一半。\n5. 直角三角形斜边上的中线等于斜边的一半。\n6. 矩形的定义:有一个角是直角的平行四边形。\n7. 矩形的性质:矩形的四个角都是直角;矩形的对角线平分且相等,AC=BD\n8. 矩形判定定理:\n① 有一个角是直角的平行四边形叫做矩形。\n② 对角线相等的平行四边形是矩形。\n___</text>\n<text></text>\n<text></text>\n<text></text>\n<text></text>\n<text></text>\n<text>②对角线相等的平行四边形是矩形</text>\n<text></text>\n<text>116</text>\n</text_list>\n</think>\n## 知识概\n1. 平行四边形定义:有两组对动分别平行的四边形叫做平行四边形。\n\n## 对角线关系 ___。\n证对边平行相等的四边形是平行四边形\n②对角线相交的四边形是平行四边形; 证两组对边分别相等的四边形是平行四边形;\n\n和一组对边平行自等的是\n4. 三角形中位线平行于三角形的第三边,且等于第三边的一半。 5. 直角三角形斜边上的中线等于斜边的一半。 6. 矩形的定义:有一个角是直角的平行四边形。 7. 矩形的性质:矩形的四个角都是直角;矩形的对角线平分且相等,AC=BD 8. 矩形判定定理: ① 有一个角是直角的平行四边形叫做矩形。 ② 对角线相等的平行四边形是矩形。 ___\n\n\n"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 1830,
19 "completion_tokens": 994,
20 "total_tokens": 2824
21 }
22}
非深度思考
prompt
Plain Text
1## 不保留页眉页脚
2"Perform OCR on the image and convert the recognized text into well-structured Markdown, excluding any header or footer content."
3"识别图像文字,去除页眉和页脚,以清晰的Markdown格式输出内容。"
4"Extract the main textual content from the image and output it in Markdown, skipping header/footer text."
5"从图像中提取正文内容,忽略页眉和页脚,保持段落与标题结构,以Markdown格式输出。"
6"Perform OCR on the image and format the result as clean, structured Markdown."
7"识别图片中的文字内容,并根据版式结构以Markdown输出。"
8"Convert the image text to Markdown, preserving headings, lists, and tables where possible."
9"将图像内容识别并转写为Markdown格式,尽量保持原有的层级与排版。"
10## 保留页眉页脚
11"Perform OCR on the image and output all recognized text in Markdown, including header and footer content."
12"Extract all text from the given image and convert it into a clean Markdown document, including headers and footers."
13"Read the image content and return the text as a structured Markdown file, including headers and footers."
14"从图片中提取所有文本,保留页眉和页脚,保持层次结构,输出Markdown格式。"
15"OCR the image and provide the result in Markdown syntax, keeping headers and footers."
16"识别图像文字,完整保留页眉和页脚,以Markdown格式输出。"
17"从图像中提取全部文本信息,保留页眉页脚,并按Markdown格式呈现。"
请求示例
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--data '{
5 "model": "qianfan-ocr",
6 "messages": [
7 {
8 "role": "user",
9 "content": [
10 {
11 "type": "text",
12 "text": "从图像中提取正文内容,忽略页眉和页脚,保持段落与标题结构,以Markdown格式输出。"
13 },
14 {
15 "type": "image_url",
16 "image_url": {
17 "url": "https://pplines-online.bj.bcebos.com/deploy/official/paddleocr/pp-ocr-vl//dcce4b6d-1a12-4741-b571-bd27cb574200/input_img_0.jpg?authorization=bce-auth-v1%2F5cfe9a5e1454405eb2a975c43eace6ec%2F2025-10-24T10%3A16%3A01Z%2F-1%2F%2F34dbe5163f75e0db030ba8a81f3ecdae00e7be74e052ac72ac2e57e0953de954"
18 }
19 }
20 ]
21 }
22 ]
23}'
返回
JSON
1{
2 "id": "as-xvxju6t8kq",
3 "object": "chat.completion",
4 "created": 1765203824,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "第四章 四边形\n知识概念\n1. 平行四边形定义:有两组对角分别平行的四边形叫做平行四边形. AB∥CD, AD∥BC AB=CD, AD∥BC ∠A=∠C, ∠B=∠D 2. 平行四边形的性质:平行四边形的对边相等,平行四边形的对角相等,平行四边形的对角线互相平分。\n\n### 3. 平行四边形的判定\n①两组对边分别相等的四边形是平行四边形\n②对角线互相平分的边形是平行四边形\n③两组对角分别相等的四边形是平行四边形。\n④一组对边平行且相等的四边形是平行四边形。\n\n4. 三角形中位线平行于三角形的第三边,且等于第三边的一半。\n①有一个角是直角的平行四边形叫做矩形。 ②对角线相等的平行四边形是矩形。\n5. 直角三角形斜边上的中线等于斜边的一半。\n6. 矩形的定义:有一个角是直角的平行四边形\n7. 矩形的性质:矩形的四个角都是直角;矩形的对角线平分且相等。AC=BD\n\n8. 矩形判定定理:"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 1829,
19 "completion_tokens": 388,
20 "total_tokens": 2217
21 }
22}
信息抽取
指定Schema
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--data '{
5 "model": "qianfan-ocr",
6 "messages": [
7 {
8 "role": "user",
9 "content": [
10 {
11 "type": "text",
12 "text": "请从图片中提取以下信息:“商品名称、数量、价格、商品税金、总金额、合计税额、开票金额、价税合计(大写)\n注意:\n1. 字段名与图像中的原始文字含义一致,但不一定完全一样。 \n2. 仅提取清晰可见且可确定的文字内容;模糊、缺失或无法确认的部分请忽略,不要猜测或补全。 \n3. 值完整提取及格式保持:提取完整的字段值,包括数字、符号、单位等,保持原始格式,包括空格、标点符号等。\n\n## 输出格式要求\n- 使用标准JSON格式\n- 字段名使用双引号包围\n- 字段值保持原始格式\n- 确保JSON格式正确可解析\n"
13 },
14 {
15 "type": "image_url",
16 "image_url": {
17 "url": "https://5b0988e595225.cdn.sohucs.com/images/20191222/ae5907499ae4441393b0293f1adcff29.jpeg"
18 }
19 }
20 ]
21 }
22 ]
23}'
返回
JSON
1{
2 "id": "as-jf3vvbcme3",
3 "object": "chat.completion",
4 "created": 1765206130,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "{\n \"商品名称\": [\n \"*信息技术服务*技术服务费\"\n ],\n \"数量\": [\n \"1\"\n ],\n \"价格\": [\n \"283.01886792\"\n ],\n \"商品税金\": [\n \"16.98\"\n ],\n \"总金额\": 283.02,\n \"合计税额\": 16.98,\n \"开票金额\": 300.0,\n \"价税合计(大写)\": \"叁佰圆整\"\n}"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 1968,
19 "completion_tokens": 123,
20 "total_tokens": 2091
21 }
22}
不指定Schema
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--data '{
5 "model": "qianfan-ocr",
6 "messages": [
7 {
8 "role": "user",
9 "content": [
10 {
11 "type": "text",
12 "text": "结构化图中的关键信息,以json格式输出"
13 },
14 {
15 "type": "image_url",
16 "image_url": {
17 "url": "https://5b0988e595225.cdn.sohucs.com/images/20191222/ae5907499ae4441393b0293f1adcff29.jpeg"
18 }
19 }
20 ]
21 }
22 ]
23}'
返回
JSON
1{
2 "id": "as-utj31uvt9w",
3 "object": "chat.completion",
4 "created": 1765206014,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "```json\n{\n \"购买方\": {\n \"名称\": \"北京快又专知识产权代理有限公司\",\n \"纳税人识别号\": \"91110105MA00123456\",\n \"地址、电话\": \"北京市朝阳区...\",\n \"开户行及账号\": \"招商银行股份有限公司北京望京支行11059101920010000001\"\n },\n \"销售方\": {\n \"名称\": \"北京微梦创科网络技术有限公司\",\n \"纳税人识别号\": \"91110105MA00123456\",\n \"地址、电话\": \"北京市海淀区...\",\n \"开户行及账号\": \"招商银行建外大街支行11011000100100000001\"\n },\n \"发票信息\": {\n \"发票号码\": \"13784454\",\n \"发票代码\": \"1100181130\",\n \"开票日期\": \"2016年03月06日\",\n \"密码区\": \"3-*21/09451>7-168691-701387\\n318<62>/<*3*9018047+33-2539<\\n87*52>6*5*>*4>3125-93879/<7\\n0383+3+>938/<3*/51/09-25+70\\n01\",\n \"备注\": \"期目前\"\n },\n \"商品明细\": [\n {\n \"货物或应税劳务、服务名称\": \"*信息技术服务*技术服务费\",\n \"规格型号\": \"WBT1606001\",\n \"单位\": \"个\",\n \"数量\": \"1\",\n \"单价\": \"283.01886732\",\n \"金额\": \"283.02\",\n \"税率\": \"6%\",\n \"税额\": \"16.98\"\n }\n ],\n \"合计\": {\n \"金额\": \"283.02\",\n \"税额\": \"16.98\",\n \"价税合计\": \"300.00\"\n },\n \"验收凭证\": {\n \"验收方签字\": \"王华\",\n \"验收日期\": \"2016年03月07日\"\n },\n \"其他信息\": {\n \"购买方联系人\": \"张三\",\n \"销售方联系人\": \"李四\",\n \"销售方电话\": \"010-12345678\",\n \"销售方地址\": \"北京市朝阳区XXX路XXX号\",\n \"备注\": \"服务税号:910105MA00065709H\"\n }\n}\n```"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 1814,
19 "completion_tokens": 656,
20 "total_tokens": 2470
21 }
22}
手写作文识别
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--header 'Cookie: BAIDUID=A6A2096C01B73EA08A05ED42AA999D7D:FG=1' \
5--data '{
6 "model": "qianfan-ocr",
7 "messages": [
8 {
9 "role": "user",
10 "content": [
11 {
12 "type": "text",
13 "text": "## 角色\n你是一个作文抽取专家。你需要根据输入的图片,识别其中与作文有关的内容。\n\n## 输出目标\n1.作文题目:独立标题文本,一般在稿纸首行或稿纸上方\n2.作文内容:稿纸内主体文字(含标记)\n\n## 内容标记规则(严格按位置标记)\n你需要在识别出的作文内容中添加标记,详细规则如下:\n## 注意\n1.不要输出印刷标题、版面注释或者创造新词,不要对作文内容进行扩写、更改(更改错别字除外),严格遵循原文输出。\n2.不要输出思考过程、对题目的分析和解释等任何其他内容。\n3.过滤批注/页码等非作文元素。\n4.换段时输出换段标记‘\\n\\n’,换行不需要输出标记,最后一行末尾也无需输出换段标记。\n5.大段红笔批注的内容无需输出。\n6.对于考生信息和标题,当常规位置无信息时,扫描全图非作文区域,若仍扫描不到,则json对应字段置空。\n\n## 输出格式\n请严格按照以下json格式输出,如果没有则输出空: \n```json\n{ \n\"作文题目\":\"xxx\",\n\"作文内容\":\"xxx\"\n}\n```\n"
14 },
15 {
16 "type": "image_url",
17 "image_url": {
18 "url": "https://pics0.baidu.com/feed/91ef76c6a7efce1b9a2b8471089995d1b58f6564.jpeg?token=37ef0a47d7e27ea61b2741861f5309fa"
19 }
20 }
21 ]
22 }
23 ]
24}'
返回
JSON
1{
2 "id": "as-xhh23hm8xc",
3 "object": "chat.completion",
4 "created": 1765204439,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "```json\n{\"作文题目\": \"我手写我心\", \"作文内容\": \"在每个安静的夜晚,我总是坐在书桌前,手握一支笔,或是在纸上描绘出我内心的波澜。这是我与自己对话的时刻,是我手写我心的开始。\\n\\n小时候,我的世界很小,小到只容得下一颗糖果的甜味和一个小伙伴的陪伴。那时,我的心是透明的,毫无杂质。我用稚嫩的笔触在作业本上写下“我长大要做个英雄”的豪言壮语。尽管简单,却无比真我。\\n\\n随着年龄的增长,生活的琐碎和学习的压力让我渐渐迷失了自我。我不再像从前那样轻松自在,反而被各种无形的枷锁所束缚。为了成绩,我埋头苦读;为了友谊,我小心翼翼地维持关系;为了迎合家人的期望,我强迫自己去做不喜欢的事情。在这段时间里,我的笔不再流畅,心中的声音也被压抑在深处。\\n\\n直到有一天,我无意中翻开了一本日记,那是我小学时写下的。我看到了一个个鲜活的字句,仿佛看到那个曾\"}```"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 3613,
19 "completion_tokens": 248,
20 "total_tokens": 3861
21 }
22}
文档问答
无固定prompt,支持中英文问答
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--header 'Cookie: BAIDUID=A6A2096C01B73EA08A05ED42AA999D7D:FG=1' \
5--data '{
6 "model": "qianfan-ocr",
7 "messages": [
8 {
9 "role": "user",
10 "content": [
11 {
12 "type": "text",
13 "text": "文档的标题是什么?"
14 },
15 {
16 "type": "image_url",
17 "image_url": {
18 "url": "https://pic.rmb.bdstatic.com/bjh/news/73b6364a6582806aedd95bb841a185d1.png"
19 }
20 }
21 ]
22 }
23 ]
24}'
返回
JSON
1{
2 "id": "as-viphqt0dr9",
3 "object": "chat.completion",
4 "created": 1765204616,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "辛勤的双手"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 3344,
19 "completion_tokens": 4,
20 "total_tokens": 3348
21 }
22}
图表解析
请求
Bash
1curl --location 'https://qianfan.baidubce.com/v2/chat/completions' \
2--header 'Content-Type: application/json' \
3--header 'Authorization: Bearer api-key' \
4--header 'Cookie: BAIDUID=A6A2096C01B73EA08A05ED42AA999D7D:FG=1' \
5--data '{
6 "model": "qianfan-ocr",
7 "messages": [
8 {
9 "role": "user",
10 "content": [
11 {
12 "type": "text",
13 "text": "提取一下图表信息,以JSON格式输出"
14 },
15 {
16 "type": "image_url",
17 "image_url": {
18 "url": "https://ngbjimg.xy599.com/466906094624803d3cc0c51.08244419.png"
19 }
20 }
21 ]
22 }
23 ]
24}'
返回
JSON
1{
2 "id": "as-ivjy3ihqns",
3 "object": "chat.completion",
4 "created": 1765204508,
5 "model": "qianfan-ocr",
6 "choices": [
7 {
8 "index": 0,
9 "message": {
10 "role": "assistant",
11 "content": "```json\n{\n \"title\": \"学生类型数量统计\",\n \"columns\": [\n {\n \"name\": \"\",\n \"type\": \"number\",\n \"format\": \"d\"\n }\n ],\n \"data\": [\n {\n \"本科生\": 532\n },\n {\n \"专科生\": 342\n },\n {\n \"研究生\": 211\n },\n {\n \"高中生\": 77\n },\n {\n \"博士生\": 45\n }\n ]\n}\n```"
12 },
13 "finish_reason": "stop",
14 "flag": 0
15 }
16 ],
17 "usage": {
18 "prompt_tokens": 1812,
19 "completion_tokens": 120,
20 "total_tokens": 1932
21 }
22}
评价此篇文章
