图像内容理解

更新时间：2025-03-21

接口描述

该请求用于图像内容理解，支持输入图片和提问信息，多维度识别与理解图片内容，包括人、物、行为、场景、文字等，输出对图片内容的描述。用于图片内容问答，图片打标签，图片物体识别等业务场景。图像内容理解服务涉及 2 个子接口，分别为：

图像内容理解-提交请求：支持传入图片、提问等参数，创建图像内容理解任务，该接口会返回任务ID。
图像内容理解-获取结果：在任务成功创建后，支持传入任务ID，查看任务处理的状态、获取处理完成后返回的结果。

图像内容理解-提交请求

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求示例

HTTP 方法：POST

请求URL： https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/request

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/json

Body中放置请求参数，要求使用json格式的结构体来描述一个请求的具体内容，参数详情如下：

请求参数

参数	是否必选	类型	可选值范围	说明
image	和 url 二选一	string	-	图片数据，base64 编码后进行 urlencode，要求 base64 编码和 urlencode 后大小不超过 10M，最短边至少 64px，最长边最大 8192px，支持JPG/JPEG/PNG/BMP/WEBP格式优先级：image > url，当 image 字段存在时，url 字段失效注意：超过 4096px 的图片，将被自动等比例压缩至 4096px 进行处理，压缩后会影响处理效果
url	和 image 二选一	string	-	图片完整 url，url 长度不超过 1024 字节，要求 base64 编码和 urlencode 后大小不超过 10M，最短边至少 64px，最长边最大 8192px，支持JPG/JPEG/PNG/BMP/WEBP格式优先级：image > url，当 image 字段存在时，url 字段失效注意：超过 4096px 的图片，将被自动等比例压缩至 4096px 进行处理，压缩后会影响处理效果请注意关闭URL防盗链
question	是	string	-	提问信息，如“这张图片里有什么？”、“图中的人物是谁，并进行简单介绍” 限制 100 个字符之内

返回参数

字段	类型	说明
log_id	uint64	唯一的log id，用于问题定位
result	object	返回结果列表
+ task_id	string	该请求生成的task_id，后续使用该task_id获取识别结果

返回示例

                JSON
                
            

                {
    "result": {
        "task_id": "1826091287582742824"
    },
    "log_id": "1826091287582742824"
}
            

图像内容理解-获取结果

在线调试

您可以在示例代码中心中调试该接口，可进行签名验证、查看在线调用的请求内容和返回结果、示例代码的自动生成。

请求示例

HTTP 方法：POST

请求URL：https://aip.baidubce.com/rest/2.0/image-classify/v1/image-understanding/get-result

URL参数：

参数	值
access_token	通过API Key和Secret Key获取的access_token,参考“Access Token获取”

Header如下：

参数	值
Content-Type	application/json

Body中放置请求参数，要求使用json格式的结构体来描述一个请求的具体内容，参数详情如下：

请求参数

参数	是否必选	类型	可选值范围	说明
task_id	是	string	-	调用提交请求接口时，返回的task_id

返回参数

字段	类型	说明
log_id	uint64	唯一的log id，用于问题定位
result	object	返回结果列表
+ task_id	string	该结果对应请求的task_id
+ ret_code	int	识别状态，0：处理成功；1：处理中
+ ret_msg	string	识别状态信息，success：处理成功；processing：处理中
+ description	string	针对输入的 question 问题，对图片内容进行分析后输出的答案

返回示例

                JSON
                
            

                {
    "result": {
        "task_id": "1826091287582742824",
        "ret_msg": "success",
        "ret_code": 0,
        "description": "这张图片展示的是位于中国西藏自治区拉萨市区西北玛布日山上的布达拉宫，它是藏传佛教的宗教圣地，同时也是中国的世界文化遗产之一，以其宏伟的建筑风格和深厚的文化底蕴吸引着无数游客前来参观。"
    },
    "log_id": "1826091451221753557"
}
            

评价此篇文章

有帮助没帮助

看图识万物

图像单主体检测

百度智能云

图像识别

图像识别

图像内容理解

接口描述

图像内容理解-提交请求

图像内容理解-获取结果