【升级】图像内容理解全面升级

发布日期：2024-08-14 09:39浏览量：2995次

近日，图像内容理解服务全面升级，优化图像理解效果，新增支持图像内容问答。同时，对部分返回字段及错误码进行调整。欢迎大家试用体验。

1、优化图像理解效果

扩充物体标签识别种类并提升准确率，优化对图像中各主体的空间位置感知能力，增强逻辑推理能力。

2、新增支持图像问答能力

可根据传入的 question 参数依据图像内容直接给出针对性回答，避免泛化性描述。例如，针对下图询问 “这张图展示的是哪个景点？”

当前版本返回：

"description": "这张照片展示了一个大型的夜间照明建筑群。该建筑群由多栋传统设计的建筑组成，以白色墙壁、红色屋顶和金色为特色。这些建筑堆叠在山坡上，中心是最大、最突出的结构。灯光突出了建筑细节，在黑暗的天空中为建筑带来了温暖的光芒。在前景中，有一个有几个人的屏障，这表明这可能是游客的观景区。图像的风格是一张照片，以高水平的细节和现实主义捕捉场景。图像中的人似乎在从事休闲活动，可能是欣赏风景或排队等候，他们没有传达任何可以从图像中看出的特定情感。图像中没有可见的文本。照明是人工的，可能来自建筑物本身的照明，与漆黑的夜空形成对比。"

升级后版本返回：

"description":"布达拉宫"

3、返回字段及错误码调整

返回结果中，subject_result、classify_result、ocr_result 字段变更为默认不输出；如需继续获取上述字段，可在请求参数中设置 subject_detect= true。

返回结果中，description_to_llm 字段变更为默认不输出，如需继续获取，可在请求参数中设置 llm_switch = false。
错误码变更，返回结果中 ret_code和 ret_msg 参数中的错误信息将在 error_code和 error_msg中返回错误码，错误码定义参考图像识别错误码。
详细内容可参考图像内容理解接口文档

百度图像技术现已推出：通用物体和场景识别、植物识别、动物识别、车型识别、菜品识别、相似图片搜索、相同图片搜索、商品图片搜索、图像清晰度增强、图像风格转换等产品，满足各种场景的使用需求。提供在线API、私有化部署等方式，接入便捷、稳定可靠。

上一篇：【商用】OCR智能结构化火热开售，低至0.03元/次！

下一篇：【商用】OCR文件检测分类火热开售，低至0.01元/次！

合作咨询

售前咨询

填写您的业务需求，专属客户经理会尽快联系您，提供1对1咨询服务

售后智能助手

智能诊断，快速解决使用问题

联系销售

更多咨询，请拨打400-920-8999 转 1

体验AI

Web端前往AI能力体验中心

移动端打开百度APP“扫一扫”