【升级】图像内容理解全面升级
发布日期:2024-08-14 09:39浏览量:2309次
近日,图像内容理解服务全面升级,优化图像理解效果,新增支持图像内容问答。同时,对部分返回字段及错误码进行调整。欢迎大家试用体验。
1、优化图像理解效果
扩充物体标签识别种类并提升准确率,优化对图像中各主体的空间位置感知能力,增强逻辑推理能力。
2、新增支持图像问答能力
可根据传入的 question 参数依据图像内容直接给出针对性回答,避免泛化性描述。例如,针对下图询问 “这张图展示的是哪个景点?”
当前版本返回:
"description": "这张照片展示了一个大型的夜间照明建筑群。该建筑群由多栋传统设计的建筑组成,以白色墙壁、红色屋顶和金色为特色。这些建筑堆叠在山坡上,中心是最大、最突出的结构。灯光突出了建筑细节,在黑暗的天空中为建筑带来了温暖的光芒。在前景中,有一个有几个人的屏障,这表明这可能是游客的观景区。图像的风格是一张照片,以高水平的细节和现实主义捕捉场景。图像中的人似乎在从事休闲活动,可能是欣赏风景或排队等候,他们没有传达任何可以从图像中看出的特定情感。图像中没有可见的文本。照明是人工的,可能来自建筑物本身的照明,与漆黑的夜空形成对比。"
升级后版本返回:
"description":"布达拉宫"
3、返回字段及错误码调整
- 返回结果中,subject_result、classify_result、ocr_result 字段变更为默认不输出;如需继续获取上述字段,可在请求参数中设置 subject_detect= true。
-
返回结果中,description_to_llm 字段变更为默认不输出,如需继续获取,可在请求参数中设置 llm_switch = false。
-
错误码变更,返回结果中 ret_code和 ret_msg 参数中的错误信息将在 error_code和 error_msg中返回错误码,错误码定义参考图像识别错误码。
-
详细内容可参考图像内容理解接口文档
体验AI
Web端 前往AI能力体验中心
移动端 打开百度APP“扫一扫”