三分钟创建一个视觉AI技能

更新时间：2026-05-08

一见技能开发平台提供低代码的技能编排能力，通过拖拽式节点编排，您可以在几分钟内完成一个视觉AI技能的开发。让我们通过一个简单的实例——店员身份识别，快速体验技能编排的完整流程。

场景描述：上传一张连锁餐饮/茶饮店内图片，技能自动店员和顾客，并分析店员行为。

完整流程概览:

创建技能 – 定义技能基本信息
编排技能 – 配置节点构建分析流程
发布技能API – 将技能发布为可调用的API
调用技能 – 通过API使用技能能力

第一步：创建技能

登录「一见技能开发平台」
选择“工作空间>技能”，点击【技能编排】，进入「技能编排」页面。
点击【创建技能】，在弹出的创建对话框中填写：

技能名称：零售门店店员识别
技能描述：识别门店内的店员和顾客，分析店员行为

新创建的技能，状态为“待发布”。

第二步：编排技能

点击创建的技能卡片，进入「技能编排」。您会看到左侧的节点列表、中间的编排画布和右侧的节点配置面板。
在画布中按“开始节点-模型节点-处理节点（可选）-判断节点（可选）-结束节点”的顺序串联，即可编排一个技能。
本次我们只需要配置开始、模型、结束三个核心节点，即可完成店员身份识别技能创建。

从左侧的节点列表，选择多模态大模型节点，拖动至画布，并完成连线。

单击画布中「开始」节点，进行配置

节点说明：开始节点是技能的入口，定义了技能接收的输入数据类型。选择"图像"后，技能可以接收门店监控画面或上传的门店照片。
输入参数配置：本场景中，用户需要上传现场图片进行分析，开始节点预置一个Image类型的输入参数，用于图片输入，不需要进行额外配置。

单击画布中「多模态大模型」节点，进行配置

节点说明：多模态大模型节点是技能的核心，它能够理解门店画面内容，根据服装特征识别店员和顾客，并生成结构化的分析报告。
模型选择：在模型区域，展开模型列表，选择用来执行翻译任务的大模型。例如选择：一见多模态大模型-VQA-Pro
输入参数配置：配置输入参数，这些输入参数可以在模型提示词中使用。点击参数的输入框，在下拉列表中选择前序节点中的输出。本示例中需要输入的是用于分析的图片，选择开始节点输出的图片。

提示词配置：在提示词区域，输入以下内容作为系统提示词。提示词是一组指示模型行为和功能范围的指令，可以基于输入图片对模型提出指令，如询问图片内容。

Plain Text

1你是一位专业的零售门店分析师。请分析这张门店监控画面，识别店员和顾客。
2## 识别规则：
31. 店员特征：
4   - 穿着统一的工作服（通常有品牌Logo或特定颜色）
5   - 佩戴工牌或胸牌
6   - 站在收银台、服务台等工作区域
7   - 正在为顾客提供服务
82. 顾客特征：
9   - 穿着便装，没有统一工作服
10   - 手持购物篮、购物袋或商品
11   - 正在浏览商品或排队结账
12   - 没有佩戴工牌
13## 返回信息：
141. 画面中的人数统计
152. 店员数量
163. 店员位置描述
174. 服务状态分析（是否有店员空闲、是否需要支援）