通过自定义算子实现对本地模型调用

更新时间：2026-06-26

前提条件

已开通BOS、OOS、BLS权限。
已完成资源环境准备。
已将待测试PDF上传至元数据-数据卷下。

场景概览

本场景面向具备私有化本地模型部署需求的用户，依托百度胜算自定义算子能力，完成本地模型上传、封装、服务发布与工作流调度全流程。用户可将自有训练的图像、文本、多模态等本地模型上传至平台数据卷存储，基于 Ray 分布式算力封装自定义推理算子，无需依赖外部第三方 API 即可在平台工作流、Notebook 中完成离线批量推理、在线实时调用。支持模型版本管理、推理资源弹性分配、调用链路日志观测，实现本地模型与平台数据加工链路打通，满足企业数据不出域、模型私有化部署、定制化 AI 数据处理的安全业务诉求。

自定义算子物料包

物料项	链接	描述
镜像	https://operator.bj.bcebos.com/release/base_image/0.7/base-imgae-0.7.tar?authorization=bce-auth-v1%2FALTAK9KApiyYtkuoNE78fPPW0M%2F2026-05-27T02%3A19%3A38Z%2F-1%2Fhost%2F8500e8394a5167d1409d2a91106339002bda6466bdc0bb1086e86506285297c7	md5：7b1cd7b42b0fdf3ee712e264e420c46e 镜像中的重点软件版本如下： nvcc==12.4 python==3.10.12 torch==2.5.1 transformers==4.47.1 paddlepaddle==3.1.0 onnxruntime==1.21.1 * opencv-python==4.11.0.86
自定义算子样例包	/root/databuilder_dev	内置在算子镜像中，算子镜像创建的容器路径
	https://operator.bj.bcebos.com/release/operator/databuilder_dev-v0.3.2.tar?authorization=bce-auth-v1%2FALTAKRDyrIQOaBuxqyREAShe7e%2F2025-12-26T03%3A29%3A01Z%2F-1%2Fhost%2Fd62a50cc27701605487f9f59ea7b5192f31fc8a7151b52f0d5889c5bc52f457d	v0.3.2版本自定义算子样例包

操作步骤

步骤一：自定义算子准备

软件环境准备

按照以下步骤，完成自定义算子容器创建，算子开发、测试、打包都将在自定义算子容器内完成。

展开镜像

使用如下命令将算子镜像tar包展开为本地镜像，此命令需要在物理机上执行：

                Bash
                
            

                # 1. 下载模型包
wget -O  db_operator_dev.tar  "上述物料中镜像链接"
# 2. 进入算子镜像tar包所在目录
cd /xxx
# 3. 展开镜像
docker load < ./db_operator_dev.tar
            

镜像展开的时间约5分钟，可以通过下面的命令检查镜像是否成功展开：

                Bash
                
                docker image ls | grep iregistry.baidu-int.com/doris-rdw/algorithm/operator

镜像成功展开后会有类似如下输出：

创建容器

使用如下命令创建算子开发容器：

                Bash
                
            

                docker run -itd --gpus=all \
--privileged=true  \
--shm-size=64g \
--net=host \
--name db_op_dev \
iregistry.baidu-int.com/doris-rdw/algorithm/operator:0.7 \
/bin/bash
            

环境验证

算子开发容器创建完毕后，通过如下命令进入容器：

Bash

1docker exec -it db_op_dev /bin/bash

进入容器，可以通过镜像预置的自定义算子测试代码验证开发环境：

                Bash
                
                # 1. 进入阈值自定义算子测试目录
cd /root/databuilder_dev/tests
# 2. 运行标点替换算子测试脚本
sh run_punctuation_replace.sh

算子运行成功后输出如下内容：

预置自定义算子介绍

镜像中内置了3个自定义算子（image_resizer/punctuation_filter/punctuation_replacer）：
以下是3个算子的测试脚本：

Transformer算子介绍

类属性 - 算子元信息定义

image (93).png 算子属性用于定义算子基础特征与运行环境参数，是算子框架完成算子识别、生命周期管控与资源调度的核心元数据。

初始化方法 - 参数设置与预处理

image (94).png 初始化时完成：

参数传递
- 通过*args, **kwargs隐式支持父类参数（如text_key指定文本字段名）。
- 无显式参数，简化调用接口。
预处理优化
- 正则预编译：在初始化时编译r'([^\w\s])+'模式，提升运行时性能。
- 模式语义：匹配所有非字母数字（\w）且非空白（\s）的连续字符。
资源准备
- 无外部资源依赖（如模型加载），轻量级初始化。

核心处理方法 - 单样本处理逻辑

image (95).png 处理流程：

输入输出结构
- 输入：要求samples为字典，且包含self.text_key指定的文本列表。
- 输出：保持原数据结构，仅更新文本内容。
核心逻辑
- 正则替换：使用预编译模式匹配标点符号。
- 等量空格替换：通过lambda动态生成与匹配项等长的空格（如...→）。
- 列表推导式：高效实现批量处理。

接口调用示例

                Python
                
            

                # 1. input data
    samples = [
        {
            'images': './images/cat.jpg'
        },
        {
            'images': './images/cat2.jpg'
        },
        {
            'images': './images/lena.jpg'
        }
    ]

    input_dataset = RayDataset.from_list(samples)

    # 2. create operator
    dst_path = './ret'
    os.makedirs(dst_path, exist_ok=True)
    op = ImageResizer(width=1024, height=1024, dst_path=dst_path, need_hash_name=False)

    # 3. run
    output_dataset = input_dataset.run(op)

    # 4. get & check result
    image_path = output_dataset.get_column(column=op.image_key)
    
    for name in image_path:
        image = Image.open(name)
        print(f'---result image {name} shape: {image.size}')
            

步骤二：自定义算子开发

准备模型

登录百度胜算控制台，进入已经创建好的工作空间。在侧边导航栏选择元数据。
单击新建按钮，选择创建数据目录，配置数据目录名称为demo_test。
选择已创建好的数据目录demo_test，依次单击default>立即创建>创建模型。
在创建好的模型目录页面，单击右上角的创建按钮，在弹窗中输入模型名称并点击确定，即可创建出不同版本的模型目录。
单击创建好的模型版本，进入页面后，单击右侧上传文件，选择自定义算子准备中打包好的模型进行上传。

注意：如果提示超出上传文件限制大小，请联系对接人员！

代码撰写

实现对第三方模型服务的调用，以加载本地qwen-vl为例，在catalog_op目录下新建文件夹load_localmodel_vllm，代码撰写要求如下：

加载模型一定要放在 if preload: 之后。
_processor = 'cuda' ，要保证有GPU的服务器资源。
可以设置 model_path, model_name 两个参数，这样方便后续我们更换模型后，也不需要更改代码。
model_path : 为上面创建的模型目录地址，/Models/catalog_op/default/qwen2_vl/v1/。
self.smart_file.volume_2_local(image_path, self.download_path) 这是用来从远程volume下载到本地的命令。
想输出的字段都可以通过samples["xx"] = xx 来输出，保存到volume的文件中。

                Python
                
            

                #!/usr/bin/env python
# -*- coding: UTF-8 -*-
# Copyright (c) 2025 Baidu, Inc. All Rights Reserved.
#
# Licensed under the Apache License, Version 2.0 (the "License");
# you may not use this file except in compliance with the License.
# You may obtain a copy of the License at
#
#     http://www.apache.org/licenses/LICENSE-2.0
#
# Unless required by applicable law or agreed to in writing, software
# distributed under the License is distributed on an "AS IS" BASIS,
# WITHOUT WARRANTIES OR CONDITIONS OF ANY KIND, either express or implied.
# See the License for the specific language governing permissions and
# limitations under the License.

"""File load_localmodel_vllm.py"""

import base64
import json
import os
import re
import time

from palette.ops.base import Transformer
from databuilder.model.util import get_model_path
from palette.util.file_utils import SmartFile

os.environ["TRANSFORMERS_OFFLINE"] = "1"
os.environ["HF_DATASETS_OFFLINE"] = "1"

def _parse_llm_json(llm_output):
    """从模型输出中提取并解析 JSON，失败时返回 None"""
    try:
        match = re.search(r"```(?:json)?\s*(.*?)```", llm_output, re.DOTALL)
        if match:
            json_str = match.group(1)
        else:
            first_curly  = llm_output.find('{')
            first_square = llm_output.find('[')
            if first_curly == -1 and first_square == -1:
                raise ValueError("未找到 JSON 开始符号")
            if first_curly != -1 and (first_square == -1 or first_curly < first_square):
                json_str = llm_output[first_curly: llm_output.rfind('}') + 1]
            else:
                json_str = llm_output[first_square: llm_output.rfind(']') + 1]
        return json.loads(json_str)
    except Exception as e:
        print(f"[LoadLocalModelVLLM] JSON 解析失败: {e}")
        return None


class LoadLocalModelVLLM(Transformer):
    """
    本地 vLLM 模型推理算子
    功能：
    1. 从 volume 路径下载图片到本地
    2. 使用本地 vLLM 模型对图片进行推理标注
    3. 解析模型输出的 JSON，写入 annotations 字段
    """
    _op_type = "transform"
    _batched_op = True
    _processor = 'cuda'
    _name = "load_localmodel_vllm"
    _ray_execute_mode = "PIPELINE_ACTOR"
    _ray_batch_format = "numpy"

    def __init__(self,
                 model_path: str = '',
                 system_prompt: str = '',
                 user_prompt: str = '',
                 max_tokens: int = 4096,
                 max_model_len: int = 8192,
                 temperature: float = 0.7,
                 top_p: float = 0.9,
                 preload: bool = False,
                 *args, **kwargs):
        """
        :param model_path: 模型路径，由平台注册的完整路径
        :param system_prompt: 系统提示词，为空时使用内置默认值
        :param user_prompt: 用户提示词，为空时使用内置默认值
        :param max_tokens: 最大输出 token 数
        :param max_model_len: 模型最大上下文长度
        :param temperature: 生成随机性
        :param top_p: 核采样阈值
        :param preload: 为 True 时在构造阶段完成模型加载
        """
        super().__init__(*args, **kwargs)
        self.model_path = model_path
        self.system_prompt = system_prompt or (
            '你是一个专业的图像分析专家。'
            '请仔细分析图片内容，以 JSON 格式返回结果。'
        )
        self.user_prompt = user_prompt or (
            '请分析这张图片，提取能描述图片内容的标签列表。'
            '标签应涵盖主体、场景、风格、颜色等维度。'
            '以 JSON 格式返回，格式为：{"tags": ["标签1", "标签2", ...]}'
        )
        self.max_tokens = max_tokens
        self.max_model_len = max_model_len
        self.temperature = temperature
        self.top_p = top_p
        self.model = None
        self.sampling_params = None
        self.smart_file = SmartFile()
        self.download_path = os.path.join(
            os.getcwd(),
            os.path.splitext(os.path.basename(__file__))[0]
        )
        print(f"[LoadLocalModelVLLM] init, model_path={model_path}, preload={preload}")
        if preload:
            from vllm import LLM, SamplingParams
            import torch

            os.makedirs(self.download_path, exist_ok=True)
            full_model_path = get_model_path(model_path)
            print(f"[LoadLocalModelVLLM] preload=True, full_model_path={full_model_path}")

            t0 = time.perf_counter()
            device = 'cuda' if torch.cuda.is_available() else 'cpu'
            print(f"[LoadLocalModelVLLM] 开始加载模型, device={device}")
            self.model = LLM(
                model=full_model_path,
                tokenizer=full_model_path,
                trust_remote_code=True,
                max_model_len=self.max_model_len,
                device=device,
            )
            self.sampling_params = SamplingParams(
                max_tokens=self.max_tokens,
                temperature=self.temperature,
                top_p=self.top_p,
            )
            print(f"[LoadLocalModelVLLM] 模型加载完成，耗时 {time.perf_counter() - t0:.4f}s")

    def __call__(self, samples, *args, **kwargs):
        src_images = samples[self.image_key].tolist()
        print(f"[LoadLocalModelVLLM] __call__ 开始，batch size={len(src_images)}")
        tags_list = []

        for i, image_path in enumerate(src_images):
            print(f"[LoadLocalModelVLLM] 处理第 {i+1}/{len(src_images)} 张: {image_path}")
            try:
                local_path = self.smart_file.volume_2_local(image_path, self.download_path)
                with open(local_path, "rb") as f:
                    image_data = base64.b64encode(f.read()).decode("utf-8")

                messages = [
                    {"role": "system", "content": [{"type": "text", "text": self.system_prompt}]},
                    {"role": "user", "content": [
                        {"type": "text", "text": self.user_prompt},
                        {"type": "image_url", "image_url": {"url": f"data:image/jpeg;base64,{image_data}"}},
                    ]},
                ]
                outputs = self.model.chat([messages], self.sampling_params)
                raw_output = outputs[0].outputs[0].text
                print(f"[LoadLocalModelVLLM] 推理完成，raw_output length={len(raw_output)}")
                parsed = _parse_llm_json(raw_output)
                tags = parsed.get('tags', parsed) if isinstance(parsed, dict) else parsed
            except Exception as e:
                print(f"[LoadLocalModelVLLM] 推理失败 {image_path}: {e}")
                tags = None

            tags_list.append(tags)

        print(f"[LoadLocalModelVLLM] __call__ 完成，processed={len(tags_list)}")
        samples['tags'] = tags_list
        return samples
            

步骤三：自定义算子打包

打包命令

核心代码撰写完毕后，开始打whl包：

Plain Text

1cd /root/databuilder_dev
2sh ./build.sh

image - 2026-06-26T193009.256.png 生成的自定义算子包whl文件存储在 /root/databuilder_dev/output/dist 路径下： image - 2026-06-26T193042.887.png

安装whl包

使用如下命令在自定义算子开发容器内按照whl包：

Plain Text

1cd /root/databuilder_dev/output/dist 
2pip install databuilder_vendor_operators-0.3.0-py3-none-any.whl

安装完毕后，可以运行 /root/databuilder_dev/tests 路径下的 run_xxx.sh 脚本在本地测试算子
算子在本地测试通过后，可以上线到DataBuilder平台

步骤四：自定义算子上线

以load_localmodel_vllm算子为例，下面介绍一下算子创建流程。

创建算子

如果要自己新建自定义算子，选择default，单击立即创建-创建算子。 image - 2026-06-26T193102.070.png

填写信息

填入算子名称和算子别名，并选择提交并创建算子版本。 image - 2026-06-26T193121.280.png 单击提交并创建算子版本进入，依次填写以下信息。算子类型要写TRANSFORM，添加文件就选择我们打好的whl包

【注意】：类名必须是完整的自定义算子whl包+算子类名 image - 2026-06-26T193144.973.png

依赖模型选择，需要选择我们上面上传模型zip包对应的目录
填写参数分为三种
- 输入参数，为算子执行的时候处理的samples所对应的key。代码是处理samples[image_key]，所以我们就填写images
  - text_key: text
  - image_key: images
  - video_key: videos
  - audio_key: audios
  - document_key: documents
- 输出参数，为算子最后输出的结果，代码中有 samples['file_name'] = file_names ， samples['annotations'] = annotations。所以需要把file_name、annotations 都作为输出参数进行填写
- 运行参数，为算子初始化传入的参数，除了下面的model_path,model_name。 system_prompt、user_prompt等都可以作为运行参数进行设置

image - 2026-06-26T193204.675.png

保存算子

填写完成后点击保存。保存后的算子可以在以下目录下找到。 image - 2026-06-26T193225.897.png

步骤五：自定义算子使用

创建工作流

可以点击右侧的创建工作流新建一个工作流。 image - 2026-06-26T193225.897.png image - 2026-06-26T193316.559.png image - 2026-06-26T193328.857.png

导入文件元数据加载器和数据输出器

单击算子任务后，然后单击小三角，可以打开左侧的算子节点列。然后在搜索框输入元数据以及输出，将文件元数据加载器和数据输出器放到画布中。

image - 2026-06-26T193346.721.png image - 2026-06-26T193401.051.png image - 2026-06-26T193415.917.png 填入输入路径以及输出路径参数，在设置参数的时候，需要点击下该算子，才会出现右侧的基本信息。

file_key要与我们自定义算子接受的xx_key对应的值保持一致，比如我们接受的是代码是处理samples[image_key]，所以我们就填写images
- text_key: text
- image_key: images
- video_key: videos
- audio_key: audios
- document_key: documents

image - 2026-06-26T193428.796.png image - 2026-06-26T193447.119.png

导入自定义算子

单击左侧自定义算子，然后单击画布中的自定义算子，会出现右侧的基本信息。 image - 2026-06-26T193503.113.png 单击浏览，选择我们算子所在的路径，并选择正确的版本，最后把补充模型运行参数，其中model_path可以直接在元数据处进行复制。 image - 2026-06-26T193521.467.png image - 2026-06-26T193531.973.png 把画布里的算子顺序进行连线调整，然后单击保存，并单击立即运行，开始运行工作流。 image - 2026-06-26T193548.498.png