多语言文本翻译

更新时间：2026-06-15

简介

Seed-X 多语言文本翻译模型 - 跨语言文本翻译核心功能

功能描述

多语言智能翻译
支持多种语言间的文本转换，可通过source_language和target_language参数自定义源语言和目标语言
基于Seed-X-Instruct-7B/Seed-X-PPO-7B模型，提供高质量翻译结果
支持语种请参考: https://huggingface.co/ByteDance-Seed/Seed-X-Instruct-7B
一般场景中，推荐使用Seed-X-PPO-7B模型，其在翻译质量上效果更佳
灵活配置与优化
支持多种计算精度选择（bfloat16等），适配不同性能需求
集成张量并行处理和前缀缓存技术，显著提升推理效率
支持自动或手动设备分配，完美适配单卡/多卡环境
资源使用
请使用24G以上显存的GPU
推荐使用NVIDIA L20、A10、A800、A100等高性能GPU以获得最佳推理性能
广泛适用于跨语言内容转换、多语言文档处理、国际化应用开发等场景
内置批处理机制，高效支持大规模文本数据并行翻译
支持精确控制最大生成 tokens 数量，满足多样化业务需求

算子参数

输入

输入	含义
contents	包含待翻译文本的数组，元素类型为字符串。

输出

输出	含义
result	处理后的数组，元素为每个文本的翻译结果。对于处理失败的文本，返回空字符串。

参数

参数名称	类型	默认值	描述
model_path	str	'/opt/aihc/models'	本地模型文件存储的绝对路径，默认为容器内预置路径。当使用自定义模型时需修改此路径默认值："/opt/aihc/models"
model_name	str	'Seed-X-PPO-7B'	支持的多语言模型名称，当前支持Seed-X-Instruct-7B/Seed-X-PPO-7B系列模型可选值：["Seed-X-Instruct-7B", "Seed-X-PPO-7B"] 默认值："Seed-X-PPO-7B"
dtype	str	'bfloat16'	模型推理精度选择默认值："bfloat16"
max_model_len	int	32768	模型支持的最大序列长度默认值：32768
max_num_seqs	int	128	模型同时处理的最大序列数量默认值：128
tensor_parallel_size	int	1	张量并行计算的设备数量，用于多GPU并行推理默认值：1
enable_prefix_caching	bool	True	是否启用前缀缓存机制，可提升重复前缀的推理效率默认值：True
gpu_memory_utilization	float	0.9	GPU内存使用比例，范围0-1 默认值：0.9
use_cot	bool	False	是否使用思维链(Chain-of-Thought)模式进行翻译默认值：False
source_language	str	'Chinese'	源语言名称，支持的语言请参考模型文档默认值："Chinese"
target_language	str	'English'	目标语言名称，支持的语言请参考模型文档默认值："English"
max_tokens	int	1024	模型生成翻译结果的最大token数默认值：1024
batch_size	int	4	单次推理处理的文本样本数量默认值：4
seed	int	42	随机数种子，用于结果复现默认值：42

调用示例

                Python
                
            

                from __future__ import annotations

import os

import daft
from daft import col

from daft.aihc.common.udf import aihc_udf
from daft.aihc.functions.text.multilingual_text_translate import MultilingualTextTranslate

if __name__ == "__main__":
    if os.getenv("DAFT_RUNNER", "native") == "ray":
        import ray
        ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
        daft.set_runner_ray()
    daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)

    # TODO: 根据实际场景准备样本数据
    samples = {"contents": [...]}
    ds = daft.from_pydict(samples)
    constructor_kwargs = {
        "model_path": '/opt/aihc/models',
        "model_name": 'Seed-X-PPO-7B',
        "dtype": 'bfloat16',
        "max_model_len": 32768,
        "max_num_seqs": 128,
    }
    ds = ds.with_column(
        "result",
        aihc_udf(
            MultilingualTextTranslate,
            construct_args=constructor_kwargs,
            num_cpus=1,
            concurrency=4,
            batch_size=8,
        )(col("contents")),
    )
    ds.show()
            

评价此篇文章

有帮助没帮助

文本困惑度计算

文本 sparse & dense embedding

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

多语言文本翻译

简介

功能描述

算子参数

输入

输出

参数

调用示例