多语言文本翻译
更新时间:2026-06-15
简介
Seed-X 多语言文本翻译模型 - 跨语言文本翻译 核心功能
功能描述
- 多语言智能翻译
- 支持多种语言间的文本转换,可通过source_language和target_language参数自定义源语言和目标语言
- 基于Seed-X-Instruct-7B/Seed-X-PPO-7B模型,提供高质量翻译结果
- 支持语种请参考: https://huggingface.co/ByteDance-Seed/Seed-X-Instruct-7B
- 一般场景中,推荐使用Seed-X-PPO-7B模型,其在翻译质量上效果更佳
- 灵活配置与优化
- 支持多种计算精度选择(bfloat16等),适配不同性能需求
- 集成张量并行处理和前缀缓存技术,显著提升推理效率
- 支持自动或手动设备分配,完美适配单卡/多卡环境
- 资源使用
- 请使用24G以上显存的GPU
- 推荐使用NVIDIA L20、A10、A800、A100等高性能GPU以获得最佳推理性能
- 广泛适用于跨语言内容转换、多语言文档处理、国际化应用开发等场景
- 内置批处理机制,高效支持大规模文本数据并行翻译
- 支持精确控制最大生成 tokens 数量,满足多样化业务需求
算子参数
输入
| 输入 | 含义 |
|---|---|
| contents | 包含待翻译文本的数组,元素类型为字符串。 |
输出
| 输出 | 含义 |
|---|---|
| result | 处理后的数组,元素为每个文本的翻译结果。对于处理失败的文本,返回空字符串。 |
参数
| 参数名称 | 类型 | 默认值 | 描述 |
|---|---|---|---|
| model_path | str | '/opt/aihc/models' | 本地模型文件存储的绝对路径,默认为容器内预置路径。当使用自定义模型时需修改此路径 默认值:"/opt/aihc/models" |
| model_name | str | 'Seed-X-PPO-7B' | 支持的多语言模型名称,当前支持Seed-X-Instruct-7B/Seed-X-PPO-7B系列模型 可选值:["Seed-X-Instruct-7B", "Seed-X-PPO-7B"] 默认值:"Seed-X-PPO-7B" |
| dtype | str | 'bfloat16' | 模型推理精度选择 默认值:"bfloat16" |
| max_model_len | int | 32768 | 模型支持的最大序列长度 默认值:32768 |
| max_num_seqs | int | 128 | 模型同时处理的最大序列数量 默认值:128 |
| tensor_parallel_size | int | 1 | 张量并行计算的设备数量,用于多GPU并行推理 默认值:1 |
| enable_prefix_caching | bool | True | 是否启用前缀缓存机制,可提升重复前缀的推理效率 默认值:True |
| gpu_memory_utilization | float | 0.9 | GPU内存使用比例,范围0-1 默认值:0.9 |
| use_cot | bool | False | 是否使用思维链(Chain-of-Thought)模式进行翻译 默认值:False |
| source_language | str | 'Chinese' | 源语言名称,支持的语言请参考模型文档 默认值:"Chinese" |
| target_language | str | 'English' | 目标语言名称,支持的语言请参考模型文档 默认值:"English" |
| max_tokens | int | 1024 | 模型生成翻译结果的最大token数 默认值:1024 |
| batch_size | int | 4 | 单次推理处理的文本样本数量 默认值:4 |
| seed | int | 42 | 随机数种子,用于结果复现 默认值:42 |
调用示例
Python
1from __future__ import annotations
2
3import os
4
5import daft
6from daft import col
7
8from daft.aihc.common.udf import aihc_udf
9from daft.aihc.functions.text.multilingual_text_translate import MultilingualTextTranslate
10
11if __name__ == "__main__":
12 if os.getenv("DAFT_RUNNER", "native") == "ray":
13 import ray
14 ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
15 daft.set_runner_ray()
16 daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)
17
18 # TODO: 根据实际场景准备样本数据
19 samples = {"contents": [...]}
20 ds = daft.from_pydict(samples)
21 constructor_kwargs = {
22 "model_path": '/opt/aihc/models',
23 "model_name": 'Seed-X-PPO-7B',
24 "dtype": 'bfloat16',
25 "max_model_len": 32768,
26 "max_num_seqs": 128,
27 }
28 ds = ds.with_column(
29 "result",
30 aihc_udf(
31 MultilingualTextTranslate,
32 construct_args=constructor_kwargs,
33 num_cpus=1,
34 concurrency=4,
35 batch_size=8,
36 )(col("contents")),
37 )
38 ds.show()
评价此篇文章
