说话人分离

更新时间：2026-06-15

简介

基于pyannote-audio的说话人分离处理器

功能描述

多说话人语音分离与时间戳标注
输出带说话人标签的语音分段元数据
输入：音频
输出：包含以下字段的结构化数据
speaker: 说话人唯一标识
start: 语音段开始时间（秒）
end: 语音段结束时间（秒）
使用speaker-diarization-3.1说话人分离模型
支持GPU加速推理（需配置CUDA环境）

算子参数

输入

输入	含义
audios	包含多个音频数据的数组

输出

输出	含义
result	pa.Array: 包含说话人分离结果的数组

参数

参数名称	类型	默认值	描述
model_path	str	'/opt/aihc/models'	模型文件所在的路径
rank	int	0	用于指定使用的 GPU 设备编号

调用示例

                Python
                
            

                from __future__ import annotations

import os

import daft
from daft import col

from daft.aihc.common.udf import aihc_udf
from daft.aihc.functions.audio.audio_speaker_diarization import AudioSpeakerDiarization

if __name__ == "__main__":
    if os.getenv("DAFT_RUNNER", "native") == "ray":
        import ray
        ray.init(dashboard_host="0.0.0.0", ignore_reinit_error=True)
        daft.set_runner_ray()
    daft.set_execution_config(actor_udf_ready_timeout=6000, min_cpu_per_task=0)

    # TODO: 根据实际场景准备样本数据
    samples = {"audios": [...]}
    ds = daft.from_pydict(samples)
    constructor_kwargs = {
        "model_path": '/opt/aihc/models',
        "rank": 0,
    }
    ds = ds.with_column(
        "result",
        aihc_udf(
            AudioSpeakerDiarization,
            construct_args=constructor_kwargs,
            num_cpus=1,
            concurrency=4,
            batch_size=8,
        )(col("audios")),
    )
    ds.show()
            

评价此篇文章

有帮助没帮助

音频人声分离

语音识别(Whisper)

百度智能云

百度百舸 · AI计算平台

百度百舸 · AI计算平台

说话人分离

简介

功能描述

算子参数

输入

输出

参数

调用示例