数字人MCP服务使用说明

更新时间：2025-08-19

简介

百度智能云数字员工-开放平台，现在已经全面适配MCP协议。欢迎各位创作者接入体验。

数字人开放平台面向企业及个人开发者，提供高性能、易集成和多样化的数字人组件能力，满足多类型数字人形象及声音定制、视频合成、交互对话、直播等应用需要，支持公有云调用与私有化部署。帮助开发者快速集成数字人能力，助力企业打造全场景应用。智能集成，轻松搞定。

更多更新数字人相关功能，欢迎访问百度智能云数字员工-开放平台。

版本	更新说明	更新时间
0.1.0	现已全面支持 SSE及STDIO模式(python)，提供包含数字人形象定制，声音定制，视频合成等多个工具。	2025-05-20

使用说明

1. 接入前准备

1.1 领取试用额度

登录百度智能云数字员工-开放平台点击左下角

额度领取

进入组件管理查看获取的组件额度

额度查看

1.2 获取API Key和Secret Key

进入应用管理配置需要使用的组件

应用创建

创建完成后即可获取 AppID 和 AppKey

应用管理

1.3 MCP配置

STDIO模式配置参数如下：

支持Python调用。使用STDIO模式时，在终端配置时需要传入 AppID 和 AppKey。

                JSON
                
            

                {
  "mcpServers": {
    "DH_MCP": {
      "command": "uvx",
      "args": ["mcp-server-baidu-digitalhuman"],
      "env": {
        "DH_API_AK": "<YOUR AK>",
        "DH_API_SK": "<YOUR SK>"
      }
    }
  }
}
            

SSE模式配置参数如下：

使用SSE模式时，需要使用 AppID 和 AppKey 生成鉴权参数，可以使用数字人鉴权工具生成。也可以参考文档生成。

                JSON
                
            

                {
  "mcpServers": {
    "DH_MCP": {
      "url": "https://open.xiling.baidu.com/mcp/sse?token=xxx"
    }
  }
}
            

2. 接入方式

工具使用概览

2.1 功能总览

功能总览

我们提供了多种工具，满足不同场景下的需求。让您在大模型中快速集成数字人服务，轻松打造数字人应用。如您对数字人有更多期望，希望更加深入集成数字人服务，欢迎访问百度智能云曦灵数字人开放平台联系我们。更多功能也将在MCP中逐步开放，敬请关注。

功能	功能说明	包含工具	支持模式
文件上传	根据业务类型上传所需要的文件。	• uploadFiles	STDIO
音色查询	查询可用的系统发音人ID。	• getVoices	SSE & STDIO
人像查询	查询可用的系统发音人ID。	• getFigures	SSE & STDIO
声音克隆	根据上传音频生成音色，可用于语音合成及视频制作。	• generateVoiceClone • getVoiceCloneStatus	SSE & STDIO
2D小样本数字人	根据上传真人录制的视频生成数字人像，仅可用于基础视频制作，数字人使用通用口型驱动。	• generateLite2dGeneralVideo • getLite2dGeneralStatus	SSE & STDIO
数字人视频合成	根据所选数字人像及音色，生成数字人视频	• generateDhVideo • getDhVideoStatus	SSE & STDIO
123数字人视频	根据真人录制的视频及选定音色，无需人像生成，直接生产对应的数字人视频	• generateDh123Video • getDh123VideoStatus	SSE & STDIO
语音合成	根据提供的文本内容及选定音色，无需生成视频，生产对应的音频	• generateText2Audioo • getText2AudioStatus	SSE & STDIO

2.2 文件上传

功能说明：平台支持上传音频、视频文件，用于后续的声音克隆，数字人制作，123数字人视频制作等。

该功能暂只支持STDIO模式。SSE模式中，如需获取文件ID，可先参考文件上传接口使用接口实现。我们将在后续的更新中对该工具进行升级。
使用流程：

上传文件

示例提示词： 上传test.mp3这个文件用于声音克隆，文件在C：/Users/username/Desktop/test.mp3。
工具详情：

工具名称	工具描述	输入参数	输出内容
uploadFiles	根据业务类型上传所需要的文件。	• file：需要上传的文件 • providerType：使用这个文件的业务类型，目前仅限于“2D小样本数字人制作”，“声音克隆”，“123数字人视频制作”三种业务类型。 • sourceFileName：上传的文件名，必须填写正确的文件名称及后缀，比如：test.mp3。	• fileId：文件ID • fileName：上传的文件名

2.3 音色查询

功能说明：查询可用的系统发音人ID。
使用流程：

查询音色

示例提示词： 我之前克隆过哪些声音？ 我想用一个二十岁左右温柔小姐姐的声音。
工具详情：

工具名称	工具描述	输入参数	输出内容
getVoices	查询可用的发音人ID。	• isSystem：“true”查询系统发音人ID，“false”查询克隆发音人ID，不传任何值则为查询可用发音人ID	• perId:发音人ID • name：发音人名称 • describe：音色特点的描述 • gender：性别 • systemProvided：是否是系统音色

2.4 人像查询

功能说明：查询可用的2D数字人人像ID。
使用流程：

查询2D数字人人像ID

示例提示词： 我之前生成过哪些人像？ 有哪些可用的人像？
工具详情：

工具名称	工具描述	输入参数	输出内容
getFigures	查询可用人像ID。	• isSystem：“true”查询系统人像人ID，“false”查询生成人像ID，不传任何值则为查询可用人像ID	• figureId:2D人像ID • name：2D人像名称 • gender：性别 • systemProvided：是否是系统音色

2.5 声音克隆

功能说明：根据上传音频生成音色，可用于语音合成及视频制作。
使用流程：

声音克隆

示例提示词： 用文件id为xxx的音频文件克隆声音。命名为“zhangsan”，是一个三十岁左右中年男性的音色，用“这个是我克隆的声音”这段文本试听一下。 查一下id为xxx的声音克隆好了没有。
工具详情：

工具名称	工具描述	输入参数	输出内容
generateVoiceClone	根据上传音频生成音色，可用于语音合成及视频制作。	• name：对克隆音色的命名，长度不超过50 •gender：发音人的性别 • describe：对克隆音色的描述，长度不超过 100 • uploadAudioId：用于克隆音色的音频对应的文件ID •example：用于试听的文本，长度不超过100	• perId；被克隆音色的发音人ID
getVoiceCloneStatus	根据声音克隆任务的发音人ID，查询该任务目前的状态。	• isSuccess：是否只查询克隆成功的任务(true: 只查询成功的任务， false: 查询全部克隆任务) • perId；：查询指定发音人ID的任务	• perId；被克隆音色的发音人ID • name：发音人的名称 • describe：对克隆音色的描述 • exampleText：用于试听的文本 • examplAudioUrl：使用试听的文本合成的音频文件的链接 • status：当前任务的状态，PREPARING(准备中), CLONING(克隆中), SUCCESS(克隆成功), FAIL(克隆失败) • reason：如果克隆失败，则此处会描述失败原因 • gender：被克隆音色的发音人的性别

2.6 2D小样本数字人

功能说明：根据上传真人录制的视频生成数字人像，仅可用于基础视频制作，数字人使用通用口型驱动。

暂时只支持使用透明背景的webm视频来生成数字人像。
使用流程：

2D小样本数字人

示例提示词： 用fileid为xxx的视频文件，生成数字人，命名为“zhangsan”，是个男生的形象。 查一下id为xxx的数字人好了没有。 我可以用哪些人像。
工具详情：

工具名称	工具描述	输入参数	输出内容
generateLite2d 2dGeneralVideo	根据上传真人录制的视频生成数字人像，仅可用于基础视频制作，数字人使用通用口型驱动。	• name：对生成数字人像的命名，长度不超过50 • gender：数字人的性别 • keepBackground：是否保留视频背景，true为保留，false为去除，默认为false • templateVideoId：用于生成数字人像的视频对应的文件ID	• figureId：根据上传真人录制的视频生成的数字人像ID
getLite2dGeneralStatus	• 查询数字人像的生成的进度 • 也可以用于查询有哪些可用的系统2D人像。	• figureId：指定人像ID查询，为空则查询该账号下所有人像 • systemFigure：查询平台的公共人像，为空：查询全部，true：返回平台公共人像，false：返回定制人像 • trainSuccess：是否查询训练完成，状态可用的人像（为空：不进行过滤，true：只返回可用人像（平台公共人像和训练成功状态的定制人像），false：只返回排队中、训练中或训练失败的定制人像） • pageNo：页码，默认为1 • pageSize：每页容量，默认10	• figureId：根据上传真人录制的视频生成的数字人像ID • name：对生成数字人像的命名，长度不超过50 • gender：数字人的性别 • keepBackground：是否保留视频背景，true为保留，false为去除，默认为false • status：状态（LINE_UP（排队中）， GENERATING（训练中），SUCCESS（训练成功），FAILED（训练失败）） • failedCode：失败错误码 • failedMessage：制作失败原因

2.7 数字人视频合成

功能说明：根据所选数字人像及音色，生成数字人视频
使用流程：

数字人视频合成

示例提示词： 用数字人像ID为xxx，发音人ID为yyy的音色，视频的内容是“大家好，我是数字人播报的内容”，使用横屏全身的机位，视频背景用“https://digital-human-material.bj.bcebos.com/-%5BLjava.lang.String%3B%4046f6cc1e.png”，开启自动添加动作，开启字幕，生成一个1080P的数字人视频。 查一下taskid为xxx的数字人视频好了没有。
工具详情：

工具名称	工具描述	输入参数	输出内容
generateDhVideo	根据所选数字人像及音色，生成数字人视频。	• figureId：数字人像ID • driveType：驱动数字人的数据类型，支持文本驱动或者音频驱动 • text：驱动类型为文本驱动时，必填的视频内容，长度不超过20000 • person：驱动类型为文本驱动时，必填的发音人ID • inputAudioUrl：驱动类型为音频驱动时，必填的音频链接URL • width：输出视频分辨率的宽 • hight：输出视频分辨率的高 • cameraId：系统人像的机位设置，0:横屏半身, 1:竖屏半身, 2: 横屏全身, 3: 竖屏全身 • enabled：是否开启字幕，true开启字幕，默认false不开启。 • backgroundImageUrl：背景图片URL • autoAnimoji：系统人像自动添加动作，true为自动添加，默认为false不添加	• taskId：当前视频合成的任务ID
getDhVideoStatus	查询数字人视频合成进度。	• taskId：当前视频合成的任务ID	• taskId：当前视频合成的任务ID • status：状态：SUBMIT（已提交待合成）,GENERATING（合成中）,SUCCESS（合成成功）,FAILED（合成失败） • failedCode：失败错误码 • failedMessage：制作失败原因 • videoUrl：任务ID对应的成功合成的视频文件地址，文件会保存 7 天

2.8 123数字人视频合成

功能说明：根据真人录制的视频及选定音色，无需人像生成，直接生产对应的数字人视频
使用流程：

123数字人视频

示例提示词： 用fileid为xxx的视频文件，发音人ID为yyy的音色，视频的内容是“大家好，我是数字人播报的内容”，生成一个数字人视频。 视频的地址是https://open-api-test.bj.bcebos.com/ae870923-2a3b-4d5e-b6a2-e44b4025647220250417_163529_trim.mp4，用发音人ID为yyy的音色，视频的内容是“大家好，我是数字人播报的内容”，生成一个数字人视频。 查一下taskid为xxx的123数字人视频好了没有。
工具详情：

工具名称	工具描述	输入参数	输出内容
generateDh123Video	根据真人录制的视频及选定音色，无需人像生成，直接成一个数字人视频。	• templateVideoId：用于生成数字人视频的视频对应的文件ID或URL • driveType：驱动数字人的数据类型，支持文本驱动或者音频驱动 • text：驱动类型为文本驱动时，必填的视频内容，长度不超过20000 • person：驱动类型为文本驱动时，必填的发音人ID • inputAudioUrl：驱动类型为音频驱动时，必填的音频链接URL	• taskId：当前视频合成的任务ID
getDh123VideoStatus	查询123数字人视频合成进度。	• taskId：当前视频合成的任务ID	• taskId：当前视频合成的任务ID • status：状态：SUBMIT（已提交待合成）,GENERATING（合成中）,SUCCESS（合成成功）,FAILED（合成失败） • failedCode：失败错误码 • failedMessage：制作失败原因 • videoUrl：任务ID对应的成功合成的视频文件地址，文件会保存 7 天

2.9 语音合成

功能说明：根据提供的文本内容及选定音色，无需生成视频，生产对应的音频。
使用流程：

语音合成

示例提示词： 用发音人ID为xxx的音色，内容是“大家好，我是数字人播报的内容”，生成音频。 · 查一下taskid为xxx的语音合成好了没有。 ·

工具名称	工具描述	输入参数	输出内容
generateText2Audio	根根据提供的文本内容及选定音色，无需生成视频，生产对应的音频。	• text：必填的文本内容，长度不超过2000 • person：必填的发音人ID	• taskId：当前音频合成的任务ID
getText2AudioStatus	查询音频合成进度。	• taskId：当前视频合成的任务ID	• status：状态：SUBMIT（已提交待合成）,GENERATING（合成中）,SUCCESS（合成成功）,FAILED（合成失败） • failedCode：失败错误码 • failedMessage：制作失败原因 • audioUrl：任务ID对应的成功合成的音频文件地址，文件会保存 7 天

3. 使用声明

当您使用以上工具前，请先阅读曦灵数字人定制组件克隆协议。当您使用以上工具时，即表示您同意该协议。

联系我们

如果您有任何问题或建议，请随时联系我们。您可以通过以下方式联系我们：

客服电话：400-920-8999
合作咨询：百度智能云曦灵数字人开放平台咨询
问题工单：创建工单
官方助手：

官方助手

评价此篇文章

有帮助没帮助

克隆协议