产品顾问 · 胡馨月
1. 培训数字员工
- 数字员工-员工中心界面(图1-1),展示您已雇佣的所有员工,未培训的在线咨询类员工无法上岗。
- 在员工正式上岗前需先对数字员工进行培训,点击数字员工卡片的“培训”按钮,跳转至员工“入门培训”界面(图1-2)。
- 点击“添加内容”(图1-2),可在弹窗内添加培训数字员工需要使用的网页或文档(图1-3、图1-4),添加完成后点击“确定”会自动提取内容信息供数字员工快速学习职业背景(图1-5),完成提取培训内容后可进一步微调纠错,调整完成后点击右上角“完成培训”(图1-6),完成培训后数字员工卡片将显示“培训成功”(图1-7)。

图 1-1 数字员工-员工中心

图1-2 员工培训界面

图1-3 添加培训内容(网页)

图1-4 添加培训内容(文档)

图1-5 正在学习培训内容

图1-6 学习提取培训内容成功

图1-7 员工培训完成
2. 操作数字员工
- 培训完成后的在线咨询类员工存在上岗中、已上岗和休息中三种状态,默认为休息中的状态。可以点击员工中心标题下方的标签来筛选不同状态的数字员工(图2-1)。
- 对休息中的员工点击“上岗”按钮,数字员工即可开始为您工作。
-
点击数字员工名片右下角可展示多项操作按钮(图2-2、图2-3)
- 休息:点击后当前员工无法继续使用,处于休息状态。
- 知识管理:跳转至知识管理界面(图2-4),可使用知识库RAG技术进一步深度培训员工,添加更多企业专业知识。
- 重命名:可重新在弹窗中编辑数字员工的花名和职位(图2-5),点击“确定”生效。
- 分享链接:复制当前员工的链接,点击链接可以与当前数字员工进行交互。
- 下载名片:下载当前员工的数字名片(图2-6),可扫描二维码与数字员工进行交互。
- 删除:当员工状态为休息时候,会出现删除按钮,删除后员工将不再显示且无法恢复,请谨慎操作。

图2-1 在线咨询类数字员工状态示意图

图2-2 已上岗数字员工操作选项

图2-3休息中员工操作选项

图2-4 知识管理页面

图2-5 员工重命名

图2-6 员工名片
3. 技能管理
-
产品顾问 · 胡馨月现已上线技能管理模块,围绕员工核心能力,可以灵活配置对话与咨询相关的技能(图3-1)。
- “多语言切换”功能可支持员工用不同语言与客户沟通(图3-1),点击可以配置员工在对话时可切换的语言以及默认语言(图3-2)。开启“多语言切换”后将不支持启用“信息收集”和“信息展示”。

图3-1 技能管理模块

图3-2 支持选择对话语言和默认语言
- 完成“多语言切换”配置后效果如下(图3-3、3-4、3-5)。

图3-3 开启“多语言切换”后的员工对话前界面

图3-4 开启“多语言切换”后的员工对话界面

图3-5 支持对话中切换语言
- “信息收集”默认开启,在对话过程中数字员工会智能识别用户建联意向,弹出留资表单,引导用户留资。点击可以对表单进行自定义配置(图3-6)。
- “信息展示”可手动开启,用于在用户不希望留联系方式时,向用户展示企业联系方式,引导用户联系企业。点击可配置企业名称、联系电话并上传企业联系方式二维码(图3-7)。

图3-6 “信息收集”配置

图3-7 “信息展示”配置
- 完成配置之后,对话效果如下(图3-8、图3-9)。在与数字员工交互过程中,用户也可通过点击右上角“合作咨询”入口,主动唤起表单和企业联系方式。

图3-8 “信息收集”位置配置好后的对话效果

图3-9 “信息展示”位置配置好后的对话效果
- 表单内收集的信息支持在“成果汇报”模块中查看,具体见下方指南。
4. 高级配置
-
产品顾问·胡馨月目前对个人版、专业版、企业版套餐用户开放形象与声音切换功能、聊天背景更换功能(图4-1)。
- 形象与声音:点击“编辑”入口,可进入形象与声音编辑界面。您可以通过鼠标hover在相应形象上查看形象效果,选择适合您对话场景的数字员工形象;您可以通过点击声音试听音色效果,选择适合您对话场景的数字员工声音(图4-2)。


- 聊天背景:点击“编辑”入口,可进入聊天背景编辑界面。我们提供了多种不同效果的背景图,适用于不同的对话情景。您还可以点击“上传图片”区域,上传个性化的、或者带有企业标志的背景图,让数字员工的对话更加沉浸(图4-3)。
- 完成调整后,您可以通过右侧的“立即测试”区域测试效果。点击右上角“保存”可以让您选择的形象和声音立即生效。

5. 成果汇报
-
您可以在员工中心中点击员工卡片的“汇报”按钮(图5-1),跳转成果汇报页面查看已雇佣员工的汇报(图5-2),数字员工可收集回流数据,生成业务数据概览看板,闭环营销-转化流程。
- 您可以点击标签来切换分别查看日报/周报/月报(图5-2),同时支持自定义数据时间区间(图5-3),点击”导出报告“按钮支持将成果汇报报告导出并生成excel文件。
- 员工汇报的数据有总会话次数、有效会话次数、会话有效率、套电成功次数、套电成功率、平均会话时长、平均会话轮数和平均响应时长。
- 员工会记录会话套电信息,包括联系电话、渠道、会话开始时间、会话结束时间和对应操作,可通过会话ID查询指定会话的记录信息,点击“批量导出“可一键将对话信息导出,包括留资手机号等。当“技能管理”中的“信息收集”表单开启并收集到用户填写的信息时,该信息也会在会话记录中展示,支导出。

图5-1 数字员工汇报

图5-2 成果汇报页面

图5-3 支持自定义数据时间范围
- 当您账号下的数字员工收集到新的联系电话线索时,您在百度智能云账号绑定的手机、邮箱将会收到商机提醒(图5-4),您可以及时登录数字员工平台查看联系电话线索,联系用户并完成商机转化。

图5-4
6. 员工集成
-
如果您希望数字员工直接在您的产品官网进行客户接待、咨询和引导留资,产品顾问 · 胡馨月提供了JS集成的功能,支持您快速利用JS代码将已经培训好的员工集成至您的产品官网。
- 域名配置:将您的官网域名添加至该位置,数字员工将可在您的官网下被访问(图6-1)。若不添加域名,系统将不限制请求来源,存在资源被未授权访问的风险,建议优先完成添加。
- 您可以自由选择入口样式,分为“头像”和“半身”。头像样式占用面积小,不遮挡官网信息;“半身”样式更加生动,能吸引客户互动。您可以在右侧预览效果(图6-2)。
- 您可以自由选择对话区域样式,分为“全页面”和“对话窗口”。全页面更加沉浸;对话窗口支持同步浏览官网和与数字员工进行交互。您可以在右侧预览效果(图6-2)。
- 完成域名配置与样式选择后,点击“生成JS”代码,即可生成对应样式的JS代码。点击“复制代码”即可一键复制,支持集成至网站代码中(图6-3)。

图6-1 域名配置

图6-2 集成样式选择

图6-3 生成JS代码
- 您可参考下方视频进行JS集成操作
7. 形象与声音定制
- 为了打造独一无二、专业的产品顾问数字员工,我们在专业版套餐中支持高还原度的形象定制和声音定制功能,并限时赠送定制次数。定制后的形象与声音可在产品顾问数字员工「高级配置-形象与声音」中使用。
- 您可以通过菜单目录“我的形象”进入定制界面,或者从“高级配置-形象与声音”位置右上角进入。

- 点击“定制形象”可进入形象定制流程,通过将视频文件拖动到“上传素材”位置进行素材上传。请注意视频素材要求,需要您提供一段 10秒~2分钟(40s~2分钟效果最佳)、闭嘴无说话、16:9 横屏 的真人半身视频。详情见后文 详细拍摄指南-形象定制视频素材


- 根据提示对素材进行调整(人像大小、位置、是否为单独人脸),从而达到最好的形象训练效果。之后需对形象进行命名,并选择形象的性别。操作完成后可开始定制。
- 不同长度和大小的视频素材所需的训练时间不同,一般需要10-30分钟。定制完成后的形象可在“我的形象”中查看,并可在产品顾问数字员工「高级配置-形象与声音」中使用。


- 点击“定制声音”可进入声音定制流程,通过将音频文件拖动到“上传素材”位置进行素材上传。请注意音频素材要求,详情见后文 详细录制指南-声音定制视频素材


- 需对声音进行命名,并选择声音的性别。操作完成后可开始定制。
- 不同长度和大小的音频素材所需的训练时间不同,一般需要5-10分钟。定制完成后的声音可在“我的形象”中查看,并可在产品顾问数字员工「高级配置-形象与声音」中使用。


- 定制功能需要您对应的提供视频或音频素材,为了提升最终数字员工的效果,我们特别准备了详细的拍摄指南和录制指南,供您参考。
详细拍摄指南-形象定制视频素材
- 定制产品顾问数字员工的员工形象时,我们需要您提供一段 10秒~4分钟(40s~2分钟效果最佳)、闭嘴无说话、16:9 横屏 的真人半身视频作为参考素材。视频分辨率不低于1080P。
-
拍摄方式:
- 实景拍摄(保留原背景):数字员工对话时将保留拍摄时的原背景,以您心仪的背景进行实景拍摄符合要求的素材视频并上传即可。适用场景:背景固定,如办公室、展厅、演播室等。
- 绿幕拍摄(请您自行完成抠绿后上传,支持对话时替换背景):若您希望替换数字员工的背景,需要以绿幕为背景拍摄素材视频并自行完成抠绿并上传。经抠绿后待上传的素材视频人物背景应为透明,仅保留人物形象,支持后期替换任意背景。适用场景:需要灵活更换背景,如PPT演示、纯色背景、虚拟演播厅等。
-
拍摄内容:
-
真人半身出镜,整个视频中尽量穿插「聆听状态」和「播报动作」两种,一镜到底,总时长建议40s-2min。录制开始 「聆听状态」停顿 5-8s,做一个2-4秒的通用播报动作,再回到聆听状态维持5-8s,再做一个2-4秒的通用播报动作...依次循环,最后以聆听状态结尾(位置动作与初始聆听状态完全一致)。
- 聆听状态:指未讲话时的聆听状态,模特保持嘴闭合,面带微笑,自然眨眼,可轻微点头、身体正常的呼吸轻晃,过程中身体、头部无大幅度晃动,身体向前眼睛正视镜头,手部动作保证基本位置一致(胳膊、小臂、手腕位置一致)。每个5-8s。
- 播报动作:讲话时的手部单个动作,可根据个人讲话习惯设计不同的手势,避免有指向意义的动作、避免连续长动作。每个2-4s。
-
- 拍摄视频素材 - 结构拆解:
- 拍摄视频素材 - 播报动作参考:

- 注意!若做不到动作穿插,也尽量使用通用动作、无指向性动作。不可使用大幅度、不可用否定动作等不合时宜的动作,否则会导致训练出的形象不自然。
- 拍摄视频素材示例 - 您可以参考以下参考demo视频进行录制:
- 拍摄要求
| 视频及设备 | 服饰及妆容 | 布景 | 灯光 |
|---|---|---|---|
| 1. 建议拍摄的分辨率不低于1080P,关闭HDR模式,关闭log模式 2. 比例:请务必确保视频比例为 横屏16:9 3. 角度:镜头高度与人物眼睛保持同一水平线,平视+正对镜头,避免头部大角度转动(仰头/ 低头) 4. 构图:真人半身出镜,人物放置于画面中间,确保五官清晰、面部无遮挡;请注意头顶距离顶部边缘约1/3距离 5. 可使用三脚架或稳定器固定拍摄设备,以减少画面抖动 | 1. 风格与背景协调,贴合实际应用场景,可按模特喜好搭配 2. 合身(不松不紧)、整洁无褶皱 3. 穿低领衣服,露出脖子 4. 避免大面积碎花 / 格纹 / 条纹(防摩尔纹),绿幕拍摄需避开绿色系、纱质面料,不选白色 / 反光 / 光滑面料(防反绿 / 漏绿) 5. 优先深色或与背景反差大的颜色 6. 头发正面看无碎发、无毛刺、无镂空,没有绿色残留或锯齿状边缘(绿幕拍摄需注意) | 1. 实景拍摄:背景整洁、无密集纹理,适合实际应用场景 2. 绿幕拍摄:绿幕颜色统一,且平整无褶皱;建议人物和绿幕距离大于2米,避免人物反绿 | 1. 用灯光从斜前侧方照亮模特面部,光线充足,脸部整体光线均匀,避免脸部反光、肤色暗沉或曝光 2. 背景光照均匀,并与人像轮廓形成清晰边界 3. 灯光一旦确定,切勿再次调整,否则全部重拍 |
- 后期处理【如您有后期处理需要可参考,非必需可忽略】
1、 剪辑 / 调色美颜
- 开头保留2-3秒没有手势的静默状态,可以使动作自然开始
-
尺寸要求
- 视频比例需为横屏16:9
- 人物头顶距离上边缘不宜太窄,至少保留1/6-1/5画幅高度,如图所示。

-
片段删减说明
- 视频内动作需为通用动作、闭嘴不说话。
- 可以保留:偶尔几秒钟的露齿对训练效果基本没影响
- 不可保留:指向性动作、否定动作、眼神乱瞟等不合时宜的动作
- 人物动作过快或过慢时,可以适当变速,目前来看0.8-1.3倍速基本不会影响效果
- 可以在剪辑时用美颜软件还原美貌,数字人训练效果会与视频素材保持一致
- 最终素材视频时长要求 10秒~2分钟
- 最终提供的视频需全程无拼接,无跳帧(跳帧对效果影响较大)
2、 抠绿
- 如果您希望上传已经抠绿完成后的透明背景webm格式的素材视频,可参考以下抠绿指南:
- 以下为使用AE(Adobe After Effects)软件进行抠绿的教程及导出视频规格,也可选择其他软件进行抠绿处理。
1)对视频添加超级键效果

2)调整各种参数:抠除绿色背景,去除模特脸部以及⾝上绿⾊反光

3)检查抠绿效果:抠绿后可换浅灰色背景,检查抠绿是否干净以及是否有该保留的部分被抠除

-
导出视频:
-
第一步:导出透明背景的带alpha通道(颜色选择直接模式)的视频
- 格式:mov(Apple Prores 4444或Apple Prores 4444 XQ编码)
- 帧率:25fps
- 分辨率:1080P
- 第二步:使用ffmpeg将mov转换成带alpha通道的webm视频
-
ffmpeg -i input.mov -c:v libvpx-vp9 -pix_fmt yuva420p -lossless 1 -b:v 0 output.webm

详细录制指南-声音定制音频素材
- 定制产品顾问数字员工的员工声音时,我们需要您提供一段 10秒~5分钟、发音清晰、单人录制 的素材音频。
- 素材音频示例:
具体要求如下供您参考:
| 要求 | 详情 |
|---|---|
| 音频要求 | 1. 格式需为 mp3、m4a、wav格式2. 时长最少应不低于10秒,最长应不超过5分钟3. 大小不超过20MB4. 音频非拼接而成 |
| 录制环境 | 1. 录音环境的选择主要考虑降低噪音和混响,避免过于喧哗的背景音、噪音、回响。建议使用10平方米以内的小房间进行录音,有吸音装置的房间是理想环境。2. 建议离麦克风50cm之内,并需要保持位置、距离稳定,防止音量大小不一致。不要让讲话的气流正对麦克风,防止喷麦造成的噪音。 |
| 音频质量 | 1. 必须仅含有一个人在说话,避免多个人同时说话。2. 说话人发音及音质越清晰、复刻质量越高。尽量在自然对话状态下录制,刻意压低声线/呢喃获得的音色会效果不够逼真。如说话人喉音/声音底噪严重,则复刻音频喉音和底噪将会较为严重。3. 录音时需要保持音量大小、语速稳定、注意断句。4. 录音时尽量保持姿态稳定,减少不必要的肢体动作,避免椅子的响声、衣物的摩擦音、鼠标键盘的敲击声等。5. 如口误无需终止录音,可停顿1~2秒后,继续录制即可。 |
| 录制内容 | 1. 建议在录音前熟悉文案,并确定好人设及演绎风格。结合最终使用场景可加入适当演绎,避免朗读风格过于严重,并保持整体风格一致。2. 如需要复刻情绪韵律起伏较强的音频,请尽量输入表现力强的音频。 |
