功能特性

更新时间：2024-10-11

视频处理将音视频文件转码为不同分辨率、不同格式的文件，以满足不同网络带宽、不同终端设备的用户需求。核心能力特性如下所示：

转码格式：覆盖主流的视频转码格式H264、H265、AV1。
标准音视频转码：丰富的视频和音频编码参数支持，支持多种视频格式、视频分辨率、不同码率等。
视频处理：支持去除/添加水印、横转竖、去黑边等视频处理能力。
视频截图：支持多种视频截图能力，满足不同场景的需求，截取精美封面，提高视频点击率。
视频加密：版权保护，防盗播。
智感超清：通过视频AI的能力，提高视频的清晰度，降低视频的码率。
极速转码：音视频分离，动态分片技术提高转码速度，最高可达50倍速。
视频质检：支持亮度、偏色、模糊、噪声、马赛克、花屏等视频质量问题的检测，支持音量过高/过低、声音间断等音频质量问题的检测。
数字水印：支持向视频和图片中嵌入肉眼不可见的文字或图片，且对视频质量影响小，对常见攻击具有一定抵抗能力。在发生版权纠纷时，可通过数字水印提取服务提取水印内容，证明版权归属。

标准音视频转码

类别	说明
输入格式	· 封装格式：MP4、FLV、MOV、M3U8、3GP、AVI、MPG、ASF、WMV、MKV、TS、WebM、MXF； · 视频编码格式：H.264/AVC、H.265/HEVC、AV1、MPEG-1、MPEG-2、MPEG-4、MJPEG、VP8、VP9、Quicktime、RealVideo、Windows Media Video ； · 音频编码格式：AAC、AC-3、ADPCM、AMR、DSD、MP1、MP2、MP3、PCM、RealAudio、Windows Media Audio
输出格式	· 视频封装格式：MP4 、FLV、HLS、MP3、M4A、ADAPTIVE_HLS、PCM、DASH、MXF、TS、MOV、AVI、MKV、OGG、DPX、WEBM； · 音频封装格式：MP3、MP4、OGG、FLAC、m4a； · 图片封装格式：JPG、PNG、GIF、WEBP； · 视频编码格式：H.264/AVC、 H.265/HEVC、BD264、BD265、BDAV1； · 音频编码格式：MP3、AAC、VORBIS、FLAC、DTS、杜比全景声
码率控制	· 支持CBR、VBR、CRF、CAE、CQE等码率控制方式的设置.(针对同一视频，CAE可节省编码码率，VMAF图像质量客观指标优于VBR。)
输出视频参数设置	· 支持分辨率、码率、帧率、编码Profile/Level设置； · 支持GOP长度（I帧间隔）和最大B帧数设置； · 支持音量均衡化，避免音量忽高忽低。
视频多功能处理	· 支持视频拼接：支持设置起始时间、持续时长，单位为秒，多个视频拼接为1个； · 叠加字幕：支持原视频添加.srt字幕文件； · 支持视频剪辑：支持设置输出视频起始时间、持续时长； · 支持3种模式的视频加密：fixed 固定密钥加密，使用用户指定的密钥对视频进行加密，此时需要aesKey；开放密钥，系统自动生成加密密钥，密钥公开，不设访问控制；系统自动生成加密密钥，密钥设有访问控制，绑定播放器，安全性比较高，推荐。

自适应码流

自适应码流ABR（Adaptive Bitrate Streaming）的特点是将视频内容分片成一系列片段，每个片段有不同码率，播放端根据当前带宽，动态选择最合适的码率进行播放。当前MCP支持将视频转成DASH自适应码流格式，当内容由MPEG-DASH客户端播放时，客户端根据比特率自适应（ABR）算法和自身性能，自动选择具有最适宜比特率的片段，可以及时下载该片段进行播放而不会造成停顿或在播放中重新缓冲事件，支持在不同码率之间无缝切换。

能力	说明
支持格式	DASH
支持编码	支持以上所述编码能力：H.264、H.265
智能分辨率切换	播放器能够根据当前带宽，动态选择最合适的分辨率播放。
起播超低延时	自适应码流包含多种分辨率，播放器通常从低分辨率开始起播，起播速度快。
切换过程零卡顿	自适应码流中各个分辨率做到帧对齐，切换过程中零卡顿。

极速转码

极速转码包含普通极速转码和智能极速转码。普通极速转码通过音视频分离的技术，对音频、视频分开转码，减少视频merge时间，对于长视频转码倍速可达10倍速。智能极速转码在普通极速转码的基础上，根据输入视频/输出模板的属性（Codec、B帧、帧率、码率、分辨率等），通过AI模型预测分片策略，转码速度最高可达50倍速。

即时转码

MCP提供了业界全新的视频即时转码接口，支持通过设置url参数的方法实时转换视频的码率，实现h264，h265两种码率的互转。在直播录流时，将存储的文件编码格式从h264转为h265，降低了存储成本；而在用户请求回看视频时，支持从h265快速转为h264，适配大部分播放器。满足用户在直播录流和回放直播视频的场景节省存储成本的同时又能保证播放器流畅的需求。

感知编码

基于百度强大的编码器BD264（H.264标准）、BD265（H.265标准），结合AI图像处理、CAE感知编码、ROI等技术，感知编码实现点播、直播业务以更低码率传输的同时，给用户带来更高清的画质体验。

AI视频处理

类别	应用场景	功能说明
智能横转竖	通过目标检测算法识别出画面中的重要人物和精彩区域，动态调整窗口位置的方式将视频从横屏（16:9）转成竖屏（9:16）。	--
叠加明水印	应用于对视频版权所属可视化，降低信息泄漏风险。	· 支持添加水印类型：图片、文本（暂未开放）； · 支持自定义水印图片位置、大小； · 格式包括：jpg、png、apng、gif、webp、mov、mp4等，支持设置显示位置和起始时间
智能去水印	对视频内的显性水印进行智能去除，应用于视频搬运，二次编辑和分发场景。	· 支持两种去水印的形式：智能去水印、手动去除水印； · 支持去除的水印形态包括：静态Logo、固定位置的动态Logo、半透明Logo、镂空Logo
智能去字幕	支持自动识别视频底部字幕的区域并去除，应用于视频搬运，二次编辑和分发场景。	· 支持设置去字幕的区域（x、y、width、height），支持自动识别水印并去除叠加字幕：支持原视频添加.srt字幕文件； · 支持设置裁剪黑边后的有效画面区域（x、y、width、height），支持自动检测和去除黑边区域；支持自动去除片头黑帧。
智能去抖动	支持对由于录制设备问题导致视频有大幅度抖动现象的识别，并自动缓解抖动现象。	--
智能封面	百度智能封面帮助用户对视频高光帧或高光片段提取静态和动态图片，可用于在视频分发平台展示封面。
智能去黑边	解决由于视频二次分发时由于设备尺寸的变化所产生画面冗余的黑边现象。一方面可以提升用户的观感，另一方面也可以节省码率，减少文件体积。	· 支持设置裁剪黑边后的有效画面区域（x、y、width、height），支持自动检测和去除黑边区域；支持自动去除片头黑帧。
智能绿幕抠像	针对绿幕录制场景视频，支持自动扣除人像，生成透明通道背景的视频.webp。生成的视频添加任意背景。	--
提取元信息	针对视频内容属性等描述进行提取，让用户快速了解到视频的信息从而做出正确的业务判断。	· 支持提取文件信息：文件大小、文件时长、容器格式、文件类型、MD5值； · 支持提取视频信息：编码标准、分辨率（宽/高）、码率、帧率； · 支持提取音频信息：编码标准、声道、采样率、码率。

智感超清

类别	说明
画质提升	以人眼主观体验最好为目标，结合AI图像处理技术，通过智能的细节增强、色彩增强、超分辨率、插帧、SDRtoHDR等能力大幅提升画质。
老片修复	针对老片或过度压缩的视频，去除抖动、划痕、噪点、马赛克等，提高画面清晰度。
智能插帧	对于30帧/秒及以内的普通帧率视频，生成60帧/秒甚至120帧/秒的高帧率版本，提高画面流畅度，一般配合超分使用。
超分辨率	利用深度学习模型，提升视频画面的细节，将低分辨率重建至高分辨率，例如：SD转HD 、2K转4K等。

视频质检

类别	说明
亮度	检测视频超出人眼舒适范围的过亮、过暗的片段（包含全黑屏、白屏）。
偏色	检测视频偏色的片段，包含偏红、黄、蓝、绿、紫5种偏色。
纯色屏	检测视频画面的纯色屏，包含：黑、白、红、黄、蓝、绿、紫。
模糊	检测视频由于聚焦不当镜头损坏等因素引起的视野主体部分的图像模糊的片段。
噪声	检测视频图像中混有呈带状、波纹、网状等带有周期性的叠加噪声的片段。
马赛克	检测由于录制视频时出现网络异常、卫星信源干扰等原因导致滚动条纹的片段。
滚动条纹	检测由于录制视频时摄像设备和显示器的屏幕刷新频率不同步或由于摩尔条纹的干扰视频导致出现滚动条纹的片段。
抖动	检测视频由于录制设备晃动导致画面抖动的片段。
静帧	检测视频由于网络信号不稳定导致画面定格/冻结的片段。
黑边	检测视频画面中出现黑边（包含黑色、其他纯色和高斯模糊边界）的片段。
花屏	检测视频在直播推流过程中连接线接触不良、信号源传输错误等问题造成录制的视频出现花屏的片段。
彩条	检测视频在直播推流过程中连接线接触不良、信号源传输错误等问题造成录制的视频出现彩条的片段。
块效应	检测视频随着码率的降低，在块的边界会出现不连续、形成重建图像的明显缺陷的片段。
场效应	检测视频后期处理阶段由于压缩导致图像运动处出现交错行的片段。
静音	检测音频出现非预期的静音的片段。
音量过高/过低	检测音频出现超出人耳舒适范围的音量过高/过低的片段。
声音间断	检测由于录制过程中信号源输入不稳定导致音频断断续续的片段。

数字水印

视频数字水印功能特性

类别	说明
被检原视频格式	MP4、FLV、MOV、M3U8、3GP、AVI、MPG、ASF、WMV、MKV、TS、WebM、MXF
水印类型	支持图片、文本两种类型水印嵌入
抗攻击性	·能够抵抗一定程度的转码攻击 ·能够抵抗一定程度的画面缩放攻击 ·能够抵抗一定程度的画面遮挡攻击 ·能够抵抗亮度/对比度变化的攻击 ·支持对录屏视频进行数字水印提取

图片数字水印功能特性

类别	说明
被检原图片格式	png、jpg、bmp、tiff、webp
水印类型	支持图片、文本两种类型水印嵌入
抗攻击性	能够抵抗一定程度的画面裁剪、遮挡、缩放、截屏攻击

名词解释

产品优势

百度智能云

音视频处理 MCP