产品功能 音视频通话 1对1或多人音视频通话,音频支持 48kHz 采样的高音质,AI 降噪算法能识别多种场景噪声,可在嘈杂的环境下有效消除噪声,视频支持H.264、H.265编码,最高可支持4K分辨率,实现沉浸式互动通话体验 云端录制 在音视频通话过程中可以进行云端录制,并将录制文件存储到云端,支持单流录制和混流录制,可以配置纯音频、纯视频和音视频录制,混流录制模式支持自定义布局,并可以实现全局水印和流级别水印
包括视频创作、智能写作等多模态创作能力,能够极大地提高内容生产效率 PPT转视频 一键解析PPT素材,自动编排文字和图片信息,并加入配音及字幕,配以各类转场动画,形成生动有趣的图文解说视频 图文素材转视频 输入图文素材,一键自动生成视频,适用于企业宣传、营销推广、知识科普等场景,帮助创作者快速实现图文转视频
可直接调用API或使用HTTP SDK进行识别应用 API文档 离线识别SDK 集成到移动设备中(手机、摄像头等),无需网络即可实现银行卡/车牌扫描识别、身份证质量检测及扫描识别等功能 申请免费试用 私有化部署 部署至本地服务器或专有云,在内网/局域网中实现文字识别功能,保障数据私密性,提供一体机和软件部署包两种私有化方案 申请免费试用 教学视频 操作指南 API服务快速接入教程 (示例代码中心)
帮助您零门槛进行视频创作 个性化视频参数调整 支持调整视频配音音色、视频长度、视频尺寸、添加数字人等参数,满足用户个性化需求 应用场景 新闻宣传 企业宣传 营销推广 知识科普 金融产品介绍 新闻宣传 无需专业视频编辑,仅需上传图文稿件,即可快速生成新闻短视频,实现图文稿件和视频新闻的同步投放 合作案例 技术特色 技术领先 基于百度领先的语言理解、多模态创作技术,实现图文素材智能解析、重组和视频生成
坐落、权利类型全部 11 个字段 了解详情 食品生产/经营许可证识别 支持对食品生产许可证和食品经营许可证进行14 个字段的结构化识别 了解详情 开户许可证识别 支持对开户许可证的6个字段进行结构化识别,可用于企业贷款等业务场景 了解详情 应用场景 远程身份认证 金融服务 出境旅游、留学 远程身份认证 结合OCR和人脸识别技术,自动识别录入用户身份证件信息,同时进行人脸识别和活体检测,完成用户身份验证
实现财税报销的自动化 合作案例 特色优势 适用范围广 支持对各类银行汇票进行识别,并结构化返回关键字段识别结果,能够满足对不同种类银行汇票进行信息提取的需求 服务稳定 依托百度云技术实力,提供高可靠性、弹性可伸缩、高并发承载的文字识别服务,服务可用性高达99.99% 使用方式 云端服务 提供各类文字识别的云端Paas服务接口,用户可直接调用API或使用SDK对图片中的文字进行识别 API文档 私有化部署
Apollo通过使用边云融合物联网平台,实现道路数字化。通过摄像头实时采集道路信息并由边缘计算单元完成数字化转换并将信息实时同步给智能车,实现车路协同。
264 }, { classname : Face , top : 163 , left : 810 , probability : 0.6906901597976685 , width : 208 , height : 238 } ], result_num : 2 , log_id : 1866677715236641300 } 应用场景 智能家居 视频直播
快速检测人脸并返回人脸框位置,输出人脸150个关键点坐标,准确识别多种属性信息
应用场景——计算机视觉 图像语义分割 图片/视频分类 图片框选 人脸骨骼打点 3D点云/2D3D融合标注 连续帧标注 图像语义分割 图像语义分割是基于区域的多边形标注,对复杂不规则的图片进行区域划分并标注对应属性,助力图像识别模型训练,多应用于人体分割、场景分割和自动驾驶道路分割,可应用于智能驾驶、智能设备、智能安防场景落地。