智能驾驶实训室 智能驾驶实训室通过智能化教具,将百度的人工智能和自动驾驶的相关能力应用到教学实践中去,帮助企业和院校在智能驾驶行业的能力提高 联系我们 方案结构 方案优势 配套服务 联系我们 平台和架构 实训室主要帮助学习者了解自动驾驶的软硬件结构,让学习者能够进行测试运维以及二次开发。 自研开发的自动驾驶平台 完整感知技术 高开放性 课程及资源 理论和实践结合,快速提高学习者应用能力。
支持多达200+个语种高质量互译,覆盖4万多个语言方向,日均响应千亿字符翻译请求 人脸实名认证 高安全性、高通过率、高易用性,提供APP、H5、API接口等整套集成及运维方案
城市大脑安全体系建设方案架构 综合运用AI、大数据等新一代信息技术,构建立体的、全天候、主动式安全防护体系,搭建分布式、智能化、端网云一体的城市大脑安全体系建设方案,支撑城市大脑安全运行。
度整合全链路的ASR、LLM、TTS服务,支持FuctionCall自定义配置,通过AI降噪、人声分离、声纹提取、VAD检测、智能打断、智能抽帧等技术,对音视频进行增强处理,结合百度丰富的生态资源,提供百科、音乐、有声读物、翻译、导航等应用服务,为用户带来真人面对面的沉浸式沟通体验。
广泛适用于图像或视频内容分析、拍照识图等业务场景 文本翻译 将60秒以内的语音精准识别为文字,可适用于手机语音输入、智能语音交互、语音指令、语音搜索等短语音交互场景
提供高度拟人、流畅自然的语音合成服务,让您的应用、设备开口说话,更具个性 文本翻译 提供200+语种互译的在线文本翻译服务,可广泛应用于移动端、PC网站、智能硬件等不同产品形态中,满足多领域、多场景的翻译需求。
功能介绍 高精度版 高精度升级 语种覆盖更广(新增多语种) 支持部分少数民族语言 字库扩至2w+(常用+生僻) 标准版 图片文字检测+识别 覆盖多国语言 支持中英混合识别 支持中/英/日/韩类型检测 高精度含位置版 高精度识别+位置信息返回 便于版式还原与二次排版处理 标准含位置版 标准识别基础上+位置信息返回 便于版式还原与二次排版处理 应用场景 拍照/截图识别 使用通用文字识别技术,实现拍照文字识别
PVW实时预览导播编辑效果,监听PGM画面,护航直播 画中画 支持12路输入源和多种布局,实现多种场景画面 调音台 实时控制各输入源音频,最大支持200%增益 实时字幕 集成语音识别和机器翻译技术,实现双语字幕实时上屏 智能审核 实时检测直播过程中的政治敏感、色情、暴恐违禁等违规内容
解决方案架构 方案介绍 智能处理 智能编辑 智能辅助写作 视频处理 支持视频元信息、视频转动图、视频拆条、视频摘要、智能抽帧、智能封面、智能锦集、人脸智能裁剪等智能服务。 图片处理 支持图片旋转、裁剪、转码、缩放、压缩、水印等服务。 方案优势 领先的视频AI技术 将业内领先的AI技术与媒体业务结合,提供智能编辑、智能拆条、智能翻译、智能创作等AI媒体支撑能力,优化媒体内容生产。
互联网公司 某互联网公司为提升藏语方言的识别和翻译准确率,与百度云合作,招募870个藏民,单人录制1000句,需使用客户开发的工具进行采集。整体采集量为87万条藏语语音,覆盖安多、康巴、卫藏三个藏语方言区,而藏区采集会面对安全风险大、质检难度高等重重挑战。百度团队联系到当地资源布点,并派遣项目经理在西藏,青海多地指导采集。