百度智能云新客专享优惠,年终盛惠好价限量抢购!活动规则
更高精度的整图文字识别,返回文字在图片中的位置信息。
12个月
支持OCR多产品跨接口使用(核验类接口、智能文档平台除外)。
OCR共享资源包
12个月
结构化识别二代居民身份证正反面所有8个字段,识别准确率超过99%。
12个月
结构化识别机动车行驶证主页及副页的所有22个字段信息。
12个月
13类常见财务票据“分类 识别 验真”一步到位,省时省力,报销无忧。
12个月
针对固定版式的卡证、票据、文件,自助创建识别模板和分类器,并结构化输出识别结果。
12个月
支持输出doc、pdf、xlsx等16种格式文档的版面、表格、阅读顺序等信息。
12个月
结构化识别各类版式营业执照的关键字段信息。
12个月
设备端本地化人脸检测与采集、活体检测、人脸识别功能。
20-50个
单设备/批量授权
永久
支持生活照、证件照、身份证芯片照、带网纹照、红外黑白照的人脸对比。
10万次
按次数包
12个月
在指定的人脸库中,找到与图中人脸最相似的人脸。
10万次
按次数包
12个月
对一张图片中存在的 M 张人脸完成全部搜索并返回对应用户和相似度。
10万次
12个月
连接权威数据源远程核验人脸图片+姓名+身份证号。
100次
按次数包
12个月
基于输入的姓名、身份证号,与权威数据源比对进行实名认证。
100次
按次数包
12个月
基于单张图片,判断图片中的人脸是否为二次翻拍。
1万次
按次数包
12个月
对比两张图片中的人脸,并返回相似度分值。
1万次
按次数包
12个月
上传训练音频,通过大模型声音复刻创建音色。
50次
12个月
按次数包
通过大模型声音复刻创建得到的音色进行文本的合成。
100万字符
12个月
按次数包
将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景。
音频文件转写-中文普通话
10小时
12个月
将音频流实时识别为文字,并返回每句话的开始和结束时间。
10小时
12个月
将60秒内的中文普通话音频识别为文字,适用于语音对话、语音控制、语音输入等场景。
短语音识别标准版-中文普通话
1万次
12个月
将60秒内的中文普通话音频快速识别为文字,实时返回识别结果,适用于手机语音搜索、聊天输入等场景。
1万次
按次数包
12个月
可将文本转换为音频,支持4种音库,为您提供高性价比的语音合成服务。
1万次
12个月
提供4种基础音库,将超长文本快速转换成稳定流畅、饱满真实的音频。
10万字符
12个月
识别10万类物体和场景,返回大类及细分名称、百科信息。
1万次
按次数包
12个月
检测图片中的主体,可识别出图片中主体的位置和标签。
1万次
12个月
识别近八千种动物,返回动物名称、百科信息。
1万次
12个月
多维度识别图片内容,包括人、物、行为、场景、文字等,并输出一句话描述。
1万次
按次数包
12个月
在自建图库中找到与检索图片语义相似的图片集,并给出相似度打分。
10万次
12个月
针对商品类图片,专项训练检索模型,在自建图库中搜索相同及相似的商品图片集。
10万次
12个月
适合个人或单人运营,满足日常咨询与转化需求。雇佣员工数量限 10,支持1位员工上岗。
个人版
按月
1个月
高效打造视频内容,畅享60分钟视频制作,适用于新闻播报、企业营销、教育培训等多个应用场景
月卡
按月
1个月
即开即用的专业级视觉AI应用,边缘设备统一管理,云端多模态大模型分析,人员安全、设备和环境异常等事件的查看处置。
4路摄像头
5千次复判/分析
100G
1年
沟通更准确、更友好、更全面,秒级理解原始文档,智能客服一键上岗,大模型协助机器人运营优化,省心省力。
1万次
1个月
3
100
百度智能云客悦-智能外呼平台,是基于大模型革新的智能外呼产品。平台能够精准定位目标客群,根据任务设置自动发起外呼通话,并高效识别通话过程中的用户意图,提供高拟人、智能化的对话交互和更高效的服务。
机械人通路
包年包月计费
面向智能客服领域的从业者,结合平台实操演示,深度讲解大模型技术原理与行业实战。"课程+考试。
大模型智能客服运营工程师
按次
将60秒以内的语音识别成文字并翻译成目标语言。
语音翻译
1万次
12个月
结合OCR及机器翻译,对图片内文本进行翻译及译文实景回填。
图片翻译
1万次
12个月
支持Word、PDF等常见文档翻译,文档样式高度还原。
文档翻译
1000万字符
12个月
提供200+语种互译的在线文本翻译,支持术语定制功能。
文本翻译-通用版
1000万字符
12个月
翻译结果附带百万量级中英词典资源、语音合成资源。
文本翻译-词典版
1000万字符
12个月
支持中英日韩法西泰俄等45个语种,采用WebSocket协议,将音频流实时识别为文字。支持智能断句,实时输出带有标点的语音识别结果和翻译结果,适用于直播翻译、会议翻译、跨国交流等场景。
实时语音翻译
100小时
12个月
智能创作平台基于百度领先的大模型技术,致力于打造更符合企业应用场景的AIGC创作产品,将AI赋能创意设计,助力媒体、金融、汽车等行业实现高效内容创作。
创作专业会员
1个月
百度智能云一念是基于百度文心大模型打造的内容创作平台。集文、图、视频多种内容模态于一体,旨在助力企业更便捷更高效地获取内容创作灵感和营销物料。
创作旗舰会员
1个月
输入图文素材,一键生成短视频,自动实现配音、添加数字人等环节。
按点数包
12个月
将创意一键变成创作 ,生成不限定风格的图像,AI一下文字成画。
12个月
基于文心大模型,4-8秒快速生成精美画作,支持多种分辨率。强大的中文语义理解,满足不同场景的创作需求。
200点
12个月
模型升级,效果显著提升!支持输入图片创作,风格尺寸更丰富,作画更精美。
12个月
提升业务灵活性,可在内容审核下图像、文本、短视频和长视频审核多付费接口共用。
按点数包
12个月
单条数据支持8k tokens。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
1亿
按Tokens包
3个月
128K超长上下文支持,优化多轮对话记忆与长文本处理,综合能力全面提升,满足深度交互需求。
1亿
按Tokens包
6个月
多模态能力突破,图像理解与跨模态创作显著提升,支持32K上下文并优化响应速度。
ERNIE-4.5-Turbo-VL-32K
1亿
按Tokens包
6个月
深度思考引擎升级,强化思维链与多模态协同,问答创作及复杂推理能力跨越式提升。
ERNIE-X1-Turbo-32K
1亿
按Tokens包
6个月
百度自研高性能大语言模型,上下文支持128K,通用能力优异,具备极佳的推理性能,适合作为基座模型进行精调,处理特定场景问题。
ERNIE-Speed-Pro-128K
1亿
按Tokens包
12个月
百度自研的轻量级大语言模型,上下文支持128K,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。
ERNIE-Lite-Pro-128K
1亿
按Tokens包
12个月
百度智能云企业实名用户专享优惠 年度好价限量抢购!活动规则
支持OCR多产品跨接口使用(核验类接口、智能文档平台除外)。
OCR共享资源包
12个月
支持输出doc、pdf、xlsx等16种格式文档的版面、表格、阅读顺序等信息。
12个月
结构化识别二代居民身份证正反面所有8个字段,识别准确率超过99%。
12个月
识别车辆挡风玻璃处的车架号码,可应用于4S店车辆出入库管理、车辆出租管理等场景。
12个月
支持OCR多产品跨接口使用(核验类接口、智能文档平台除外)。
12个月
13类常见财务票据“分类 识别 验真”一步到位,省时省力,报销无忧。
12个月
针对固定版式的卡证、票据、文件,自助创建识别模板和分类器,并结构化输出识别结果。
iOCR通用版
12个月
支持版式识别、手写识别能力,将图片/PDF转换为Word文档。
按设备授权
永久
单条数据支持8k tokens。2025年3月24日最新版本,由杭州深度求索人工智能基础技术研究有限公司自研的 MoE 模型,在百科知识、数学推理等多项任务上优势突出,评测成绩在主流榜单中位列开源模型榜首。
DeepSeek-V3
10亿
按Tokens包
3个月
单条数据支持8k tokens。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
DeepSeek-R1
10亿
按Tokens包
3个月
性能全面升级,增强逻辑推理与抗幻觉能力,代码处理更高效,响应速度更快且成本更低。
ERNIE-4.5-Turbo-32K
10亿
按Tokens包
6个月
128K超长上下文支持,优化多轮对话记忆与长文本处理,综合能力全面提升,满足深度交互需求。
ERNIE-4.5-Turbo-128K
10亿
按Tokens包
6个月
多模态能力突破,图像理解与跨模态创作显著提升,支持32K上下文并优化响应速度。
ERNIE-4.5-Turbo-VL-32K
10亿
按Tokens包
6个月
深度思考引擎升级,强化思维链与多模态协同,问答创作及复杂推理能力跨越式提升。
ERNIE-X1-Turbo-32K
10亿
按Tokens包
6个月
课程培训标准由工业和信息化部教育考试中心和百度联合发布,百度基于标准精心打造培训课程,岗位分为初、中、高三个级别,对生成式人工智能行业人才培养具有很强的指导性。
按次
上传训练音频,通过大模型声音复刻创建音色。
12个月
将60秒内的中文普通话音频识别为文字,适用于语音对话、语音控制、语音输入等场景。
12个月
将60秒内的中文普通话音频快速识别为文字,实时返回识别结果,适用于手机语音搜索、聊天输入等场景。
短语音识别极速版
12个月
将音频流实时识别为文字,并返回每句话的开始和结束时间。
12个月
将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景。
12个月
可将文本转换为音频,支持4种音库,为您提供高性价比的语音合成服务。
12个月
提供4种基础音库,将超长文本快速转换成稳定流畅、饱满真实的音频。
12个月
上传训练音频,通过大模型声音复刻创建音色。
12个月
将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。
呼叫中心实时语音识别(8K)
12个月
设备端本地化人脸检测与采集、活体检测、人脸识别功能。
单设备/批量授权
永久
基于单张图片,判断图片中的人脸是否为二次翻拍。
在线图片活体V4
12个月
连接权威数据源远程核验人脸图片+姓名+身份证号。
人脸实名认证V4
12个月
对比两张图片中的人脸,并返回相似度分值。
人脸对比V4
12个月
基于输入的姓名、身份证号,与权威数据源比对进行实名认证。
身份证与名字比对
12个月
构建一个人脸库,用于更新人脸库中,指定用户下的人脸信息。
12个月
对一张图片中存在的 M 张人脸完成全部搜索并返回对应用户和相似度。
人脸搜索M:N
12个月
提供200+语种互译的在线文本翻译,支持术语定制功能。
文本翻译-通用版
12个月
翻译结果附带百万量级中英词典资源、语音合成资源。
文本翻译-词典版
12个月
支持Word、PDF等常见文档翻译,文档样式高度还原。
文档翻译
12个月
结合OCR及机器翻译,对图片内文本进行翻译及译文实景回填。
图片翻译
12个月
将60秒以内的语音识别成文字并翻译成目标语言。
语音翻译
12个月
支持中英日韩法西泰俄等45个语种,采用WebSocket协议,将音频流实时识别为文字。支持智能断句,实时输出带有标点的语音识别结果和翻译结果,适用于直播翻译、会议翻译、跨国交流等场景。
实时语音翻译
12个月
适合小型团队协作,支持多人共享任务与数据。雇佣员工数不限,同时支持3位员工上岗。
即开即用的专业级视觉AI应用,边缘设备统一管理,云端多模态大模型分析,人员安全、设备和环境异常等事件的查看处置。
1年
提供低门槛视觉AI应用生产能力,实现个性化视觉AI需求快速满足,模型自主迭代调优。
1年
提升业务灵活性,可在内容审核下图像、文本、短视频和长视频审核多付费接口共用。
按点数包
12个月
针对图片进行结构化分析,输出实体分析、人脸识别、LOGO识别、关键词提取等多个维度的标签。
图片内容分析
12个月
针对视频进行结构化分析,输出视频内容主题、场景、实体分类、人脸识别、LOGO识别、关键词等标签,同时可对视频进行语音、画面文字、字幕内容的识别。
视频内容分析
12个月
结合清晰度、人脸、构图、场景识别等特征信息,综合输出视频的封面,包括静态封面、GIF动态封面图、封面视频。
智能封面
12个月
对视频的镜头、画面、声音进行分析,输出视频中的高光时刻时间戳信息。
精彩视频分析
12个月
零代码分钟级构建BI报表与可视化大屏。对话式实现查询、归因、洞察、预测、总结。
基础版
1年
零代码分钟级构建BI报表与可视化大屏。对话式实现查询、归因、洞察、预测、总结。
高级版
1年
大额千帆大模型,AI开放能力量包限时75折起,新老客同享!活动规则
支持OCR多产品跨接口使用(核验类接口、智能文档平台除外)。
OCR共享资源包
12个月
支持输出doc、pdf、xlsx等16种格式文档的版面、表格、阅读顺序等信息。
12个月
通过营业执照关键字段,一键查询企业基础工商信息,包含法人、注册资本、信用代码等20+字段。
12个月
结构化识别全国各地道路运输证,返回业户名称、地址、车辆号牌等14个关键字段信息。
12个月
支持OCR多产品跨接口使用(核验类接口、智能文档平台除外)。
12个月
支持全部12类增值税发票信息核验,并返回票面全部字段信息,开票后24小时即可查验。
12个月
结构化识别全国各地门诊/住院发票的全字段信息。
12个月
检测与矫正图片中文档、票据主体内容,支持图片效果增强。
12个月
课程培训标准由工业和信息化部教育考试中心和百度联合发布,百度基于标准精心打造培训课程,岗位分为初、中、高三个级别,对生成式人工智能行业人才培养具有很强的指导性。
按次
百度智能云发布了一套全面覆盖人工智能技术领域的岗位能力标准"课程+考试。
按次
面向智能客服领域的从业者,结合平台实操演示,深度讲解大模型技术原理与行业实战。"课程+考试。
大模型智能客服运营工程师
按次
可离线识别各类文本信息,支持中、英及中英混合,Windows版本全新上线,性能更强劲。
通用文字识别离线SDK
按设备授权
永久
毫秒级响应识别车牌信息,集成在手机、执法记录仪等移动终端设备中。
车牌识别离线SDK
按设备授权
永久
结构化识别二代居民身份证正反面所有8个字段。
身份证识别离线SDK
按设备授权
永久
识别图片中所有的数字和字母,快速提取编号信息。
数字字母识别离线SDK
按设备授权
永久
识别车辆挡风玻璃处的车架号码,集成于PDA、手持平板或手机APP中。
VIN码识别离线SDK
按设备授权
永久
支持版式识别、手写识别能力,将图片/PDF转换为Word文档。
办公文档识别离线SDK
按设备授权
永久
对机动车行驶证主页及副页22个字段进行结构化识别。
行驶证识别离线SDK
按设备授权
永久
上传训练音频,通过大模型声音复刻创建音色。
12个月
将60秒内的中文普通话音频识别为文字,适用于语音对话、语音控制、语音输入等场景。
12个月
将60秒内的中文普通话音频快速识别为文字,实时返回识别结果,适用于手机语音搜索、聊天输入等场景。
短语音识别极速版
12个月
将音频流实时识别为文字,并返回每句话的开始和结束时间。
12个月
将批量上传的音频文件识别为文字,12小时内返回识别结果,适合录音质检、会议内容总结等场景。
12个月
助力内容生产平台高效生成字幕,极速转写,无需排队,精准匹配。
音频文件转写-音视频字幕(中文)
12个月
可将文本转换为音频,支持4种音库,为您提供高性价比的语音合成服务。
12个月
提供4种基础音库,将超长文本快速转换成稳定流畅、饱满真实的音频。
12个月
将音频流实时识别为文字,并返回每句话的开始和结束时间,适用于长句语音输入、音视频字幕、会议等场景。
呼叫中心实时语音识别(8K)
12个月
大批量识别8k采样率电话录音文件,适用于电话内容分析、质检场景。
呼叫中心语音-音频文件转写(8K)
12个月
提供客服场景专属音色,为机器人的应答内容提供情感丰富、高度拟人、流畅自然的语音合成与播报功能。
呼叫中心语音-在线合成-客服音库
12个月
设备端本地化人脸检测与采集、活体检测、人脸识别功能。
单设备/批量授权
永久
基于单张图片,判断图片中的人脸是否为二次翻拍。
按次数包
12个月
连接权威数据源远程核验人脸图片+姓名+身份证号。
按次数包
12个月
对比两张图片中的人脸,并返回相似度分值。
按次数包
12个月
基于输入的姓名、身份证号,与权威数据源比对进行实名认证。
按次数包
12个月
支持生活照、证件照、身份证芯片照、带网纹照、红外黑白照的人脸对比。
12个月
构建一个人脸库,用于更新人脸库中,指定用户下的人脸信息。
12个月
对图片中的人脸进行关键点定位,并返回常用的人脸关键点坐标位置。
12个月
提供200+语种互译的在线文本翻译,支持术语定制功能。
文本翻译-通用版
12个月
翻译结果附带百万量级中英词典资源、语音合成资源。
文本翻译-词典版
12个月
支持Word、PDF等常见文档翻译,文档样式高度还原。
文档翻译
12个月
结合OCR及机器翻译,对图片内文本进行翻译及译文实景回填。
图片翻译
12个月
将60秒以内的语音识别成文字并翻译成目标语言。
语音翻译
12个月
支持中英日韩法西泰俄等45个语种,采用WebSocket协议,将音频流实时识别为文字。支持智能断句,实时输出带有标点的语音识别结果和翻译结果,适用于直播翻译、会议翻译、跨国交流等场景。
实时语音翻译
12个月
在自建图库中找到与检索图相同的图片。
12个月
在自建图库中找到与检索图片语义相似的图片集,并给出相似度打分。
12个月
针对商品类图片,专项训练检索模型,在自建图库中搜索相同及相似的商品图片集。
12个月
针对拍照搜童书场景专项优化算法,支持用局部绘本页面图片。
12个月
在自建图库中找到与检索图片花纹相似的图片集,并给出相似度打分。
按次数包
12个月
识别10万类物体和场景,返回大类及细分名称、百科信息。
12个月
智能识别黑白图像内容并填充色彩,使黑白图像变得鲜活。
12个月
智能调整过暗或过亮图像的对比度,使图像更加鲜明。
12个月
单条数据支持8k tokens。2025年3月24日最新版本,由杭州深度求索人工智能基础技术研究有限公司自研的 MoE 模型,在百科知识、数学推理等多项任务上优势突出,评测成绩在主流榜单中位列开源模型榜首。
DeepSeek-V3
按Tokens包
3个月
单条数据支持8k tokens。DeepSeek-R1 在后训练阶段大规模使用了强化学习技术,在仅有极少标注数据的情况下,极大提升了模型推理能力。在数学、代码、自然语言推理等任务上,性能比肩 OpenAI o1 正式版。
DeepSeek-R1
按Tokens包
3个月
性能全面升级,增强逻辑推理与抗幻觉能力,代码处理更高效,响应速度更快且成本更低。
ERNIE-4.5-Turbo-32K
按Tokens包
6个月
128K超长上下文支持,优化多轮对话记忆与长文本处理,综合能力全面提升,满足深度交互需求。
ERNIE-4.5-Turbo-128K
按Tokens包
6个月
多模态能力突破,图像理解与跨模态创作显著提升,支持32K上下文并优化响应速度。
ERNIE-4.5-Turbo-VL-32K
按Tokens包
6个月
深度思考引擎升级,强化思维链与多模态协同,问答创作及复杂推理能力跨越式提升。
ERNIE-X1-Turbo-32K
按Tokens包
6个月
百度自研高性能大语言模型,上下文支持128K,通用能力优异,具备极佳的推理性能,适合作为基座模型进行精调,处理特定场景问题。
ERNIE-Speed-Pro-128K
按Tokens包
12个月
百度自研的轻量级大语言模型,上下文支持128K,兼顾优异的模型效果与推理性能,适合低算力AI加速卡推理使用。
ERNIE-Lite-Pro-128K
按Tokens包
12个月
基于联网搜索能力,模型能获取天气、新闻等实时数据和信息,更精确回答用户的特定问题。
搜索增强包
按Tokens包
6个月
提升业务灵活性,可在内容审核下图像、文本、短视频和长视频审核多付费接口共用。
按点数包
12个月
语音识别结合声纹检测及文本审核能力,支持短音频实时检测。
按次数包
12个月
语音识别结合声纹检测及文本审核能力,支持音频流异步检测。
按小时包
12个月
针对图片进行结构化分析,输出实体分析、人脸识别、LOGO识别、关键词提取等多个维度的标签。
按张数包
12个月
结合清晰度、人脸、构图、场景识别等特征信息,综合输出视频的封面,包括静态封面、GIF动态封面图、封面视频。
12个月
将创意一键变成创作 ,生成不限定风格的图像,AI一下文字成画。
12个月
输入图文素材,一键生成短视频,自动实现配音、添加数字人等环节。
按点数包
12个月
通过Prompt精准控制AI作画中角色形象的一致性,支持灵活调整风格与场景。适用于绘本、插画及人像创作,助力连贯叙事与多样化表达,提升创作的连贯性与艺术表现力。
12个月
超值优品一键购齐,助力企业和开发者加速成长活动规则
权威证书:参加培训并考试合格可获得百度证书和工信教考中心颁发的职业技术证书,一考双证 精选课程:面向使用大模型进行智能创作的人员,提供理论和应用实践相结合的课程体系
利用大模型进行话题和新闻事件生成,在大模型内置审核基础上可增加对生成内容的二次审核 支持自定义配置审核策略,满足不同应用场景,避免违规内容曝光在公众平台
高性能云服务器与千帆大模型组合,适用于企业调用千帆场景 千帆产品必选,任意搭配1款产品组合购买,新老同享组合优惠
对试卷、作文、答题卡等进行拍照扫描,结构化识别作业内容、题干选项答案、学生考号、姓名等信息 通过大模型进行判断和批改,辅助教师提升阅卷效率
对考试、作业等进行拍照扫描,结构化识别题干及选项等信息 通过大模型理解和推理,快速搜索相似题目
办公文档数字化处理,高效提取文字及其位置信息 通过大模型进行分类,方便后续编辑、检索、分析等操作
运用语音合成技术实现智能语音讲解,方便学生利用碎片化时间学习 同时,智能语音交互学习助手帮助解答学生在学习过程中遇到的问题
网络游戏注册账号时需远程身份核验,语音合成为NPC配音提升互动趣味性,基础云护航游戏体验。
OCR助力商户信息登记,基础云支撑电商平台高效运转。
OCR精准识别题目及答案,提升教学及阅卷效率,基础云赋能保障流畅体验。
OCR快审证件、加速单据处理,基础云为金融保险业务稳健赋能。
更多超值优惠活动直达 限量抢购!