EasyDL常用概念
目录
模型与模型类型
EasyDL支持6大技术方向,每个方向包括不同的模型类型:
- EasyDL 图像:图像分类、物体检测、图像分割
- EasyDL 文本:文本分类-单标签、文本分类-多标签、文本实体抽取、情感倾向分析、短文本相似度
- EasyDL 语音:语音识别、声音分类
- EasyDL OCR:文字识别
- EasyDL 视频:视频分类、目标跟踪
- EasyDL 结构化数据:表格预测
模型训练相关
AutoDL Transfer
AutoDL Transfer模型是百度研发的AutoDL技术之一,结合了模型网络结构搜索、迁移学习技术、并针对用户数据进行自动优化。与通用算法相比,训练时间较长,但更适用于细分类场景。例如,通用算法可用于区分猫和狗,但如果要区分不同品种的猫,则AutoDL效果会更好
ERNIE
领先的语义理解技术与平台文心(ERNIE),依托飞桨打造,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让您更简单、高效地定制企业级文本模型。文心提供的ERNIE预训练模型,已累计学习10亿多知识,能够助力各NLP任务快速提升效果。平台内置了最新的ERNIE2.0,并提供了ERNIE2.0-Base、ERNIE2.0-Large两个版本供用户选择。
模型效果相关
准确率
图像分类/文本分类/声音分类等分类模型的衡量指标,正确分类的样本数与总样本数之比,越接近1模型效果越好
F1-score
对某类别而言为精确率和召回率的调和平均数,对图像分类/文本分类/声音分类等分类模型来说,该指标越高效果越好
精确率(Precision)
对某类别而言为正确预测为该类别的样本数与预测为该类别的总样本数之比
召回率(Recall)
对某类别而言为正确预测为该类别的样本数与该类别的总样本数之比
top1、top2…top5
在查看图像分类/文本分类/声音分类/视频分类模型评估报告中,top1-top5指的是针对一个数据进行识别时,模型会给出多个结果,top1为置信度最高的结果、top2次之…正常业务场景中,我们通常会采信置信度最高的识别结果,重点关注top1的结果即可。
mAP
mAP(mean average precision)是物体检测(Object Detection)算法中衡量算法效果的指标。对于物体检测任务,每一类object都可以计算出其精确率(Precision)和召回率(Recall),在不同阈值下多次计算/试验,每个类都可以得到一条P-R曲线,曲线下的面积就是average
阈值
物体检测模型会存在一个可调节的阈值(threshold),是正确结果的判定标准,例如阈值是0.6,置信度大于0.6的识别结果会被当作正确结果返回。每个物体检测模型训练完毕后,可以在模型评估报告中查看推荐阈值,在推荐阈值下F1-score的值最高。
模型部署相关
公有云API
模型部署为Restful API,可以通过HTTP请求的方式进行调用。
设备端SDK
模型部署为设备端SDK,可集成在前端智能计算硬件设备中,可完全在无网环境下工作,所有数据皆在设备本地运行处理。目前支持IOS、ANDROID、WINDOWS、LINUX四种操作系统及多款主流智能计算硬件。
本地服务器部署
模型部署为本地服务器部署,可获得基于定制EasyDL模型封装而成的本地化部署的方案,此软件包部署包开发者本地的服务器上运行能够得到与在线API功能完全相同的接口。
软硬一体方案
目前EasyDL支持两款软硬一体硬件,包括EasyDL-EdgeBoard软硬一体方案及EasyDL-十目计算卡。通过在AI市场购买,可获得硬件+专项适配硬件的设备端SDK,支持在硬件中离线计算。
数据相关
智能标注
智能标注为一套人机交互的协作标注方式,目前EasyDL物体检测训练任务支持智能标注,在手工标注少量数据后,系统会从数据集所有图片中筛选出最关键的图片并提示需要优先标注。通常情况下,只需标注数据集30%左右的数据即可训练模型。与标注所有数据后训练相比,模型效果几乎等同。