快速复核标注 本文档介绍EasyDL零售版在线标注工具中快速复核功能,在完成标注后,可以使用该功能对标注的图片进行复核,检查标注的是否正确。 该功能可将【有标注信息】下图片上所有标注框,按照SKU分类后汇总展示,并支持修改或删除标注信息,可用于快速复核标注是否准确。 使用流程 1. 功能入口 进入标注页面后,在下图所示
平台已有数据集 支持选择相同数据格式的非空数据集版本。 支持选择相同数据格式的非空数据集版本。
除这些预留字段外,Prompt+Response数据集还额外支持您在数据中扩展自定义业务字段,为数据集样本附加多维度元信息,例如实际业务指标、终端用户反馈和分类标签,可在数据准备过程中指导您更好地进行数据洞察与处理。
第一步:构建蒸馏数据 教师模型版本 教师模型版本默认值为 DeepSeek-R1-250528 ,平台提供ERNIE、DeepSeek、Llama系列等模型作为教师模型。 数据配置 原始数据来源支持选择平台数据集。 若要发起蒸馏,仅支持选择一个数据集并多于100条,若数据集超过10000条,蒸馏数据构造耗时可能较长,请耐心等待。
注意 :未发布的数据新增数据不再纳入质量检查分析范围,但是删除数据后,质量检查将无法查看数据内容。 删除 您可以在完成数据分析任务后,在操作列“删除”此操作,任务一旦删除,将不可恢复。
数据集部分样本的字段值空缺/特殊字符率过高,对模型训练有害,需要识别并去除此类样本。 数据集中混杂着多种业务场景的样本,想要从中遴选某一类场景的样本构建数据集,用于后续的定向调优。 从BadCase数据集中选择微数据,提升模型微调效果。 ...... 一般意义上,数据洞察与处理往往由具备AI数据准备经验的开发工程师/数据科学家等角色开展。
数据管理 数据管理计费明细 数据管理是模型训练的基础来源,数据标注处理(包括数据标注、增强和FAQ挖掘)和创建推理结果集,均涉及计费。 数据标注处理 以下为数据标注处理中可能涉及的计费内容,其计费均照调用 在线推理 按量后付费 形式进行,具体价格可查看 按量后付费 在线推理计费标准。
数据更新 :指标数据的刷新频率设定为每日更新,即在每天凌晨00:00,系统将自动更新并展示前一日的数据,确保信息的时效性和准确性。 数据视图范围选择 :可根据实际业务需求,通过选择不同的发布途径和具体的时间范围,来查看相应的概览指标和详细指标,实现不同场景下的数据洞察。 概览指标 该指标包含:总使用量,总使用用户数,总新增使用用户数,使用用户平均日留存率。
单图自动进行压缩后展示,可以一定程度提升图片加载速度 标注说明 实景图上传API,可以通过API上传未标注和已标注的实景图,点击后跳转至该说明文档 实景图集标注规范,详细说明实景图如何正确标注,点击后跳转至该说明文档 标注工具使用方法,详细说明在线标注工具的使用方法,点击后跳转至该说明文档 切换数据集
数据清洗 什么是数据清洗 数据清洗是面向提升大语言模型数据质量的一站式数据处理方案,通过对数据进行异常清洗、文本过滤、文本去重和去除隐私信息,大幅提升数据质量,优化模型训练效果。 面向SFT场景的数据清洗 登录到 操作台 ,在左侧功能列数据洞察与处理中选择SFT数据的 数据清洗 ,进入数据清洗的主任务界面,整体流程如下: 1.选择数据集 在数据清洗主页面中,选择“创建任务”。