数据探查
更新时间:2024-05-14
概述
数据探查是数据质量保障非常重要的一步,它是数据开发和模型训练的基础。数据探查通过自动化的手段了解数据结构,检查数据成分、数据关系及数据格式等问题,旨在了解来源数据的数据形态,帮助分析、判断、找出潜在的数据问题和风险。
前提条件
1应用已经创建完成。
2数据接入服务和推荐服务已经开启。
操作步骤
1登录进入智能推荐引擎,查看数据探查的方式有3种:
(1)【数据探查】页面中查看:在【数据仓库】下的二级页面【数据探查】中查看,进入数据探查页面。
(2)【服务中心】精选服务中查看:在精选服务列表页面点击“数据探查”卡片,进入数据探查页面。
(3)【应用管理】中查看:在应用列表页面点击【配置】按钮进入应用页,点击“数据探查”按钮,进入数据探查页面。
2查看用户数据、行为数据和物料数据概况。
参数 | 参数说明 |
---|---|
三类数据总量统计 | 分别统计三类数据从接入到当前的数据总量。 |
三类数据每日增量统计 | 近30日数据增量趋势图,统计颗粒度为天,含今日数据。 |
查询条件 | 根据应用和截止时间(天粒度)查询,暂只支持图文物料。 |
统计时效性 | 离线t-1,天粒度 |
新用户 | 2个月内无点击行为的用户。 |
新物料 | 新物料:1天内上传的物料。 |
3物料数据探查:分析物料数据数值分布和数据质量指标。
参数 | 参数说明 |
---|---|
空值数 | 统计非必传字段空值数,图文主要统计author_id、channels、tags、category的空值数。 |
重复数 | 图文主要统计nid重复数、标题重复数、nid和标题重复数。 |
取值分布统计维度 | 图文主要统计物料上架状态、作者、一级类别、标签、频道的取值分布,可选择top10、20、50,统计每个取值的数据量和占比,并按照倒序进行排序。 |
标签字段空值率 | 存在x%的标签字段(tags)缺失,标签特征发挥作用削弱,缺失该值的物料无法根据标签被召回,将会影响该物料的曝光,建议不要为空。 |
城市字段空值率 | 存在x%的城市字段(city)缺失,城市特征发挥作用削弱,缺失该值的物料无法根据城市被召回,将会影响该物料的曝光和本地服务,建议不要为空。 |
作者id字段空值率 | 存在x%的作者id字段(author)缺失,作者特征发挥作用削弱,缺失该值的物料无法根据相同作者的物料被召回,将会影响该物料的曝光,建议不要为空。 |
频道字段空值率 | 存在x%的频道字段channals)缺失,频道特征发挥作用削弱,缺失该值的物料无法根据频道筛选过滤,将会影响该物料的筛选,建议不要为空。 |
类目字段空值率 | 存在x%的类目字段(category)缺失,类目特征发挥作用削弱,缺失该值的物料无法根据相同类目的物料被召回,将会影响该物料的曝光,建议不要为空。 |
4用户数据探查:分析用户数据数值分布和数据质量指标。
参数 | 参数说明 |
---|---|
空值数 | 统计非必传字段空值数,图文主要统计tags、城市的空值数。 |
重复数 | 图文主要统计uid重复数。 |
取值分布统计维度 | 图文主要统计标签和城市的取值分布;可选择top10、20、50,统计每个取值的数据量和占比,并按照倒序进行排序。 |
标签字段空值率 | 存在x%的标签字段(tags)缺失,标签特征发挥作用削弱,缺失该值的用户无法根据标签进行兴趣召回,将会影响个性化服务效果,建议不要为空。 |
位置字段空值率 | 存在x%的位置字段(city)缺失,城市特征发挥作用削弱,缺失该值的用户无法根据城市进行基于地理位置的兴趣召回,将会影响个性化服务效果和本地服务,建议不要为空。 |
5行为数据探查:分析数据数值分布和数据质量指标。
参数 | 参数说明 |
---|---|
重复数 | uid, nid, event相同重复数、id, nid, event, ts相同重复数 |
取值分布统计维度 | 图文主要统计事件类型和场景的取值分布。可选择top10、20、50,统计每个取值的数据量和占比,并按照倒序进行排序。 |
行为未回传比例 | 用户行为反馈合理性判断指标:存在0%的用户请求了推荐结果,但无后续的反馈行为(回传行为量较少,影响模型学习效果;当比例偏差较大时,请检查埋点是否正常;数据链路是否正常,是否存在数据漏传;请检查是否存在较多的缓存) |
曝光行为未回传比例 | 曝光行为反馈合理性:存在0%的用户请求了推荐结果或者存在点击行为,但无对应的曝光行为回传。(曝光行为回传行为量较少,影响计算ctr预估值,影响模型学习效果;当比例偏差较大时,需要检查埋点是否正常;数据链路是否正常,是否存在数据漏传;请检查是否存在较多的缓存;) |
点击行为未回传比例 | 点击行为反馈合理性:存在0%的用户请求了推荐结果,但无对应的点击行为回传。(曝光行为回传行为量较少,影响计算ctr预估值,影响个性化效果,影响模型学习效果;当比例偏差较大时,需要检查埋点是否正常;数据链路是否正常,是否存在数据漏传;请检查是否存在较多的缓存;) |
物料id不一致率 | 行为表物料id在物料表中不存在率 |
用户id不一致率 | 行为表用户id在用户表中不存在率 |
行为上传时间延时比例 | 行为上传时间与行为发生时间的差值大于30min的数据所占的比率 |