金融风控大厂面试题26-50题(含解析)
26. 如何根据业务构造损失函数?
问题解析:
在金融风控中,损失函数的设计直接关系到模型的性能。例如,在提额模型中,我们希望最大化分数最高的20%客户的正样本捕获率,同时保持模型对正负样本的区分能力。可以通过自定义损失函数来实现,该损失函数由两部分组成:一部分优化前20%样本的正样本占比,另一部分保证模型的整体区分度。
实践建议:
- 设计损失函数时,考虑业务目标,如提升特定群体的预测准确率。
- 使用pandas的quantile函数等工具来辅助实现复杂的损失函数。
- 在实际应用中,根据模型表现调整不同部分的权重。
27. 拒绝推断的目的是什么?
问题解析:
拒绝推断用于解决建模样本偏差问题。当仅使用通过审批的用户建模时,模型容易忽略被拒用户的特性,导致预测结果偏差。拒绝推断通过推断被拒用户的信用表现,使建模样本更接近总体分布。
实践建议:
- 中低核准率场景下应用拒绝推断,高核准率则不适用。
- 使用分配法等方法将拒绝用户加入建模样本,重新训练模型。
- 监控拒绝推断的效果,及时调整策略。
28. 不平衡场景下的过采样后,是否需要结果概率校正?
问题解析:
在不平衡数据集中,过采样会改变样本分布,进而影响模型预测的概率。如果仅关注排序或AUC等指标,则无需校正;但如需得到准确的预测概率,则需进行校正。
实践建议:
- 使用逻辑回归等算法时,注意校正输出概率。
- 理解不同算法对不平衡数据的敏感度,选择合适的处理方法。
29. LGB在不平衡分类上的scale_pos_weight参数如何影响模型?
问题解析:
scale_pos_weight用于调整正负样本的权重,以应对不平衡问题。设置此参数会改变训练集的标签分布,但不影响排序模型的预测排序能力。
实践建议:
- 关注模型的AUC或排序能力时,可调整scale_pos_weight。
- 如需得到准确的预测概率,需结合其他方法进行校正。
30. 下探样本的选择依据是什么?
问题解析:
下探样本的选择依据是期望得到的坏客户量。通常基于上一次模型迭代的测试集模拟结果,选择预期百分比的样本进行下探。
实践建议:
- 设定明确的下探目标,如坏客户占比或数量。
- 使用历史数据模拟测试,优化下探策略。
31-50. 面试问题概览
31. 金融风控中的无监督算法有哪些?
32. 如何评估风控模型的性能?
- 使用KS、AUC、Accuracy、PSI等指标,同时分析特征变量的效果。
33. 如何处理特征变量的缺失值?
34. 线性回归与逻辑回归的区别?
35. 聚类模型的评价维度有哪些?
36. 特征分箱的作用及注意事项?
- 提高模型稳定性,减少过拟合。注意分箱区间的选择,避免过多或过少。
37. 如何监控评分卡模型的稳定性?
38. 为什么特征信息值IV小不代表应用价值低?
- IV小可能受样本量、变量分布等因素影响,需结合实际情况评估。
39. 如何处理特征共线性问题?
40. 分类字符型特征为何不需全部转为数值型?
- 部分字符型特征具有业务意义,直接转换可能丢失重要信息。