金融风控大厂面试深度解析:26-50题

作者:php是最好的2024.08.16 19:09浏览量:17

简介:本文深入解析金融风控大厂面试中常见的26-50题,涵盖从基本原理到实践应用的多个方面,帮助求职者全面了解并准备面试。

金融风控大厂面试题26-50题(含解析)

26. 如何根据业务构造损失函数?

问题解析
在金融风控中,损失函数的设计直接关系到模型的性能。例如,在提额模型中,我们希望最大化分数最高的20%客户的正样本捕获率,同时保持模型对正负样本的区分能力。可以通过自定义损失函数来实现,该损失函数由两部分组成:一部分优化前20%样本的正样本占比,另一部分保证模型的整体区分度。

实践建议

  • 设计损失函数时,考虑业务目标,如提升特定群体的预测准确率。
  • 使用pandas的quantile函数等工具来辅助实现复杂的损失函数。
  • 在实际应用中,根据模型表现调整不同部分的权重。

27. 拒绝推断的目的是什么?

问题解析
拒绝推断用于解决建模样本偏差问题。当仅使用通过审批的用户建模时,模型容易忽略被拒用户的特性,导致预测结果偏差。拒绝推断通过推断被拒用户的信用表现,使建模样本更接近总体分布。

实践建议

  • 中低核准率场景下应用拒绝推断,高核准率则不适用。
  • 使用分配法等方法将拒绝用户加入建模样本,重新训练模型。
  • 监控拒绝推断的效果,及时调整策略。

28. 不平衡场景下的过采样后,是否需要结果概率校正?

问题解析
在不平衡数据集中,过采样会改变样本分布,进而影响模型预测的概率。如果仅关注排序或AUC等指标,则无需校正;但如需得到准确的预测概率,则需进行校正。

实践建议

  • 使用逻辑回归等算法时,注意校正输出概率。
  • 理解不同算法对不平衡数据的敏感度,选择合适的处理方法。

29. LGB在不平衡分类上的scale_pos_weight参数如何影响模型?

问题解析
scale_pos_weight用于调整正负样本的权重,以应对不平衡问题。设置此参数会改变训练集的标签分布,但不影响排序模型的预测排序能力。

实践建议

  • 关注模型的AUC或排序能力时,可调整scale_pos_weight。
  • 如需得到准确的预测概率,需结合其他方法进行校正。

30. 下探样本的选择依据是什么?

问题解析
下探样本的选择依据是期望得到的坏客户量。通常基于上一次模型迭代的测试集模拟结果,选择预期百分比的样本进行下探。

实践建议

  • 设定明确的下探目标,如坏客户占比或数量。
  • 使用历史数据模拟测试,优化下探策略。

31-50. 面试问题概览

31. 金融风控中的无监督算法有哪些?

  • 图的离群检测、聚类、孤立森林、LOF等。

32. 如何评估风控模型的性能?

  • 使用KS、AUC、Accuracy、PSI等指标,同时分析特征变量的效果。

33. 如何处理特征变量的缺失值?

  • 使用均值、中位数、众数填充,或建立缺失值指示器。

34. 线性回归与逻辑回归的区别?

  • 线性回归预测连续值,逻辑回归预测分类结果。

35. 聚类模型的评价维度有哪些?

  • SSE(误差平方和)、频数分布合理性等。

36. 特征分箱的作用及注意事项?

  • 提高模型稳定性,减少过拟合。注意分箱区间的选择,避免过多或过少。

37. 如何监控评分卡模型的稳定性?

  • 使用PSI等指标,定期分析模型变量的稳定性。

38. 为什么特征信息值IV小不代表应用价值低?

  • IV小可能受样本量、变量分布等因素影响,需结合实际情况评估。

39. 如何处理特征共线性问题?

  • 使用方差膨胀系数分析,结合主成分分析等方法。

40. 分类字符型特征为何不需全部转为数值型?

  • 部分字符型特征具有业务意义,直接转换可能丢失重要信息。