007-异常检测算法
更新时间:2023-01-18
异常检测算法
IsolationForest
在高维数据集中实现异常值检测的一种有效方法是使用随机森林。隔离森林(IsolationForest)通过随机选择特征然后随机选择所选特征的最大值和最小值之间的分割值来隔离观测。 由于递归划分可以由树形结构表示,因此隔离样本所需的分割次数等同于从根节点到终止节点的路径长度。 在这样的随机树的森林中取平均的路径长度作为决策量度。 随机划分能为异常观测产生明显的较短路径。 因此,当随机树的森林共同为特定样本产生较短的路径长度时,这些样本就很有可能是异常观测。
输入
- 输入一个数据集,选择需要进行异常检测的特征列。
输出
- 输出IsolationForest模型。
算子参数
参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|
树的数量 | 是 | 模型中树的数量。数量较大时建议增加内存 范围:[1, 1000]。 | 50 |
最大深度 | 是 | 每棵树最大的深度 范围:[1, 50]。 | 30 |
采样率 | 是 | 计算每棵树时从训练数据集随机采样的比率 范围:[0.001, 1.0]。 | 0.632 |
随机种子 | 否 | 随机种子,用于保证多次训练结果相同。 | 无 |
字段参数
参数名称 | 是否必选 | 参数描述 | 默认值 |
---|---|---|---|
特征列 | 是 | 支持数值或数值数组类型。 | 无 |
使用示例
如下图所示,构建算子结构,选择特征列,配置检测条件参数。