利用箱型图的四分位距(IQR)对异常值进行检测,也叫Tukey‘s test。
本文内容参考自:
https://www.cnblogs.com/wyy1480/p/9526264.html
https://www.shiyanlou.com/courses/1417
https://juejin.im/post/5b6a44f55188251aa8294b8c

箱线图

箱线图是一种用于显示一组数据分散情况资料的统计图,可以显示该组数据的最大值,最小值,中位数,上四分位数,下四分位数和异常值。

箱线图

四分位数,是指将一组数据值按大小排序后分成四等分,每一部分包含1/4的数据,这种划分的分割点就是四分位数。

  • 第 1 部分和第 2 部分的分割点称为第 1 分位数 $Q1$, 也被称为第 25 百分位数$Q_(25\%)$(下四分位)。
  • 第 3 部分和第 4 部分的分割点称为第 3 四分位数 $Q3$,也被称为第 75 百分位数$Q_(75\%)$(上四分位)。
  • 第2部分和第3部分的分割点是第 2 四分数,也就是中位数。
  • 四分位距 $IQR$ 是指第3四分位数和第1四分位数的差,$IQR = Q3 - Q1$。

上相邻值:箱子的上须线(非离群点)的最大值max

下相邻值:箱子的下须线(非离群点)的最小值min

上限值:$上限值 = Q3 + 1.5 * IQR$

下限值:$下限值 = Q1 - 1.5 * IQR$

离群点(异常值):指超过上限值或者下限值的数据项

异常值的处理

一般异常值的处理方法可大致分为以下几种:

  • 删除含有异常值的记录:直接将含有异常值的记录删除;
  • 视为缺失值:将异常值视为缺失值,利用缺失值处理的方法进行处理;
  • 平均值修正:可用前后两个观测值的平均值修正该异常值;
  • 不处理:直接在具有异常值的数据集上进行数据挖掘,研究异常值出现的原因;

使用例子