箱式图

编辑:跌跤网互动百科 时间:2020-01-24 06:28:01
编辑 锁定
箱线图是统计学中图表表示法的常用方法之一,可以相对直观的看出数据分布特点。箱式图用于多组数据平均水平和变异程度的直观分析比较。每组数据均可呈现其最小值、最大值、平均水平,最小值、最大值形成间距都可以反应数据的变异程度。
中文名
箱线图
领    域
统计学
用    途
数据平均水平和变异程度的分析
优    点
直观

箱式图异常值

编辑
异常值又称离群值,指大于1.5倍四分位数间距的数值。处于1.5~3倍四分位数间距之间的异常值在箱式图中常用空心圆表示。

箱式图极端值

编辑
指大于三倍四分位数间距的数值。在箱式图中常用实心圆表示。
箱式图是一个重要的探索性数据分析工具来决定是否一个因子有重要影响在变量或位置的反应中。可观察数据呈正态分布、左偏分布、右偏分布还是其他类型的分布,如U型分布。
极端值属于异常值的一种,又称离群值(outlier),如果不作特别要求,异常值和极端值均用一个点单独表示

箱式图绘制方法

编辑
首先找出一组数据的五个特征值,包括除异常值外的最小值(minimum)和最大值(maximum)、中位数(median)、两个四分位数(上四分位数Q1和下四分位Q3数);
中位数:将所有数值从小到大排列,如果是奇数个数值则取最中间一个值作为中位数,之后最中间的值在计算Q1和Q3时不再使用;偶数个数值则取最中间两个数的平均数作为中位数,这两个数在计算Q1和Q3时继续使用
Q1:中位数将所有数据分成两部分,最小值到中位数的部分按取中位数的方法取中位数作为Q1
Q3:同Q1取法,取中位数到最大值的中位数
计算IQR(四分位数间距)即IQR=Q3-Q1
所有不在(Q1-1.5IQR,Q3+1.5IQR)的区间内的数为离群值,剩下的值最大的为最大值,最小的为最小值
特征值(从小到大):最小值、Q1、中位数、Q3、最大值
将五个数值描绘在一个图上,五个特征值在一个直线上,最小值和Q1连接起来,Q1、中位数、Q3分别作平行等长线段,
然后,连接两个四分位数构成箱子;
最后连接两个极值点与箱子,形成箱式图,然后点上离群值即可。
如有需要也可以在箱线图旁加数轴做标记
词条标签:
科技 理学