AI: 直方图简介及详细绘制步骤
一、直方图是什么
直方图用一系列宽度相等、高度不等的长方形来表示数据,其宽度代表组距,高度代表指定组距内的数据数(频数)。
它由英国学者卡尔卡尔·皮尔逊提出。
直方图可使我们比较容易直接看到数据的分布形状、离散程度和位置状况:
- 观察数据分布的类型,分析是否服从正态分布,有无异常;
- 判断数据分布范围是否满足规格范围的要求;
- 与产品规格界限做比较,判断分布中心是否偏离规格中心,以确定是否需要调整及调整量;
但需要注意的是,虽然在过程能力分析中,我们常常利用直方图整理数据用以分析其分布状态,但有时根据观测数据所绘制的直方图呈非正态的异常分布。这说明过程已出现了异常。在这种状态下,是不能计算过程能力指数的,必须先排查异常原因,予以排查纠正后,再重新收集数据并分析。
为什么不能计算,因为不受控了啊,计算Cp/Cpk的前提是过程处于统计受控状态。
另外注意直方图不等同于柱状图,或者通俗说直方图是特定规则生成的柱状图,不要将二者混为一谈。
二、直方图怎么做
1、前置条件
用于绘制直方图的数据量n最好在100以上,如确实达不到,至少也应大于50。
2、数据源
假设对某产品的某质量特性进行测量,共得到如下60个数据。
138 | 142 | 148 | 145 | 140 | 141 |
138 | 139 | 144 | 138 | 139 | 136 |
138 | 137 | 137 | 133 | 140 | 130 |
145 | 141 | 135 | 131 | 136 | 131 |
134 | 132 | 135 | 134 | 132 | 134 |
130 | 135 | 135 | 134 | 136 | 131 |
139 | 140 | 141 | 138 | 137 | 137 |
131 | 127 | 136 | 128 | 138 | 132 |
134 | 136 | 137 | 133 | 121 | 129 |
137 | 132 | 131 | 139 | 136 | 135 |
3、确定数据极差R
显而易见,最大值Max=148,最小值Min=121,极差R=148-121=27。
4、确定组数K
组数也就是直方图上柱子的数量。合理的选择分组数对于正确的使用直方图非常重要。
分组过多会使柱子的高度参差波动,直方图将是锯齿型,甚至出现空档,不易显示其分布规律,而且计算量也会增加。分组过少则会掩盖了组内数据可能的异常波动,直方图过于宽平,对分布状态反应不灵敏。
一般在6~20组之间较为合适。具体可以参照以下两种方法,任选其一即可:
- 中国质量协会注册质量经理手册中,推荐使用n的平方根。本例中,K= 60的平方根 = 7.7 ≈ 8。
- 日常中也常用斯特奇斯(Sturges)提出的经验公式K=1+lgn/lg2。按该公式,本例 K = 6.9 ≈ 7。
本次采用经验公式,取组数为7。
5、确定组距H
有了组数,还要确定组距也就是柱子的宽度,这样方能计算每根柱子该包含哪些数据。
组距的确定方法为 H=R/K=(148-121)/7=4
注意组距要取测量单位的整数倍,否则生成的直方图会有锯齿形的错误分布。如果计算出的组距不是测量单位的整数倍,则要上下调整圆整。当H向上圆整时,实际分组数K将比原选定的分组数小,当H向下圆整时,实际分组数将比原选定的分组数大,这并不影响直方图形态和分析结论。
6、确定各组的界限
即每根柱子的起点和终点值。
一般第一组起点为:Min-最小测定单位/2。
本例中最小测定单位为1(因为你没看到小数),所以起点为121-0.5=120.5。根据组距4,快速确定各组界限为:
下限值 | 上限值 | |
---|---|---|
第一组 | 120.5 | 124.5 |
第二组 | 124.5 | 128.5 |
第三组 | 128.5 | 132.5 |
第四组 | 132.5 | 136.5 |
第五组 | 136.5 | 140.5 |
第六组 | 140.5 | 144.5 |
第七组 | 144.5 | 148.5 |
问:为什么要减去最小测定的单位/2?
答:因为不能让测量的数和柱子的边界相同啊,如果相同,放在哪个柱子上呢。
7、确定各组的频数
也就是落在各组的数据的数量是多少。
各位就各显神通去数吧,有空再简单介绍下用Excel Countifs函数或Frequency函数快速确定频数的方法。Minitab的做法暂不涉及了(别问为什么,问就是写了这么多,懒了 )。
下限值 | 上限值 | 频数 | |
---|---|---|---|
第一组 | 120.5 | 124.5 | 1 |
第二组 | 124.5 | 128.5 | 2 |
第三组 | 128.5 | 132.5 | 12 |
第四组 | 132.5 | 136.5 | 18 |
第五组 | 136.5 | 140.5 | 19 |
第六组 | 140.5 | 144.5 | 5 |
第七组 | 144.5 | 148.5 | 3 |
8、画图
终于到最后一步了。以组距为底长,以频数为高做图。
因为直方图除了看分布以外,还可确定分布的范围是否在接受范围(公差范围)内,所以还需标注公差范围(T)、样本容量(n)、样本平均值(x)、样本标准偏差值(s)和x的位置等(我承认我又偷懒了,不标了,各位正式做图的时候不能省略)。
另外为了图表美观,建议宽高比为2:3,强迫症患者欢迎取0.618。
