衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

衡量数据离散程度的指标有,原文标题:在统计学中,这7个度量指标,让你更好地衡量数据的离散程度。数据的离散程度,也是衡量数据分布的一个方面,它主要指

衡量数据离散程度的指标有,原文标题:在统计学中,这7个度量指标,让你更好地衡量数据的离散程度。

数据的离散程度,也是衡量数据分布的一个方面,它主要指各个变量和中心位置是相距多远的一个度量。

也就是说,数据的离散程度越大,那么集中趋势的这个指标的代表性就越差。

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

根据不同的数据类型,离散程度主要有以下几个测度值:

异众比率

异众比率,适用于类别型数据。它指的是非众数组的频数占总的频数的比例。计算公式如下:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

∑f[i]是总频数,f[m]是众数组的频数

从公式中不难看出,异众比率越大,说明众数的代表性越差,反之亦然。

四分位差

四分位差又叫内距,它指的是上四分位数和下四分位数的差,用公式可以表示为:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

Q[U]是上四分位数,Q[L]是下四分位数

简单的说,四分位差主要反映的是中间那50%部分数据的离散程度。

从公式中也能看出,四分位差越大,说明中间这部分数据越分散。

需要注意的是,四分位差主要适用于测量顺序型数据的离散程度,一般并不适合用于分类型数据。

极差

极差,顾名思义,就是指一组数据的最大值和最小值的差。也可以称之为全距,用公式表示就是:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

公式很简单,也很方便理解。但由于只计算了数据两端的差值,并不能很好的反映数据的离散程度,一般很少使用这个指标。

平均差

平均差,又称之为平均绝对离差。它是每个变量和平均值之间差的绝对值的平均数,看起来有点绕,不过用公式表示就很清晰了,如下:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

n为数据个数

为什么公式中要用绝对值呢?因为如果去掉绝对值的话,那么离差之和就是0了,没有意义。

平均差的实际意义也很明确,平均差越大,表示数据的离散程度越大。

方差标准差

  • 方差

方差和平均差很类似,只不过是将平均差中的绝对值换成了平方数。也就是说,方差是各个变量和平均数之间离差的平方的平均数。用公式可以表示为:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

n为数据个数

分母n-1又称为自由度,那为什么要减去1呢?因为我们通常拿到的都是样本,如果是总体数据计算方差的话,可以不用减1。

  • 标准差

标准差更简单,就是方差的平方根,公式表示如下:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

但标准差的实际意义要比方差更清晰,因为它有根号,因此它的计量单位和原来数据的单位是一致的,更便于我们进行分析。因此,它应用的范围是很广的。

标准分数

标准分数由平均数和标准差计算得来,主要用来衡量每个变量的相对位置,同时也能看出离群点数据。它也可以叫做z分数,用公式表示为:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

从公式中可以看出,z分数的计算方式是变量值与平均数的差,再除以标准差。

z分数有一个特点,就是平均数为0,标准差为1。它并没有改变数据的相对位置,只是缩放了数值的大小。

  • 经验法则

当数据是对称分布(正态分布)时,我们通常有一个经验法则:

大约有68%的数据在平均数±1个标准差的范围内;

大约有95%的数据在平均数±2个标准差的范围内;

大约有99%的数据在平均数±3个标准差的范围内。

我们把3个标准差之外的数据就叫做离群点,通过这个经验法则,我们可以很快的判断出离群点,便于数据处理。

  • 切比雪夫不等式

真实世界中的数据大部分都不是对称分布的,经验法则就失效了,此时就可以用切比雪夫不等式来判断,它适用于任何类型的数据分布。

切比雪夫不等式是说,对于任意分布的数据,至少有(1-1/k²)的数据落在±k个标准差之内,其中k是大于1的任意数(不一定是整数)。

那么,当k=2,3,4时,我们可以得到:

至少有75%的数据落在平均数±2个标准差的范围内;

至少有89%的数据落在平均数±3个标准差的范围内;

至少有94%的数据落在平均数±4个标准差的范围内。

离散系数

离散系数反映了数据离散的相对程度。

我们已经知道,方差和标准差其实反映的是数据离散的绝对程度。他们数值的大小跟原来各个变量值的大小有关,或者说,跟原来的平均数的大小有关。也就是说,原来变量值大的,最后得到的方差和标准差也就大。

另外,如果原来不同组数据变量的单位不同,那么最后得到的方差和标准差也就不同。

为了消除绝对值大小和计量单位对离散程度测量的影响,就引入了离散系数这个指标。它的计算公式如下:

衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)

可以看到,离散系数的计算方式很简单,就是用该组数据的标准差除以平均值,这样一来就可以消除上面说过的两种影响。

同时,从公式中也可以看出,离散系数大,数据的离散程度就大;离散系数小,离散程度就小。

以上介绍的极差、平均差、方差、标准差、离散系数,都适用于数值型的数据。


关于离散程度的7个度量指标就介绍到这里了,觉得有用的话就点赞转发分享吧,谢谢!

本文《衡量数据离散程度的指标有(常用的用于度量数据离散程度的统计指标)》由网赚联盟( wangzhuan.org.cn )整理或原创,感谢您的阅读。

随机文章

站长导航
搜素引擎算法
网站内容优化
GEO培训
SEO小小课堂网
SEO教程
站长导航
友情链接交换

百度搜索“网赚联盟”即可找到本站,微信搜索“小小课堂网”关注小小课堂网公众号。网赚联盟( wangzhuan.org.cn )欢迎用户投稿,发布者:杨大锤HY,文章版权归作者所有,投稿文章不代表网赚联盟立场,中二少年发布为网赚联盟原创文章,转载请注明出处:https://wangzhuan.org.cn/787977.html

发表评论

您的电子邮箱地址不会被公开。 必填项已用*标注