统计学相关:集中趋势与离散程度

0 阅读

 

1. 数据的集中趋势

先给一个公式。

$$ \overline{x}=\dfrac{1}{n}\left(x_1+x_2+\cdots+x_n\right) $$

小学就知道的,对吧。

其中 表示n个数据,则$\overline{x}$表示其平均数,即上方的公式。

而对于一组数据,我们常用平均数,作为这组数据的代表,反应它的平均状况。也就是用平均数来作为刻画它的集中趋势的一种方法。

但是我们知道,平均数易受极值影响,也不能反应个体性质。所以,我们又引入了两个概念:中位数与众数。

中位数,即

一般地,当将一组数据按照大小顺序排列后,位于正中间的一个数据(此时 $n$为奇数)或正中间两个数据的平均数(此时 $n$为偶数)叫做这组数据的中位数。

众数,即

一组数据中出现次数最多的数据。

这两个统计学量只与所有数据中的一部分数据相关,所以不易受极值影响,但无法充分利用所有数据。

一般地,我们根据实际情况来运用三个量表示一组数据的特征,三个量没有谁好谁坏(但众数由于其定义,其不是一定的,可能没有,也可能大于1个。)

通常,数据中存在重要与不太重要的数据,这时,我们引入一个量,权。

下面给出公式。

$$ \overline{x}=\dfrac{x_1f_1+x_2f_2+\cdots+x_kf_k}{f_1+f_2+\cdots+f_k}, $$

$\text{where}$

$$ f_1+f_2+\cdots+f_k=n,k \leq n $$

其中的分别表示的权,权可以是各个数据出现的次数,或各个数据在总结果中的比重。此时$\overline{x}$为这组数据的加权平均数。

2. 数据的离散程度

比较两组数据时,我们可能会发现,两组数据的平均数相同,但是有一些波动性大,有一些小。这时,我们比较它们的离散程度。

一般地,运用方差来刻画一组数据的离散程度。

设一组数据为 ,它们的平均数为$\overline{x}$,则其方差为

$$ s^2=\dfrac{1}{n} \left(\left(x_1-\overline{x}\right)^2+\left(x_2-\overline{x}\right)^2+\cdots+\left(x_n-\overline{x}\right)^2\right)$$

有必要注意的是,统计学中带一个平方的量不一定是正的,当然此处显然是正的。

一组数据的方差越大,那么这组数据的离散程度也就越大。

一般地,两组数据平均数相同时,方差越大,这组数据对平均数的离散程度越大。

也就是说,平均数相差较大或单位不同的数据不能直接用方差比较。


为比较A、B两个新品种水稻的产品质量,收割后各抽取了五块具有相同条件的实验田地,分别称得它们的质量,得其每公顷产量如下表(单位:t):

田地编号 1 2 3 4 5
品种A 12.6 12 12.3 11.7 12.9
品种B 12.3 12.3 12.3 11.4 13.2

(1)哪个品种的平均产量更高?

(2)哪个品种的产量更稳定?

 

点击显示答案。(1)$$\overline{x}_{\text{A}}=\overline{x}_{\text{B}}=12.3\,\text{t}$$ (2)$$s^2_{\text{A}}=0.18,s^2_{\text{B}}=0.324,s^2_{\text{A}} < s^2_{\text{B}}$$

Lake桑

2018.6.15