标准差和方差的定义

标准差(Standard Deviation)和方差(Variance)是统计学中用来衡量一组数据离散程度的重要指标。方差是各个数据与其算术平均数的离差平方和的平均数,而标准差是方差的算术平方根。

标准差和方差的计算公式

  1. 总体标准差和方差

    • 总体方差(Population Variance)的计算公式为:
      $\sigma^2 = \frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2$
      其中,$\sigma^2$ 是总体方差,$N$ 是数据的总数,$x_i$ 是第 $i$ 个数据点,$\mu$ 是数据的平均值。
    • 总体标准差(Population Standard Deviation)的计算公式为:
      $\sigma = \sqrt{\frac{1}{N} \sum_{i=1}^{N} (x_i - \mu)^2}$
      其中,$\sigma$ 是总体标准差。
  2. 样本标准差和方差

    • 样本方差(Sample Variance)的计算公式为:
      $s^2 = \frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2$
      其中,$s^2$ 是样本方差,$n$ 是样本数据的总数,$x_i$ 是第 $i$ 个样本数据点,$\bar{x}$ 是样本数据的平均值。
    • 样本标准差(Sample Standard Deviation)的计算公式为:
      $s = \sqrt{\frac{1}{n-1} \sum_{i=1}^{n} (x_i - \bar{x})^2}$
      其中,$s$ 是样本标准差。

计算步骤

  1. 计算平均值

    • 首先,计算数据集的平均值。对于总体数据,平均值为 $\mu$ ;对于样本数据,平均值为 $\bar{x}$ 。
  2. 计算离差平方和

    • 对于每个数据点,计算其与平均值的差,并将差平方。
  3. 计算方差

    • 将所有离差平方和相加,并除以数据点的总数(对于总体方差)或总数减1(对于样本方差)。
  4. 计算标准差

    • 对方差取算术平方根,得到标准差。

示例

假设有一组数据:$3, 5, 7, 9, 11$ 。

  1. 计算平均值
    $\bar{x} = \frac{3+5+7+9+11}{5} = 7$
  2. 计算离差平方和
    $(3-7)^2 + (5-7)^2 + (7-7)^2 + (9-7)^2 + (11-7)^2 = 16 + 4 + 0 + 4 + 16 = 40$
  3. 计算方差
    $s^2 = \frac{40}{5-1} = 10$
  4. 计算标准差
    $s = \sqrt{10} \approx 3.16$

注意事项

  • 在计算样本方差和标准差时,使用 $n-1$ 作为除数,这是因为样本数据的自由度为 $n-1$ ,使用 $n-1$ 可以得到总体方差的无偏估计量。
  • 标准差和方差的计算可以使用统计软件或计算器来完成,以减少计算错误的可能性。
import numpy as np

mydata = [200, 165, 184.5, 116, 270]
print(np.std(mydata))
print(np.var(mydata))

总体标准差和样本标准差有什么区别?

总体标准差和样本标准差是统计学中用于衡量数据离散程度的两个重要指标,它们在计算方法和应用场景上有所不同。

计算方法

  • 总体标准差

    • 当我们能够获取总体中的所有数据时,总体标准差的计算公式为:
      $\sigma = \sqrt{\frac{\sum_{i=1}^{N}(x_i - \mu)^2}{N}}$
      其中,$\sigma$ 是总体标准差,$x_i$ 是总体中的每个数据点,$\mu$ 是总体的均值,$N$ 是总体的数据个数。
  • 样本标准差

    • 在实际应用中,我们往往只能获取总体的一个样本,样本标准差的计算公式为:
      $s = \sqrt{\frac{\sum_{i=1}^{n}(x_i - \bar{x})^2}{n-1}}$
      其中,$s$ 是样本标准差,$x_i$ 是样本中的每个数据点,$\bar{x}$ 是样本的均值,$n$ 是样本的数据个数。

应用场景

  • 总体标准差

    • 适用于总体数据已知的情况,例如在对一个班级的所有学生成绩进行分析时,如果能够获取到所有学生的成绩,就可以计算总体标准差来衡量成绩的离散程度。
  • 样本标准差

    • 适用于总体数据未知,需要通过抽样来估计总体情况的场景。例如,要了解一个大型城市居民的收入水平,由于无法获取所有居民的收入数据,只能抽取一部分居民作为样本,计算样本标准差来估计总体居民收入的离散程度。

区别总结

  • 计算方法

    • 总体标准差在计算时使用总体均值和总体数据个数 $N$ 作为分母。
    • 样本标准差在计算时使用样本均值和样本数据个数减1(即 $n-1$ )作为分母。
  • 应用场景

    • 总体标准差用于描述总体数据的离散程度。
    • 样本标准差用于通过样本数据来估计总体数据的离散程度。

在实际应用中,样本标准差更为常用,因为在大多数情况下,我们无法获取总体的全部数据,只能通过抽样来进行统计分析。

为什么在计算样本标准差的时候,样本数据个数要减1?

在计算样本标准差时,样本数据个数减1(即使用n-1作为分母)的原因与统计学中的自由度概念和无偏估计的需求有关。

自由度的概念

自由度指的是在统计计算中,能够自由变化的数据点数量。在计算样本均值时,我们利用了样本中的所有数据点来得出样本均值,这意味着样本中的一个数据点被“用掉”了一个自由度。例如,假设我们有一个样本集{x1, x2, x3},其样本均值为x̄。如果已知x1、x2和x̄的值,那么x3的值可以由样本均值和其他两个数据点确定,具体公式为:x3 = 3x̄ - x1 - x2。这表明,当我们计算样本均值时,样本中只有两个数据点(x1和x2)是自由变化的,而第三个数据点x3被样本均值所“限制”,即它的值不再是独立的。在样本方差计算中的影响由于样本均值用掉了一个自由度,所以在计算样本方差时,实际的自由度是n-1,而不是n。这意味着在样本方差的计算中,只有n-1个独立的数据点可以用来估计总体方差。

无偏估计的需求

在计算样本方差时,我们用的是样本均值,而不是总体均值。由于样本均值是根据样本数据计算得出的,它更贴近样本数据。因此,计算出来的离差平方和通常小于用总体均值计算的离差平方和。这会导致对总体方差的低估。为了校正这种低估,我们需要将分母从n调整为n-1。这种校正被称为贝塞尔校正(Bessel's Correction),目的是使样本方差成为总体方差的无偏估计。

通过使用n-1作为分母,我们可以更好地估计总体标准差,从而提高统计分析的准确性。这样做的原因在于,当我们使用样本数据来估计总体参数时,我们需要考虑到样本数据的离散程度和波动情况,而使用n-1可以更好地反映样本数据的特征,从而更准确地估计总体标准差。

标签: numpy, 数据分析

添加新评论