必要的背景知识 I

在开始之前,我想先解释几个基本用语,例如方差、标准差、正态分布、估计、准度、精度、均值、期望,和随机变量。

本教程的读者应该大部分已经对统计学比较熟悉。但在本教程的开始我承诺过会提供一些理解卡尔曼滤波器所需的背景知识。因此如果你对统计学已经比较熟悉,可以跳过这一章内容直接开始下一章

均值和期望

均值 Mean期望 Expectation 是密切相关但有所不同的概念。

举个例子,给你五枚硬币 - 两个5分硬币和三个10分硬币,我们可以轻松地计算出这些硬币面值的均值,即求它们面值的平均数。

Coins
\[ V_{mean}= \frac{1}{N} \sum _{n=1}^{N}V_{n}= \frac{1}{5} \left( 5+5+10+10+10 \right) = 8cents \]

因为本系统中的状态(硬币面值)直接写在了硬币上,并且就是真实值,不存在任何不确定性,因此我们可以使用全量样本(全部五个硬币)的真实值来计算平均值,此时的平均值并不是期望。

假设给同一个人的体重进行五次测量,得到五个不同的测量值:79.8kg,80kg,80.1kg,79.8kg和80.2kg。将这个人看作一个系统,他/她的体重就是该系统的状态。

Man on scales

五次测量值之所以各不相同是因为体重秤存在随机测量误差。其实想一想就能知道,我们无法得知体重的真值,因为它是一个所谓隐藏状态(译注:原文为Hidden State,意为客观存在但是无法直接读取的能观状态)。但是我们可以通过对体重秤的多次测量值求平均来对这个真值进行估计。

\[ W = \frac{1}{N} \sum _{n=1}^{N}W_{n}= \frac{1}{5} \left( 79.8+80+80.1+79.8+80.2 \right) = 79.98kg \]

上述估计值,就是体重的期望。

所谓期望,可以直观理解为对一个隐藏状态进行足够多次测量以后它所应表现出来的值(译注:这一段原文作者为了简单起见叙述并不是很好,简单理解为,我们无法知道随机变量的真值,只能进行测量,测量得到的样本含有随机性,服从某个分布,我们可以依照分布对样本求概率加权平均,当样本数趋于无穷大时的概率加权平均值的极限就是该随机变量真值的期望。即平均值与样本对应,期望与随机变量对应,样本是我们能看到的,真值我们看不到,二者之间的桥梁就是样本数趋于无穷大)。

均值通常使用希腊字母 μ 来表示。

字母 E 通常表示期望。

方差和标准差

方差 Variance是对数据样本在其均值附近散布情况进行的度量,标准差 Standard Deviation是方差的平方根。

标准差通常用希腊字母 \( \sigma \). 对应地,方差即为 \( \sigma^{2} \).

现在假设我们想比较两个高中篮球队的身高分布情况,下表给出了两支球队球员的身高,以及每支球队身高的均值。

球员 1 球员 2 球员 3 球员 4 球员 5 身高均值
球队 A 1.89m 2.1m 1.75m 1.98m 1.85m 1.914m
球队 B 1.94m 1.9m 1.97m 1.89m 1.87m 1.914m

可见,两支球队的身高均值是相同的。我们再来看它们的方差。

由于方差度量的是数据样本的散布情况,我们需要计算每个样本到均值的离散程度。这可以通过将均值从每个样本中减去来实现。

身高记为 \( x \),身高的均值记为 \( \mu \). 样本到均值的差即为:

\[ x_{n} - \mu = x_{n}-1.914m \]

下表列出每个球员身高到平均值的差异。

球员 1 球员 2 球员 3 球员 4 球员 5
球队 A -0.024m 0.186m -0.164m 0.066m -0.064m
球队 B 0.026m -0.014m 0.056m -0.024m -0.044m

有些值是负数,而数据散布的度量应是无符号的。可以对这些值求平方来消除负数(译注:求绝对值也能消除负数,但绝对值不可导,并且散布度量一般希望强调散布更远的样本,平方能够自加权):

\[ \left( x_{n}- \mu \right) ^{2} = \left( x_{n}- 1.914m \right) ^{2} \]

下表列出每个球员身高到平均值的差异平方。

球员 1 球员 2 球员 3 球员 4 球员 5
球队 A 0.000576m2 0.034596m2 0.026896m2 0.004356m2 0.004096m2
球队 B 0.000676m2 0.000196m2 0.003136m2 0.000576m2 0.001936m2

接下来对这些平方值再求平均来得到方差:

\[ \sigma ^{2}= \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2} \]

对球队A,身高方差为:

\[ \sigma _{A}^{2} = \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}= \frac{1}{5} \left( 0.000576+ 0.034596+ 0.026896+ 0.004356+ 0.004096 \right) = 0.014m^{2} \]

对球队B,身高方差为:

\[ \sigma _{B}^{2} = \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}= \frac{1}{5} \left( 0.000676+ 0.000196+ 0.003136+ 0.000576+ 0.001936 \right) = 0.0013m^{2} \]

可见,尽管两支球队的身高均值是相同的,球队A的身高散布要比球队B大。因此球队A的球员身高多样性要比球队B高。一支球队有多个不同的位置,例如控球后卫、得分后卫和中锋等,球队B身高分布过于集中,因而不便应对不同的位置带来的差异化要求。

本例中方差的量纲是米平方。通常用标准差更方便,因为标准差是方差的平方根,因此标准差的量纲和样本一致。

\[ \sigma =\sqrt[]{\frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}} \]

球队A球员身高的标准差是0.12m.

球队A球员身高的标准差是0.036m.

现在,再假设我们想求取全国所有高中篮球队队员身高的均值和方差。这是个海量工作量的任务 - 需要收集每一所高中的每一个球员的身高数据。

另一方面,我们也可以通过收集部分样本(一个量足够大的样本集),根据这个样本集对全国所有高中篮球队队员身高的均值和方差进行估计。

一个有100个随机选择出的球员的身高数据的样本集已经可以提供足够准确的估计了。

但是,从部分样本对真实方差进行估计的方程和从全量样本进行方差计算的方程略有不同。求和后的归一化系数是\( N-1 \) 而并非 \( N \):

\[ \sigma ^{2}= \frac{1}{N-1} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2} \]

这个 \( \frac{1}{N-1} \) 系数称为贝塞尔校正。

visiondummyWikipedia上能看到这个矫正的数学证明和推导。

正态分布

自然界许多现象都遵循 正态分布 Normal Distribution。正态分布又称为 高斯分布 Gaussian Distribution (纪念著名数学家卡尔·弗莱德利希·高斯),其表达式如下:

\[ f \left( x; \mu , \sigma ^{2} \right) = \frac{1}{\sqrt[]{2 \pi \sigma ^{2}}}e^{\frac{- \left( x- \mu \right) ^{2}}{2 \sigma ^{2}}} \]

其函数图像(高斯曲线)又被称为正态分布的 概率密度函数(PDF)

下表描述了三个不同城市A、B和C里披萨外卖送达时间的概率密度函数。

Gaussians
  • 在A城,平均送达时间为30分钟,标准差为5分钟。
  • 在B城,平均送达时间为40分钟,标准差为5分钟。
  • 在C城,平均送达时间为30分钟,标准差为10分钟。

可以看到A城和B城的高斯曲线的形状是一样的,但是其中心对称轴位置不同。这表明在A城点披萨比在B城要平均少等待10分钟,但两座城市里送达时间的散布是差不多的。

还可以看到A城和C城的高斯曲线中心对称轴位置相同,但是形状不同。因此尽管平均送达时间一样,但散布不同。

下表列出了正态分布的曲线围成面积的比例情况:

Standard Deviation
  • A城里68.26%的送达时间落在 \( \mu \pm \sigma \) 区间内(25-35分钟)
  • A城里95.44%的送达时间落在 \( \mu \pm 2\sigma \) 区间内(20-40分钟)
  • A城里99.74%的送达时间落在 \( \mu \pm 3\sigma \) 区间内(15-45分钟)

通常情况下,测量误差是正态分布的。卡尔曼滤波器假设测量误差具有正态分布。

随机变量

一个 随机变量 Random Variable 可以用来描述系统的隐藏状态。随机变量是一个集合,包含对应的随机试验所有可能的结果取值。

随机变量可以是连续的也可以是离散的:

  • 连续随机变量可以在一个给定范围内取任何值,例如电池充电时间或者马拉松比赛时间。
  • 离散随机变量是可数的,例如网站访问人数或者班里学生的数量。

随机变量使用概率密度函数描述,概率密度函数具有一个特性,称为 矩 Moment,矩是随机变量幂的期望。我们重点关注两种矩:

  • \( k \) 阶原点矩,是随机变量 \( k \) 次幂的期望:\( E\left( X^{k} \right) \).
  • \( k \) 阶中心距,是随机变量关于均值的散布的 \( k \) 次幂的期望:\( E\left( \left( X - \mu_{X} \right)^{k} \right) \).

本教程中,随机变量由下述两种矩进行描述:

  • 一阶原点矩 \( E\left( X \right) \) - 测量结果的均值。
  • 二阶中心矩 \( E\left( \left( X - \mu_{X} \right)^{2} \right) \) - 测量结果的方差。

估计,准度和精度

所谓 估计 Estimation 是对系统的隐藏状态的估计。例如某飞行器的真实位置对观测者而言是不可见的,我们可以用传感器,例如雷达,来估计飞行器的位置。通过使用多个传感器并且使用先进的估计和跟踪算法(例如卡尔曼滤波)能够大幅提升对飞行器位置估计的效果。每次这样的测量和计算都是一次估计。

准度 Accuracy 描述测量值与真值的接近情况。

精度 Precision 描述一系列测量值相对同一个真值的偏差分布情况。

准度和精度是衡量一个估计的最基础和重要的指标。下图展示了准度和精度的区别:

Accuracy and Precision

高精度系统的测量值具有很低的方差(即低不确定性),而低精度系统具有高方差(即高不确定性)。随机测量噪声造成了这些不确定性。

低准度系统又被称为 有偏 Biased 系统,源自它们的测量结果往往受系统性误差(偏差)的影响。

散布对测量的影响可以通过对测量结果求平均或进行平滑来降低。比如,用温度计测量的室内温度会包含随机测量噪声,我们可以测量多次然后取平均。因为误差是随机的,有些测量会比真值大,有些测量会比真值小,二者在求平均中抵消后平均结果会更接近真值。进行这样的测量越多,求得的估计值就越准确。

另一方面,一个有偏的温度计的测量结果经过上述估计后,仍然是有偏的。

本教程中所有的示例均假定测量系统是 无偏 Unbiased 的。

小结

下图从统计学角度展示了测量的过程。

Statistical view of the measurement

一次测量是对一个随机变量的取样,该随机变量由一个 概率密度函数 (PDF)来描述。

多次测量的平均值就是该随机变量的 期望

均值和真值之间的差是该测量系统的 偏差 或者 系统性误差,它构成了测量系统的 准度

测量值的散布程度是该测量系统的 测量噪声,又叫 随机测量误差测量不确定性,它构成了测量系统的 精度

上一章 下一章