背景

まずは、分散、標準偏差、正規分布、推定値、正確度、精度、平均値、期待値、確率変数など、いくつかの基本的な用語について説明したいと思います。

このチュートリアルの読者の多くは、基本的な統計学に精通しているかと思います。しかし、このチュートリアルの冒頭では、カルマンフィルターがどのように機能するかを理解するために必要な数学的背景について説明します。もし、あなたがこのトピックに慣れているのであれば、遠慮なく読み飛ばして次のセクションに進んでください。

平均値と期待値

平均値と期待値は密接に関連する用語ですが、違いがあります。

例えば、5つの硬貨（2つの5セント硬貨と3つの10セント硬貨）が与えられたとき、私たちは硬貨の値の平均を考えることで、平均値を簡単に計算できます。

\[ V_{mean}= \frac{1}{N} \sum _{n=1}^{N}V_{n}= \frac{1}{5} \left( 5+5+10+10+10 \right) = 8cent \]

しかしながら、上記の値を期待値として定義することはできません。なぜなら、システムの状態量（ここでは硬貨の値）は未知ではなく、平均値の計算に母集団全体（5つの硬貨すべて）を使っているからです。

Get the book

では、同じ人が体重測定を5回行ったときの体重測定値（79.8 kg, 80 kg, 80.1 kg, 79.8 kg, 80.2kg）を考えましょう。

これらの測定値は、体重計のランダムな測定誤差によって様々な値を取ります。体重は未知の値であるため、私たちは真の体重を知りません。しかし、それらの測定値を平均化することで体重を推定することはできます。

\[ W= \frac{1}{N} \sum _{n=1}^{N}W_{n}= \frac{1}{5} \left( 79.8+80+80.1+79.8+80.2 \right) =79.98kg \]

ここで得られた推定値は、彼の体重の期待値です。

平均値は通常、ギリシャ文字 μ で表されます。

期待値は通常、 E で表されます。

分散と標準偏差

分散は、データセットの平均値からの広がりを示す尺度です。

標準偏差は、分散の平方根です。

標準偏差はギリシャ文字 \( \sigma \) (シグマ)で表されます。したがって、分散は \( \sigma ^{2} \) で表されます。

例えば、2つの高校のバスケットボールチームの身長を比較したいとします。次の表は、各チームの選手の身長と平均値を示しています。

	Player 1	Player 2	Player 3	Player 4	Player 5	平均値
Team A	1.89m	2.1m	1.75m	1.98m	1.85m	1.914m
Team B	1.94m	1.9m	1.97m	1.89m	1.87m	1.914m

見てわかるように、両チームの平均身長は同じです。では、身長の分散を調べてみましょう。

分散はデータセットの広がりを測るものなので、データセットの平均からの偏差を考えたいと思います。各変数から平均値を引くことで、各変数の平均値からの偏差を計算することができます。

ここで、身長を \( x \) 、身長の平均値をギリシャ文字 \( \mu \) で示します。各変数の平均値からの偏差は次のようになります。

\[ x_{n}- \mu = x_{n}-1.914m \]

次の表は、各変数の平均値からの偏差を示したものです。

	Player 1	Player 2	Player 3	Player 4	Player 5
Team A	-0.024m	0.186m	-0.164m	0.066m	-0.064m
Team B	0.026m	-0.014m	0.056m	-0.024m	-0.044m

いくつかの値は負になっています。負の値を取り除くために、平均値からの偏差の2乗を考えましょう。

\[ \left( x_{n}- \mu \right) ^{2} = \left( x_{n}- 1.914m \right) ^{2} \]

次の表は、各変数の平均値からの偏差の2乗を示したものです。

	Player 1	Player 2	Player 3	Player 4	Player 5
Team A	0.000576m²	0.034596m²	0.026896m²	0.004356m²	0.004096m²
Team B	0.000676m²	0.000196m²	0.003136m²	0.000576m²	0.001936m²

データセットの分散を計算するためには、平均値からの偏差の2乗の平均を求めます。

\[ \sigma ^{2}= \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2} \]

チームAの場合、分散は次のようになります。

\[ \sigma _{A}^{2} = \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}= \frac{1}{5} \left( 0.000576+ 0.034596+ 0.026896+ 0.004356+ 0.004096 \right) = 0.014m^{2} \]

チームBの場合、分散は次のようになります。

\[ \sigma _{B}^{2} = \frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}= \frac{1}{5} \left( 0.000676+ 0.000196+ 0.003136+ 0.000576+ 0.001936 \right) = 0.0013m^{2} \]

両方のチームの平均身長は同じでしたが、チームAの身長の散らばりは、チームBにくらべて大きいことがわかります。これは、チームAの選手はボールハンドラー、センター、ガードなど様々なポジションのプレーヤーがいる一方、チームBの選手は多様性がないことを意味しています。

分散の単位はメートルの2乗であるため、標準偏差を使用する方が便利です。先ほど述べたように、標準偏差は分散の平方根です。

\[ \sigma =\sqrt[]{\frac{1}{N} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2}} \]

チームAの選手の身長の標準偏差は、0.12 mです。

チームBの選手の身長の標準偏差は、0.036 mです。

今、全国の高校のバスケットボール選手における、身長の平均値と分散を計算したいとします。これはとても大変なことです。なぜなら、全ての高校の全ての選手に関するデータを集める必要があるからです。

一方で、大きな標本を用意し、その標本を用いて計算することで、私たちは選手の身長の平均値と分散を推定することができます。

正確な推定をするためには、選手をランダムに100人選んで、それ標本とすれば十分です。

しかしながら、標本を用いて母集団の分散を推定する場合、分散の計算式は少し変化します。\( N \) で除算する代わりに、\( N-1 \)で除算します。

\[ \sigma ^{2}= \frac{1}{N-1} \sum _{n=1}^{N} \left( x_{n}- \mu \right) ^{2} \]

この \( N-1 \) の要素をベッセルの補正（Bessel's correction）と呼びます。

上式の数学的な証明は、visiondummy や Wikipedia を参照してください。

正規分布

多くの自然現象は正規分布に従います。バスケットボール選手の身長の例を元に、ランダムに選ばれた選手のデータセットを作成し、身長とその人数をプロットすると、次のグラフに示すように、"ベル"型の曲線が得られます。

ご覧のように、平均値である1.9 mを中心に左右対称の曲線になっています。平均値付近の身長の人数は、平均値から離れた身長の人数よりも多いことがわかります。

身長の標準偏差は0.2 mです。68.26%の人が平均値から1シグマ（1標準偏差）の範囲内に入っています。下のグラフからわかるように、68.26%の人は身長が1.7 mと2.1 mの間にあります（緑の部分は曲線下の総面積の68.26%です）。

95.44% の人は、平均から2シグマの範囲内にいます。
99.74% の人は、平均から3シグマの範囲内にいます。

ガウス分布（数学者カール・フリードリヒ・ガウスにちなんで名付けられた）としても知られるこの正規分布は、次の式で表されます。

\[ f \left( x; \mu , \sigma ^{2} \right) = \frac{1}{\sqrt[]{2 \pi \sigma ^{2}}}e^{\frac{- \left( x- \mu \right) ^{2}}{2 \sigma ^{2}}} \]

ガウス曲線は、正規分布の確率密度関数 (PDF) とも呼ばれます。

通常、測定誤差は正規分布に従います。カルマンフィルターの設計は、測定誤差が正規分布に従うものと仮定しています。

確率変数

数学者と物理学者、エンジニアの3人は、法定速度が60 mph（マイル/時）の道路を運転しています。彼らは、警察官が持つレーザースピードガンによって車の速度を測定され、停車させられます。

スピードガンの測定値は70 mphです。スピードガンの測定値は、標準偏差が5 mphの正規分布に従います。

スピードガンの測定値は確率変数です。真の速度はわかりませんが、速度の期待値は70 mphです。

数学者は、「車の速度は負の無限大と正の無限大の間のどの値にもなり得るけれど、65 mphと75 mphの間にある確率は68.26%だ」と言うでしょう。

物理学者は、「車の速度は負の光速より大きく、正の光速より小さい任意の値だ」と言うでしょう。

エンジニアは、「車の速度は0以上、140 mph以下の値だ（車の進行方向は正で、最高速度が140 mphであるため）」と言うでしょう。

警察官は「車の速度は70 mphだった」と言って、スピード違反の切符を切るでしょう。

確率変数は、連続値や離散値にすることができます。

バッテリーの充電時間やマラソンレース時間は、連続確率変数です。
Webサイトの訪問者数やクラス内の学生数はカウントできるため、離散確率変数です。

すべての測定値は連続確率変数です。

推定・正確度・精度

推定（Estimate）とは、システムの未知の状態を評価することです。観測者は、航空機の真の位置を知ることはできません。しかし、レーダーなどのセンサーを使用することで、航空機の位置を推定することはできます。複数のセンサーを使用し、高度な推定および追跡アルゴリズム（カルマンフィルターなど）を適用することで、推定値を大幅に向上させることができます。測定または計算されたパラメータはすべて推定値です。

正確度（Accuracy）は、測定値が真の値にどれくらい近いかを示します。

精度（Precision）は、同じパラメータの複数回の測定値に、どの程度のばらつきがあるかを示します。正確度と精度に基づいて推定が行われます。

次の図は、正確度と精度を表しています。

高精度なシステムは測定値のばらつきが小さく（＝不確かさが小さく）、低精度なシステムは測定値のばらつきが大きく（＝不確かさが大きく）なります。この分散は、ランダムな測定誤差によって生じます。

正確度の低いシステムは、測定値に系統誤差（バイアス）が存在するため、バイアスシステム（biased system）と呼ばれています。

このような分散の影響は、測定値を平均化または平滑化することで大幅に軽減することができます。例えば、ランダムな測定誤差を持つ温度計で温度を測定する場合、複数の測定を行い、それらを平均化することができます。誤差はランダムなので、測定値の一部は真の値より高く、一部は真の値より低くなるはずです。得られた推定値は真の値に近くなります。測定回数が多ければ多いほど、推定値はより真値に近づいていきます。

一方で、もし温度計にバイアスが存在する場合、推定値は一定の系統誤差を含むでしょう。

このチュートリアルでの全ての例題は、バイアスを含まないシステムを仮定しています。

まとめ

次の図は、測定値の統計を表しています。

測定値は確率変数であり、確率密度関数 (PDF) で表現されます。

測定値の平均は、確率変数の期待値です。

測定値の平均と真値との差が測定の正確度であり、バイアスや系統的測定誤差として知られています。

分布の分散は測定精度であり、測定ノイズやランダム測定誤差、測定の不確かさとして知られています。

Get the book