Trước khi chúng ta bắt đầu, tôi muốn giải thích một số thuật ngữ cơ bản như phương sai (variance), độ lệch chuẩn (standard deviation), phân phối chuẩn (normal distribution), ước tính, độ chính xác, độ chuẩn xác, giá trị trung bình, giá trị kỳ vọng (expected value) và biến ngẫu nhiên (random variable).
Tôi đoán là nhiều người đọc phần hướng dẫn này đã quen thuộc với các số liệu thống kê cơ bản. Tuy nhiên, ở phần đầu của hướng dẫn này, tôi đã hứa sẽ cung cấp các nền tảng cơ bản cần thiết để hiểu cách thức hoạt động của Bộ lọc Kalman. Nếu bạn đã quen thuộc với chủ đề này, vui lòng bỏ qua và chuyển sang phần tiếp theo.
Giá trị trung bình và Giá trị kỳ vọng là những thuật ngữ có liên quan chặt chẽ với nhau. Tuy nhiên, có một sự khác biệt giữa chúng.
Ví dụ: với năm đồng xu khác nhau - hai đồng 5-cent và ba đồng 10-cent, chúng ta có thể dễ dàng tính giá trị trung bình bằng cách tính trung bình cộng của các giá trị của từng đồng xu.
Kết quả ở trên không thể được xác định là giá trị kỳ vọng vì các trạng thái của hệ thống (giá trị tiền xu) không bị ẩn và chúng ta đã sử dụng toàn bộ tập hợp (tất cả 5 đồng tiền) để tính giá trị trung bình.
Bây giờ giả sử năm số đo trọng lượng khác nhau của cùng một người: 79,8kg, 80kg, 80,1kg, 79,8kg và 80,2kg.
Các phép đo khác nhau do sai số đo ngẫu nhiên của các cân đo. Chúng ta không biết giá trị thực của trọng số, vì nó là một Biến ẩn. Tuy nhiên, chúng ta có thể ước tính trọng lượng bằng cách lấy trung bình của các cân nặng đo được.
Kết quả ước lượng là giá trị kỳ vọng của trọng số.
Giá trị kỳ vọng là giá trị mà trong một khoảng thời gian dài hoặc nhiều lần thử nghiệm, bạn đoán trước biến ẩn của mình sẽ có.
Giá trị trung bình thường được ký hiệu bằng chữ cái Hy Lạp μ.
Giá trị kỳ vọng thường được ký hiệu bằng chữ E.
Phương sai là thước đo mức độ trải rộng của tập dữ liệu so với giá trị trung bình của nó.
Độ lệch chuẩn là căn bậc hai của phương sai.
Độ lệch chuẩn được biểu thị bằng một chữ cái Hy Lạp \( \sigma \) (sigma). Do đó, phương sai được biểu thị bằng \( \sigma ^{2} \).
Giả sử chúng ta muốn so sánh chiều cao của hai đội bóng rổ trung học. Bảng sau đây cung cấp chiều cao của các cầu thủ và chiều cao trung bình của mỗi đội.
| Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | Trung bình | |
|---|---|---|---|---|---|---|
| Đội A | 1,89m | 2,1m | 1,75m | 1,98m | 1,85m | 1,914m |
| Đội B | 1,94m | 1,9m | 1,97m | 1,89m | 1,87m | 1,914m |
Như chúng ta thấy, chiều cao trung bình của cả hai đội là như nhau. Bây giờ chúng ta hãy kiểm tra phương sai của chiều cao.
Vì phương sai đo mức độ trải rộng của tập dữ liệu, chúng ta muốn biết độ lệch của tập dữ liệu so với giá trị trung bình của nó. Chúng ta có thể tính khoảng cách từ giá trị trung bình tới mỗi biến bằng cách trừ đi giá trị trung bình từ mỗi biến.
Chúng ta biểu thị chiều cao bằng \( x \) và trung bình chiều cao bằng chữ cái Hy Lạp \( \mu \). Khoảng cách từ giá trị trung bình tới từng biến sẽ là:
Bảng sau đây thể hiện khoảng cách từ giá trị trung bình tới từng biến.
| Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | |
|---|---|---|---|---|---|
| Đội A | -0,024m | 0,186m | -0,164m | 0,066m | -0,064m |
| Đội B | 0,026m | -0,014m | 0,056m | -0,024m | -0,044m |
Một số giá trị là âm. Để loại bỏ các giá trị âm, chúng ta tính bình phương khoảng cách từ giá trị trung bình:
Bảng sau đây thể hiện bình phương của khoảng cách từ giá trị trung bình tới mỗi biến.
| Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | |
|---|---|---|---|---|---|
| Đội A | 0,000576m2 | 0,034596m2 | 0,026896m2 | 0,004356m2 | 0,004096m2 |
| Đội B | 0,000676m2 | 0,000196m2 | 0,003136m2 | 0,000576m2 | 0,001936m2 |
Để tính toán phương sai của tập dữ liệu, chúng ta cần tìm giá trị trung bình của tất cả các giá trị bình phương của các khoảng cách từ giá trị trung bình:
Đối với đội A, phương sai sẽ là:
Đối với đội B, phương sai sẽ là:
Chúng ta có thể thấy rằng mặc dù trung bình của cả hai đội đều như nhau, nhưng độ trải rộng của chiều cao của đội A cao hơn số đo chiều cao của đội B. Điều này có nghĩa là các cầu thủ của đội A đa dạng hơn đội B, đội A có những người chơi cho các vị trí khác nhau như cầu thủ xử lý bóng, trung phong và hậu vệ; trong khi các cầu thủ đội B không đa dạng bằng.
Đơn vị tính phương sai là mét vuông; sẽ dễ hơn nếu chúng ta xét đến độ lệch chuẩn. Như tôi đã đề cập, độ lệch chuẩn là căn bậc hai của phương sai.
Độ lệch chuẩn của chiều cao của các cầu thủ Đội A sẽ là 0,12m.
Độ lệch chuẩn của chiều cao của các cầu thủ Đội B sẽ là 0,036m.
Giả sử rằng chúng ta muốn tính giá trị trung bình và phương sai của tất cả các cầu thủ bóng rổ các trường trung học. Đây sẽ là một nhiệm vụ rất khó - chúng ta cần thu thập dữ liệu về mọi cầu thủ từ mọi trường trung học.
Mặt khác, chúng ta có thể ước tính giá trị trung bình và phương sai của các cầu thủ bằng cách chọn một tập dữ liệu lớn và thực hiện các tính toán trên tập dữ liệu này.
Tập hợp dữ liệu của 100 cầu thủ được chọn ngẫu nhiên sẽ đủ để ước tính được chính xác.
Tuy nhiên, khi chúng ta ước tính phương sai, phương trình tính phương sai hơi khác một chút. Thay vì chuẩn hóa bởi hệ số \( N \), chúng ta sẽ chuẩn hóa bằng hệ số \( N-1 \):
Hệ số \( N-1 \) được gọi là hiệu chỉnh Bessel.
Bạn có thể xem chứng minh của phương trình trên tại visiondummy hoặc Wikipedia.
Hóa ra nhiều hiện tượng tự nhiên tuân theo Phân phối Chuẩn. Phân phối chuẩn, còn được gọi là Phân phối Gaussian (được đặt theo tên nhà toán học Carl Friedrich Gauss), được mô tả bởi phương trình sau:
Đường cong Gaussian cũng được gọi là Hàm Mật độ Xác suất (PDF) của phân phối chuẩn.
Biểu đồ dưới đây mô tả PDF của thời gian giao pizza ở ba thành phố: thành phố “A”, “B” và “C”.
Chúng ta có thể thấy rằng dạng Gaussian của thành phố “A” và “B” giống hệt nhau; tuy nhiên, trung tâm của chúng khác nhau. Điều này có nghĩa là ở thành phố “A”, bạn sẽ chờ pizza ít hơn trung bình 10 phút, trong khi mức độ phân tán thời gian giao hàng vẫn giống nhau.
Ta cũng thấy rằng trung tâm của các đường Gaussian tại thành phố “A” và “C” là giống nhau; tuy nhiên, hình dạng của chúng khác nhau. Do đó, thời gian giao hàng trung bình ở cả hai thành phố là như nhau, nhưng độ phân tán thì khác nhau.
Biểu đồ sau mô tả tỷ lệ phần trăm của phân phối chuẩn.
Thông thường, sai số đo lường tuân theo phân phối chuẩn. Thiết kế Bộ lọc Kalman giả định rằng sai số đo lường có phân phối chuẩn.
Biến ngẫu nhiên mô tả trạng thái ẩn của hệ thống. Biến ngẫu nhiên là tập hợp các giá trị có thể xảy ra từ một thí nghiệm ngẫu nhiên.
Biến ngẫu nhiên có thể liên tục hoặc rời rạc:
Biến ngẫu nhiên được mô tả bởi hàm mật độ xác suất. Trong tài liệu này, hàm mật độ xác suất được đặc trưng bởi:
Ước lượng là quá trình đánh giá trạng thái ẩn của hệ thống. Ví dụ, vị trí thật của máy bay bị ẩn đối với người quan sát. Chúng ta có thể ước lượng vị trí máy bay bằng các cảm biến như radar. Ước lượng có thể được cải thiện đáng kể bằng cách sử dụng nhiều cảm biến và áp dụng các thuật toán theo dõi và ước lượng nâng cao (như Bộ lọc Kalman). Mỗi tham số được đo hoặc tính toán đều là một ước lượng.
Độ chính xác cho biết phép đo gần với giá trị thật đến mức nào.
Độ chính xác lặp lại (precision) mô tả mức độ biến thiên của các phép đo lặp lại. Độ chính xác và độ chính xác lặp lại tạo nên nền tảng của ước lượng.
Hình dưới đây minh họa độ chính xác và độ chính xác lặp lại.
Hệ thống có độ chính xác lặp lại cao sẽ có phương sai đo thấp (tức là độ không chắc chắn thấp), trong khi hệ thống có độ chính xác lặp lại thấp sẽ có phương sai cao. Sai số đo ngẫu nhiên gây ra phương sai này.
Hệ thống có độ chính xác thấp được gọi là hệ thống thiên lệch vì phép đo của chúng chứa lỗi hệ thống cố định (bias).
Ảnh hưởng của phương sai có thể được giảm đáng kể bằng cách lấy trung bình hoặc làm mượt các phép đo. Ví dụ, nếu chúng ta đo nhiệt độ bằng nhiệt kế có sai số ngẫu nhiên, chúng ta có thể đo nhiều lần và lấy trung bình. Vì sai số ngẫu nhiên, một số phép đo sẽ cao hơn giá trị thật và một số thấp hơn. Giá trị trung bình sẽ gần giá trị thật. Số lượng phép đo càng nhiều, ước lượng càng gần giá trị thật.
Ngược lại, một nhiệt kế bị thiên lệch sẽ tạo ra sai số hệ thống cố định trong ước lượng.
Tất cả các ví dụ trong hướng dẫn này giả định hệ thống không thiên lệch.
Hình dưới đây trình bày cái nhìn thống kê về phép đo.
Một phép đo là một biến ngẫu nhiên, được mô tả bởi Hàm mật độ xác suất (PDF).
Giá trị trung bình của các phép đo là Giá trị Kỳ vọng của biến ngẫu nhiên.
Hiệu giữa giá trị trung bình của phép đo và giá trị thật là độ chính xác của phép đo, còn được gọi là độ lệch (bias) hoặc lỗi đo hệ thống.
Độ phân tán của phân phối là độ chính xác lặp lại hay còn gọi là nhiễu đo, sai số đo ngẫu nhiên, hoặc độ không chắc chắn của phép đo.