Trước khi chúng ta bắt đầu, tôi muốn giải thích một số thuật ngữ cơ bản như phương sai (variance), độ lệch chuẩn (standard deviation), phân phối chuẩn (normal distribution), ước tính, độ chính xác, độ chuẩn xác, giá trị trung bình, giá trị kỳ vọng (expected value) và biến ngẫu nhiên (random variable).
Tôi đoán là nhiều người đọc phần hướng dẫn này đã quen thuộc với các số liệu thống kê cơ bản. Tuy nhiên, ở phần đầu của hướng dẫn này, tôi đã hứa sẽ cung cấp các nền tảng cơ bản cần thiết để hiểu cách thức hoạt động của Bộ lọc Kalman. Nếu bạn đã quen thuộc với chủ đề này, vui lòng bỏ qua và chuyển sang phần tiếp theo.
Giá trị trung bình và Giá trị kỳ vọng là những thuật ngữ có liên quan chặt chẽ với nhau. Tuy nhiên, có một sự khác biệt giữa chúng.
Ví dụ: với năm đồng xu khác nhau - hai đồng 5-cent và ba đồng 10-cent, chúng ta có thể dễ dàng tính giá trị trung bình bằng cách tính trung bình cộng của các giá trị của từng đồng xu.
Kết quả ở trên không thể được xác định là giá trị kỳ vọng vì các trạng thái của hệ thống (giá trị tiền xu) không bị ẩn và chúng ta đã sử dụng toàn bộ tập hợp (tất cả 5 đồng tiền) để tính giá trị trung bình.
Bây giờ giả sử năm số đo trọng lượng khác nhau của cùng một người: 79,8kg, 80kg, 80,1kg, 79,8kg và 80,2kg.
Các phép đo khác nhau do sai số đo ngẫu nhiên của các cân đo. Chúng ta không biết giá trị thực của trọng số, vì nó là một Biến ẩn. Tuy nhiên, chúng ta có thể ước tính trọng lượng bằng cách lấy trung bình của các cân nặng đo được.
Kết quả ước lượng là giá trị kỳ vọng của trọng số.
Giá trị kỳ vọng là giá trị mà trong một khoảng thời gian dài hoặc nhiều lần thử nghiệm, bạn đoán trước biến ẩn của mình sẽ có.
Giá trị trung bình thường được ký hiệu bằng chữ cái Hy Lạp μ.
Giá trị kỳ vọng thường được ký hiệu bằng chữ E.
Phương sai là thước đo mức độ trải rộng của tập dữ liệu so với giá trị trung bình của nó.
Độ lệch chuẩn là căn bậc hai của phương sai.
Độ lệch chuẩn được biểu thị bằng một chữ cái Hy Lạp \( \sigma \) (sigma). Do đó, phương sai được biểu thị bằng \( \sigma ^{2} \).
Giả sử chúng ta muốn so sánh chiều cao của hai đội bóng rổ trung học. Bảng sau đây cung cấp chiều cao của các cầu thủ và chiều cao trung bình của mỗi đội.
Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | Trung bình | |
---|---|---|---|---|---|---|
Đội A | 1,89m | 2,1m | 1,75m | 1,98m | 1,85m | 1,914m |
Đội B | 1,94m | 1,9m | 1,97m | 1,89m | 1,87m | 1,914m |
Như chúng ta thấy, chiều cao trung bình của cả hai đội là như nhau. Bây giờ chúng ta hãy kiểm tra phương sai của chiều cao.
Vì phương sai đo mức độ trải rộng của tập dữ liệu, chúng ta muốn biết độ lệch của tập dữ liệu so với giá trị trung bình của nó. Chúng ta có thể tính khoảng cách từ giá trị trung bình tới mỗi biến bằng cách trừ đi giá trị trung bình từ mỗi biến.
Chúng ta biểu thị chiều cao bằng \( x \) và trung bình chiều cao bằng chữ cái Hy Lạp \( \mu \). Khoảng cách từ giá trị trung bình tới từng biến sẽ là:
Bảng sau đây thể hiện khoảng cách từ giá trị trung bình tới từng biến.
Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | |
---|---|---|---|---|---|
Đội A | -0,024m | 0,186m | -0,164m | 0,066m | -0,064m |
Đội B | 0,026m | -0,014m | 0,056m | -0,024m | -0,044m |
Một số giá trị là âm. Để loại bỏ các giá trị âm, chúng ta tính bình phương khoảng cách từ giá trị trung bình:
Bảng sau đây thể hiện bình phương của khoảng cách từ giá trị trung bình tới mỗi biến.
Người chơi 1 | Người chơi 2 | Người chơi 3 | Người chơi 4 | Người chơi 5 | |
---|---|---|---|---|---|
Đội A | 0,000576m2 | 0,034596m2 | 0,026896m2 | 0,004356m2 | 0,004096m2 |
Đội B | 0,000676m2 | 0,000196m2 | 0,003136m2 | 0,000576m2 | 0,001936m2 |
Để tính toán phương sai của tập dữ liệu, chúng ta cần tìm giá trị trung bình của tất cả các giá trị bình phương của các khoảng cách từ giá trị trung bình:
Đối với đội A, phương sai sẽ là:
Đối với đội B, phương sai sẽ là:
Chúng ta có thể thấy rằng mặc dù trung bình của cả hai đội đều như nhau, nhưng độ trải rộng của chiều cao của đội A cao hơn số đo chiều cao của đội B. Điều này có nghĩa là các cầu thủ của đội A đa dạng hơn đội B, đội A có những người chơi cho các vị trí khác nhau như cầu thủ xử lý bóng, trung phong và hậu vệ; trong khi các cầu thủ đội B không đa dạng bằng.
Đơn vị tính phương sai là mét vuông; sẽ dễ hơn nếu chúng ta xét đến độ lệch chuẩn. Như tôi đã đề cập, độ lệch chuẩn là căn bậc hai của phương sai.
Độ lệch chuẩn của chiều cao của các cầu thủ Đội A sẽ là 0,12m.
Độ lệch chuẩn của chiều cao của các cầu thủ Đội B sẽ là 0,036m.
Giả sử rằng chúng ta muốn tính giá trị trung bình và phương sai của tất cả các cầu thủ bóng rổ các trường trung học. Đây sẽ là một nhiệm vụ rất khó - chúng ta cần thu thập dữ liệu về mọi cầu thủ từ mọi trường trung học.
Mặt khác, chúng ta có thể ước tính giá trị trung bình và phương sai của các cầu thủ bằng cách chọn một tập dữ liệu lớn và thực hiện các tính toán trên tập dữ liệu này.
Tập hợp dữ liệu của 100 cầu thủ được chọn ngẫu nhiên sẽ đủ để ước tính được chính xác.
Tuy nhiên, khi chúng ta ước tính phương sai, phương trình tính phương sai hơi khác một chút. Thay vì chuẩn hóa bởi hệ số \( N \), chúng ta sẽ chuẩn hóa bằng hệ số \( N-1 \):
Hệ số \( N-1 \) được gọi là hiệu chỉnh Bessel.
Bạn có thể xem chứng minh của phương trình trên tại visiondummy hoặc Wikipedia.
Hóa ra có nhiều hiện tượng tự nhiên tuân theo Phân phối chuẩn. Tiếp tục ví dụ về chiều cao của các cầu thủ bóng rổ, nếu chúng ta xây dựng một tập dữ liệu lớn gồm các cầu thủ được chọn ngẫu nhiên và xây một biểu đồ tần suất so sánh các chiều cao, chúng ta có một đường cong hình "chuông", như được hiển thị trên biểu đồ sau:
Như bạn có thể thấy, đường cong đối xứng xung quanh giá trị trung bình, là 1,9m. Tần số của các giá trị xung quanh giá trị trung bình cao hơn tần số của các giá trị ở xa trung bình.
Độ lệch chuẩn của các chiều cao bằng 0,2m. 68,26% tổng giá trị nằm trong khoảng của một độ lệch chuẩn so với giá trị trung bình. Như bạn có thể thấy tại biểu đồ bên dưới, 68,26% các giá trị nằm trong khoảng từ 1,7m đến 2,1m (vùng màu xanh lá cây là 68,26% tổng diện tích dưới đường cong).
95,44% tổng giá trị nằm trong hai độ lệch chuẩn so với giá trị trung bình.
99,74% tổng giá trị nằm trong ba độ lệch chuẩn so với giá trị trung bình.
Phân phối chuẩn, còn được biết đến là Gaussian (được đặt theo tên của nhà toán học Carl Friedrich Gauss), được mô tả bằng phương trình sau:
Đường cong Gaussian còn được gọi là Hàm mật độ xác suất (PDF) cho phân phối chuẩn.
Sai số thường được phân phối bình thường. Thiết kế của bộ lọc Kalman giả định các sai số đo được phân phối chuẩn.
Một nhà toán học, một nhà vật lý và một kỹ sư đang lái xe trong vùng 60mph (dặm một giờ). Họ bị chặn lại bởi một cảnh sát, người đã đo tốc độ ô tô bằng súng bắn tốc độ laze.
Tốc độ đo được trên súng là 70mph. Các tốc độ đo được của súng là phân phối chuẩn với độ lệch chuẩn là 5mph.
Tốc độ đo được trên súng là mộtBiến ngẫu nhiên. Chúng ta không biết được tốc độ chính xác là bao nhiêu; Giá trị kỳ vọng của tốc độ đã dùng là 70mph.
Nhà toán học sẽ nói rằng vận tốc của ô tô có thể là bất kỳ con số nào giữa âm vô cùng và dương vô cùng, nhưng xác suất của vận tốc trong khoảng từ 65mph và 75mph là 68,26%.
Nhà vật lý sẽ nói rằng vận tốc của ô tô có thể là một con số bất kỳ, lớn hơn số âm của tốc độ ánh sáng và nhỏ hơn số dương của tốc độ ánh sáng.
Kỹ sư sẽ nói rằng vận tốc của ô tô có thể là bất kỳ con số nào trên 0 và dưới 140 mph (vì hướng chuyển động của ô tô là dương và tốc độ tối đa của ô tô là 140mph).
Cảnh sát sẽ nói rằng tốc độ của ô tô là 70mph và sẽ viết một giấy phạt tốc độ.
Biến ngẫu nhiên có thể liên tục hoặc rời rạc:
Tất cả các phép đo đều là biến ngẫu nhiên liên tục.
Ước tính là đánh giá trạng thái ẩn của một hệ thống. Vị trí thực sự của máy bay được giấu khỏi người quan sát. Chúng ta có thể ước tính vị trí máy bay bằng cách sử dụng các cảm biến, chẳng hạn như radar. Ước tính có thể được cải thiện đáng kể bằng cách sử dụng nhiều cảm biến và áp dụng các thuật toán theo dõi và ước tính cao cấp (chẳng hạn như Bộ lọc Kalman). Mọi thông số đo hoặc tính toán được đều là ước tính.
Độ chính xác cho biết độ xác thực của phép đo với giá trị thực.
Độ chuẩn xác mô tả khả năng thay đổi trong một số phép đo sử dụng cùng một thông số. Độ chính xác và độ chuẩn xác tạo thành cơ sở để ước tính.
Hình sau minh họa độ chính xác và độ chuẩn xác.
Các hệ thống có độ chuẩn xác cao có phương sai thấp trong kết quả đo (tức là: độ không đảm bảo thấp), trong khi hệ thống có độ chuẩn xác thấp có phương sai cao trong phép đo của chúng (tức là độ không đảm bảo cao). Phương sai được tạo ra bởi sai số đo các biến ngẫu nhiên.
Hệ thống có độ chính xác thấp được gọi là hệ thống thiên vị (biased system), vì kết quả đo của nó có một bộ sai số được tích hợp sẵn (bias).
Ảnh hưởng của phương sai có thể được giảm đáng kể bằng cách lấy trung bình hoặc làm phẳng các kết quả đo. Ví dụ, nếu chúng ta đo nhiệt độ bằng nhiệt kế có sai số đo ngẫu nhiên, chúng ta đo nhiều lần và lấy giá trị trung bình của chúng. Vì sai số là ngẫu nhiên, một số kết quả đo sẽ cao hơn giá trị thực và một số kết quả đo khác sẽ thấp hơn giá trị thực. Giá trị ước tính sẽ gần với giá trị thực. Chúng ta đo càng nhiều thì ước tính sẽ càng gần với thực tế.
Mặt khác, nếu nhiệt kế có bias, giá trị ước tính sẽ bao gồm một sai số không đổi.
Tất cả các ví dụ trong hướng dẫn này đều giả định các hệ thống không thiên vị.
Hình sau thể hiện các giá trị thống kê của một phép đo.
Một phép đo là một Biến ngẫu nhiên, được mô tả bằng Hàm mật độ xác suất (PDF).
Giá trị trung bình của một phép đo là Giá trị kỳ vọng của một biến ngẫu nhiên.
Độ lệch giữa giá trị trung bình của phép đo và giá trị thực là Độ chính xác của một phép đo, còn được biết đến là độ lệch (bias) hoặc sai số đo của hệ thống.
Độ phân tán của phân bố là độ chuẩn xác của phép đo, còn được gọi làđộ nhiễu hoặc độ nhiễu ngẫu nhiên hoặc độ không đảm bảo của phép đo.