Skip to main content

Một số thứ liên quan đến bài thi cuối kỳ

Bảng tần số và các tham số thống kê

Bảng tần số, tần suất

  • Bảng tần số cho biết các giá trị xuất hiện (xi)(x_i) và số lần chúng xuất hiện trong mẫu dữ liệu (mi)(m_i).
Giá trịx1x_1x2x_2\dotsxkx_k
Tần sốm1m_1m2m_2\dotsmkm_k
  • Tần suất là tỉ số của tần số và cỡ mẫu (fi=min)\left( f_i = \dfrac{m_i}{n} \right).

    • Bảng tần số đi kèm thêm tần suất và tần suất tích luỹ (tổng tần suất ở từng mốc giá trị) được gọi là Bảng phân bố thực nghiệm.
    • Bảng tần số thường được dùng cho dữ liệu định tính, dữ liệu định lượng rời rạc, các trường hợp thường thấy có ít giá trị khác nhau.
  • Một số ví dụ: Đếm số lần xuất hiện của các mặt xúc xắc, số sinh viên theo mức học lực, số gia đình theo số con trong gia đình,...

  • Đối với các dữ liệu định lượng liên tục, thường xảy ra trường hợp có quá nhiều giá trị khác nhau trong mẫu, khi đó ta đếm số lần giá trị xuất hiện trong một khoảng, gọi là lớp ghép. Khi đó bảng tần số được gọi là Bảng tần số ghép lớp.

    • Một số trường hợp ta dùng bảng ghép lớp như: Dữ liệu điểm số như trên, chiều cao, cân nặng, lượng mưa, số lượng xe qua ngã tư,...
ĐiểmTần sốTần suấtTích lũy
(40,50](40, 50]220.020.020.020.02
(50,60](50, 60]990.090.090.110.11
(60,70](60, 70]37370.370.370.480.48
(70,80](70, 80]37370.370.370.850.85
(80,90](80, 90]13130.130.130.980.98
(90,100](90, 100]220.020.021.001.00
  • Bảng phân bố thực nghiệm (tổng quát):
Giá trịx1x_1x2x_2\dotsxkx_k
Tần sốm1m_1m2m_2\dotsmkm_k
Tích lũy (i=1kmi)\left( \displaystyle \sum_{i = 1}^k m_i \right)m1m_1m1+m2m_1 + m_2\dotsm1+m2++mkm_1 + m_2 + \dots + m_k

Tham số đo sự tập trung

  • Trung bình mẫu (kí hiệu x\overline{x}) là trung bình cộng giá trị của các giá trị ta quan sát được.
  • Đối với bảng tần số như trên ta có:
x=1ni=1kmixi\overline{x} = \dfrac{1}{n} \sum_{i = 1}^k m_i \cdot x_i

Trong đó nn là tổng số dữ liệu và n=i=1kmin = \displaystyle \sum_{i = 1}^k m_i.

  • Nếu ta có sẵn một bảng tần số ghép lớp thì ta sẽ lấy trung điểm của các khoảng để làm giá trị đại diện cho khoảng đó, sau đó tính trung bình như đối với bảng tần số.

  • Ví dụ:

    • Dữ liệu 1: 0,0,1,1,1,3,4,4,310, 0, 1, 1, 1, 3, 4, 4, 31. Trung bình mẫu:
    x=0+0+1+1+1+3+4+4+319=5\overline{x} = \dfrac{0 + 0 + 1 + 1 + 1 + 3 + 4 + 4 + 31}{9} = 5
    • Dữ liệu 2 và trung bình mẫu:
    Giá trị3636373738383939
    Tần số1717323237371414
    x=1736+3237+3738+143917+32+37+14=37.48\overline{x} = \dfrac{17 \cdot 36 + 32 \cdot 37 + 37 \cdot 38 + 14 \cdot 39}{17 + 32 + 37 + 14} = 37.48
    • Dữ liệu 3 và trung bình mẫu:
    Giá trị[20,40][20, 40](40,60](40, 60](60,80](60, 80][80,100][80, 100]
    Tần số1313292922221616
    x=1330+2950+2270+169013+29+22+16=60.25\overline{x} = \dfrac{13 \cdot 30 + 29 \cdot 50 + 22 \cdot 70 + 16 \cdot 90}{13 + 29 + 22 + 16} = 60.25

  • Sau khi sắp xếp các giá trị dữ liệu tăng dân, trung vị mẫu là giá trị (xi)(x_i) có vị trí nằm giữa dãy dữ liệu.
  • Trung vị mẫu không bị ảnh hưởng bởi các giá trị lớn/nhỏ bắt thường trong dữ liệu và có ý nghĩa làm trung tâm hơn so với trung bình khi mà phân bố dữ liệu bị lệch (Ví dụ như khi có một nhóm cây được bón tăng trưởng trong một vườn).
  • Ví dụ:
    • Dữ liệu: 0,0,0,1,1,3,3,4,4,320, 0, 0, 1, 1, 3, 3, 4, 4, 32. Có trung bình x=4.8\overline{x} = 4.8. Mẫu có 1010 dữ liệu nên trung vị mẫu là trung bình cộng của giá trị thứ 5566 hay median(x)=1+32=2\text{median}(x) = \dfrac{1 + 3}{2} = 2.
    • Có thể thấy rằng 9/109/10 dữ liệu nhỏ hơn trung bình, trong khi 55 dữ liệu lớn hơn median và 55 nhỏ hơn. Do đó trong trường hợp này thì trung vị đóng vai trò giá trị trung tâm tốt hơn.

  • Mốt (mode) là giá trị (xi)(xi) có tần số lớn nhất trong dữ liệu.
  • Một bộ dữ liệu có thể có nhiều hơn 11 mốt.
  • Mốt sẽ có ý nghĩa làm trung tâm tốt hơn đối với dữ liệu định tính.