Trong kinh tế học và thống kê, việc phân tích dữ liệu thu nhập giúp chúng ta hiểu rõ hơn về sự phân bố và biến động của thị trường lao động. Bài viết này sẽ hướng dẫn bạn giải chi tiết Bài 3.2 trang 79 Toán 12 tập 1 sách Kết nối tri thức, một bài toán thực tế so sánh mức thu nhập giữa hai nhà máy, sử dụng các đại lượng thống kê cơ bản.
Thu nhập theo tháng (đơn vị: triệu đồng) của người lao động ở hai nhà máy như sau:

Tính mức thu nhập trung bình của người lao động ở hai nhà máy trên. Dựa vào khoảng tứ phân vị, hãy xác định xem mức thu nhập của người lao động ở nhà máy nào biến động nhiều hơn.
Bài toán này có hai yêu cầu chính:
Tính thu nhập trung bình: Đối với dữ liệu ghép nhóm, ta không thể tính trung bình một cách chính xác. Thay vào đó, ta sẽ sử dụng giá trị đại diện của mỗi nhóm để tính thu nhập trung bình xấp xỉ. Giá trị đại diện thường là trung điểm của khoảng.
So sánh mức độ biến động: Khoảng tứ phân vị (\(\Delta Q = Q_3 - Q_1\)), là một thước đo về sự phân tán của dữ liệu. Khoảng tứ phân vị càng lớn, mức độ biến động (phân tán) của dữ liệu càng nhiều.
Công thức sử dụng:
Thu nhập trung bình (\(\bar{x}\)): $$\bar{x} = \frac{\sum (x_i \cdot n_i)}{N}$$ Trong đó, \(x_i\) là giá trị đại diện của nhóm thứ i, \(n_i\) là tần số của nhóm thứ i, và \(N\) là tổng số mẫu.
Tứ phân vị (\(Q_k\)): $$Q_k = a + \frac{\frac{kN}{4} - n_a}{n_k} \cdot h$$ Với \(a\) là cận dưới của nhóm chứa \(Q_k\), \(N\) là tổng số mẫu, \(n_a\) là tần số tích lũy của các nhóm trước, \(n_k\) là tần số của nhóm chứa \(Q_k\), và \(h\) là chiều rộng của nhóm.
Chọn giá trị đại diện cho mẫu số liệu ta có:
|
Thu nhập |
[5; 8) |
[8; 11) |
[11; 14) |
[14; 17) |
[17; 20) |
|
Giá trị đại diện |
6,5 |
9,5 |
12,5 |
15,5 |
18,5 |
|
Số người của nhà máy A |
20 |
35 |
45 |
35 |
20 |
|
Số người của nhà máy B |
17 |
23 |
30 |
23 |
17 |
Mức thu nhập trung bình của người lao động nhà máy A là:
$\frac{6,5.20+9,5.35+12,5.45+15,5.35+18,5.20}{(20+35+45+35+20)}=12,5$(triệu đồng)
Mức thu nhập trung bình của người lao động nhà máy B là:
$\frac{6,5.17+9,5.23+12,5.30+15,5.23+18,5.17}{(17+23+30+23+17)}=12,5$ (triệu đồng).
Nhà máy A
Cỡ mẫu n = 20 + 35 + 45 + 35 + 20 = 155.
Gọi x1; x2; …; x155 là mức thu nhập của 155 công nhân lao động của nhà máy A và được sắp xếp theo thứ tự tăng dần
Tứ phân vị thứ nhất của mẫu số liệu là x39 thuộc nhóm [8; 11) nên nhóm chứa tứ phân vị thứ nhất là [8; 11).
Ta có $Q_1=8+\frac{\frac{155}{4}-20}{35}.(11-8)\approx 9,6$
Tứ phân vị thứ ba của mẫu số liệu là x117 thuộc nhóm [14; 17) nên nhóm chứa tứ phân vị thứ ba là [14; 17).
Ta có $Q_3=14+\frac{\frac{155.3}{4}-100}{35}.(17-14)\approx 15,4$
Khoảng tứ phân vị: RAQ = 15,4 – 9,6 = 5,8.
Nhà máy B
Cỡ mẫu n = 17 + 23 + 30 + 23 + 17 = 110.
Gọi y1; y2; …; y110 là mức thu nhập của 110 công nhân lao động của nhà máy B và được sắp xếp theo thứ tự tăng dần.
Tứ phân vị thứ nhất của mẫu số liệu là y28 thuộc nhóm [8; 11) nên nhóm chứa tứ phân vị thứ nhất là [8; 11).
Ta có $Q_1=8+\frac{\frac{110}{4}-17}{23}.(11-8)\approx 9,4$
Tứ phân vị thứ ba của mẫu số liệu là y83 thuộc nhóm [14; 17) nên nhóm chứa tứ phân vị thứ ba là [14; 17).
Ta có $Q_3=14+\frac{\frac{3.110}{4}-70}{23}.(17-14)\approx 15,6$
Khoảng tứ phân vị .
Vì RBQ > RAQ nên mức thu nhập của người lao động ở nhà máy B biến động nhiều hơn.
Bài toán này đã giúp bạn hiểu cách sử dụng hai đại lượng thống kê quan trọng: giá trị trung bình và khoảng tứ phân vị.
Giá trị trung bình: Cho biết mức thu nhập "đại diện" của mỗi nhà máy. Mặc dù cả hai nhà máy có thu nhập trung bình bằng nhau (12,5 triệu đồng), điều này không phản ánh sự khác biệt về phân bố thu nhập.
Khoảng tứ phân vị: Là một thước đo mạnh mẽ hơn để đánh giá sự phân tán của dữ liệu. Kết quả cho thấy mặc dù trung bình thu nhập hai nhà máy bằng nhau, thu nhập của nhà máy B có sự chênh lệch (biến động) lớn hơn. Điều này có thể do ở nhà máy B có nhiều người có thu nhập cao và thấp hơn mức trung bình so với nhà máy A.
Hiểu rõ sự khác biệt giữa các đại lượng thống kê này giúp bạn đưa ra những nhận định chính xác và sâu sắc hơn về dữ liệu.
• Xem thêm: