Dưới đây là hướng dẫn giải chi tiết từng bước đã được hiệu đính số liệu chuẩn xác tuyệt đối giúp các em học sinh đạt điểm số tối đa.
I. Đề bài tập 5.25 (SGK Toán 10 - Trang 90)
Hai mẫu số liệu sau đây cho biết số lượng trường Trung học phổ thông ở mỗi tỉnh/thành phố thuộc Đồng bằng sông Hồng và Đồng bằng sông Cửu Long năm 2017:
Đồng bằng sông Hồng: $187;\quad 34;\quad 35;\quad 46;\quad 54;\quad 57;\quad 37;\quad 39;\quad 23;\quad 57;\quad 27$
Đồng bằng sông Cửu Long: $33;\quad 34;\quad 33;\quad 29;\quad 24;\quad 39;\quad 42;\quad 24;\quad 23;\quad 19;\quad 24;\quad 15;\quad 26$
(Theo Tổng cục Thống kê)
Câu hỏi:
a)Tính số trung bình, trung vị, các tứ phân vị, mốt, khoảng biến thiên, khoảng tứ phân vị, độ lệch chuẩn cho mỗi mẫu số liệu trên.
b)Tại sao số trung bình của hai mẫu số liệu có sự sai khác nhiều trong khi trungvị thì không
c)Tại sao khoảng biến thiên và độ lệch chuẩn của hai mẫu số liệu khác nhau nhiều trong khi khoảng tứ phân vị thì không?
II. Hướng dẫn giải chi tiết bài 5.25
Câu a) Tính các số đặc trưng thống kê của hai mẫu số liệu
1. Khảo sát vùng Đồng bằng sông Hồng (ĐBSH)
Sắp xếp mẫu số liệu theo thứ tự không giảm ($n = 11$ phần tử):
$$23;\quad 27;\quad 34;\quad 35;\quad 37;\quad 39;\quad 46;\quad 54;\quad 57;\quad 57;\quad 187$$
Số trung bình ($\overline{X}_1$):
$$\overline{X}_1 = \frac{23 + 27 + 34 + 35 + 37 + 39 + 46 + 54 + 57 + 57 + 187}{11} = \frac{596}{11} \approx 54,18$$
Trung vị ($M_{e1}$ hoặc $Q_2$): Vì $n = 11$ lẻ, trung vị nằm ở vị trí thứ 6 $\Rightarrow M_{e1} = 39$.
Các Tứ phân vị ($Q_1, Q_3$):
Mốt ($M_{o1}$): Giá trị $57$ xuất hiện nhiều nhất (2 lần) $\Rightarrow M_{o1} = 57$.
Khoảng biến thiên ($R_1$): $R_1 = 187 - 23 = 164$.
Khoảng tứ phân vị ($\Delta Q_1$): $\Delta Q_1 = Q_3 - Q_1 = 57 - 34 = 23$.
Bảng tính độ lệch chuẩn vùng Đồng bằng sông Hồng:
| Giá trị (xi) | Độ lệch (xi−X1) | Bình phương độ lệch (xi−X1)2 |
| 23 | $-31,18$ | $972,19$ |
| 27 | $-27,18$ | $738,75$ |
| 34 | $-20,18$ | $407,23$ |
| 35 | $-19,18$ | $367,87$ |
| 37 | $-17,18$ | $295,15$ |
| 39 | $-15,18$ | $230,43$ |
| 46 | $-8,18$ | $66,91$ |
| 54 | $-0,18$ | $0,03$ |
| 57 | $2,82$ | $7,95$ |
| 57 | $2,82$ | $7,95$ |
| 187 | $132,82$ | $17641,20$ |
| Tổng | | $20735,66$ |
Độ lệch chuẩn ($s_1$):
$$s_1 = \sqrt{\frac{20735,66}{11}} = \sqrt{1885,06} \approx 43,42$$
2. Khảo sát vùng Đồng bằng sông Cửu Long (ĐBSCL)
Sắp xếp mẫu số liệu theo thứ tự không giảm ($n = 13$ phần tử):
$$15;\quad 19;\quad 23;\quad 24;\quad 24;\quad 24;\quad 26;\quad 29;\quad 33;\quad 33;\quad 34;\quad 39;\quad 42$$
Số trung bình ($\overline{X}_2$):
$$\overline{X}_2 = \frac{15 + 19 + 23 + 24 + 24 + 24 + 26 + 29 + 33 + 33 + 34 + 39 + 42}{13} = \frac{369}{13} \approx 28,38$$
Trung vị ($M_{e2}$ hoặc $Q_2$): Vì $n = 13$ lẻ, trung vị nằm ở vị trí thứ 7 $\Rightarrow M_{e2} = 26$.
Các Tứ phân vị ($Q_1, Q_3$):
Nửa bên trái gồm 6 số nhỏ: $15;\quad 19;\quad 23;\quad 24;\quad 24;\quad 24 \Rightarrow Q_1 = \frac{23+24}{2} = 23,5$.
Nửa bên phải gồm 6 số lớn: $29;\quad 33;\quad 33;\quad 34;\quad 39;\quad 42 \Rightarrow Q_3 = \frac{33+34}{2} = 33,5$.
Mốt ($M_{o2}$): Giá trị $24$ xuất hiện nhiều nhất (3 lần) $\Rightarrow M_{o2} = 24$.
Khoảng biến thiên ($R_2$): $R_2 = 42 - 15 = 27$.
Khoảng tứ phân vị ($\Delta Q_2$): $\Delta Q_2 = Q_3 - Q_1 = 33,5 - 23,5 = 10$.
Bảng tính độ lệch chuẩn vùng Đồng bằng sông Cửu Long:
| Giá trị (xi) | Độ lệch (xi−X2) | Bình phương độ lệch (xi−X2)2 |
| 15 | $-13,38$ | $179,02$ |
| 19 | $-9,38$ | $87,98$ |
| 23 | $-5,38$ | $28,94$ |
| 24 | $-4,38$ | $19,18$ |
| 24 | $-4,38$ | $19,18$ |
| 24 | $-4,38$ | $19,18$ |
| 26 | $-2,38$ | $5,66$ |
| 29 | $0,62$ | $0,38$ |
| 33 | $4,62$ | $21,34$ |
| 33 | $4,62$ | $21,34$ |
| 34 | $5,62$ | $31,58$ |
| 39 | $10,62$ | $112,78$ |
| 42 | $13,62$ | $185,50$ |
| Tổng | | $752,06$ |
Độ lệch chuẩn ($s_2$):
$$s_2 = \sqrt{\frac{752,06}{13}} = \sqrt{57,85} \approx 7,61$$
Câu b) Biện luận sự lệch biệt giữa Số trung bình và Trung vị
Lập luận khoa học: * Số trung bình của vùng ĐBSH ($\overline{X}_1 \approx 54,18$) lớn hơn rất nhiều so với ĐBSCL ($\overline{X}_2 \approx 28,38$). Sự chênh lệch khổng lồ này hoàn toàn do mẫu dữ liệu ĐBSH xuất hiện một giá trị bất thường (outlier) cực lớn là $187$ (đây là số lượng trường của Thủ đô Hà Nội). Do công thức số trung bình cộng phải ôm trọn toàn bộ các số liệu biên nên giá trị $187$ đã kéo vọt số trung bình của cả vùng lên cao. Trong khi đó, ĐBSCL các tỉnh phân bố rất đồng đều, không có giá trị đột biến nào.
Ngược lại, Trung vị của hai vùng lệch nhau không nhiều ($39$ so với $26$). Lý do là vì trung vị chỉ phản ánh thứ tự đứng ở lõi chính giữa dòng dữ liệu, hoàn toàn "mù" thông tin trước độ lớn cực đoan của phần tử biên $187$, nhờ đó giữ được tính bền vững cho thông số đại diện.
Câu c) Biện luận sự sai khác của Khoảng biến thiên, Độ lệch chuẩn và Khoảng tứ phân vị
Lập luận khoa học:
Khoảng biến thiên ($R$) và Độ lệch chuẩn ($s$) của hai vùng lệch nhau rất xa ($164$ so với $27$; $43,42$ so với $7,61$). Bản chất là vì hai chỉ số này có tính nhạy cảm cực cao với các phần tử biên. Phép tính của $R$ sử dụng trực tiếp số lớn nhất ($187 - 23$), còn phép tính của $s$ lấy bình phương độ lệch của số bất thường $(187 - 54,18)^2$ tạo ra một con số khổng lồ ($17641,20$), làm phóng đại độ phân tán của cả mẫu.
Trong khi đó, Khoảng tứ phân vị ($\Delta Q$) của hai vùng lại chênh lệch rất ít ($23$ so với $10$). Lý do là vì khoảng tứ phân vị chỉ tập trung khoanh vùng đo độ co giãn của $50\%$ lượng dữ liệu lõi nằm ở chính giữa, loại bỏ hoàn toàn các giá trị nhiễu ở rìa biên đầu và cuối dòng dữ liệu.
III. Bản chất lý thuyết (Mẹo làm bài thi trắc nghiệm)
Để giúp các em học sinh tạo phản xạ nhẩm siêu tốc và xử lý chính xác các câu hỏi lý thuyết định tính của bài 5.25 chỉ trong vòng 2 giây, các em hãy nhớ thuộc lòng quy luật "la bàn chống nhiễu" sau:
Nhóm đại lượng nhạy cảm (Dễ bị làm nhiễu): Gồm có Số trung bình, Khoảng biến thiên và Độ lệch chuẩn/Phương sai. Khi mẫu dữ liệu xuất hiện một số cực đại hoặc cực tiểu đột biến $\rightarrow$ Bộ ba này lập tức bị biến động dữ dội.
Nhóm đại lượng bền vững (Chống nhiễu biên): Gồm có Trung vị và Khoảng tứ phân vị. Bộ đôi này sinh ra để bảo vệ tính sạch của dữ liệu lõi, hoàn toàn không bị lay chuyển bởi các phần tử bất thường.
Cứ thấy đề bài cho một mẫu số liệu có một số lớn "vượt tầng" hẳn so với các số còn lại và hỏi đại lượng nào phản ánh trung thực hoặc đại lượng nào ít bị biến động nhất $\rightarrow$ Hãy tìm ngay các phương án có chứa từ Trung vị hoặc Khoảng tứ phân vị để khoanh!
IV. Kết luận
Bài tập 5.25 là bài tập khép lại toàn bộ chương trình Thống kê Toán 10 một cách hoàn hảo và đắt giá nhất. Bài toán giúp học sinh thấu hiểu được giá trị thực tiễn của toán học trong việc làm sạch dữ liệu lớn – một kỹ năng sống còn của các ngành khoa học dữ liệu, kinh tế học và phân tích xã hội hiện đại.
Hy vọng với lời giải trên, các em rõ hơn về độ nhạy cảm của các số đặc trưng thống kê! Mọi ý kiến đóng góp hoặc thắc mắc các em hãy để lại nhận xét ngay phía dưới bài viết để nhận được sự hỗ trợ từ chúng mình. Chúc các em luôn học tốt và đạt điểm số thật cao!
• Xem thêm:
Bài 5.21 SGK Toán 10 tập 1 Kết nối tri thức
Bài 5.22 SGK Toán 10 tập 1 Kết nối tri thức
Bài 5.23 SGK Toán 10 tập 1 Kết nối tri thức
Bài 5.24 SGK Toán 10 tập 1 Kết nối tri thức
Bài 5.26 SGK Toán 10 tập 1 Kết nối tri thức