Trở lại với các bài viết của gocnhintangphat.com, bài viết lần này chúng ta sẽ tìm hiểu về kiểm định phi tham số cụ thể là kiểm định chi bình phương (Chi-square test). Trong series về phương pháp phân tích sống sót (Survival analysis) chúng tôi từng nhắc đến sự khác biệt giữa các mô hình tham số (parametric models) và phi tham số (non-parametric models). Đối với mô hình tham số, chúng ta phải đưa ra giả định ban đầu về bộ tham số được đưa vào mô hình, quy luật phân phối xác suất áp dụng cho các đối tượng nghiên cứu trong tập dữ liệu. Tuy nhiên nếu chưa thể đưa ra các giả định, đặc biệt trường hợp dữ liệu thu thập là dữ liệu định tính, thì mô hình phi tham số sẽ được ưu tiên sử dụng.
Đang xem: Chi-square là gì, kiểm Định chi bình phương trong spss
Tương tự trong lý thuyết thống kê, khi tiến hành kiểm định tham số cho các kết quả thu được từ những nghiên cứu, chúng ta cần xét điều kiện được quan tâm là tổng thể nghiên cứu có phân phối chuẩn. Tuy nhiên trường hợp, người làm phân tích theo kinh nghiệm của mình cho rằng tổng thể nghiên cứu thực tế không phải như vậy, họ có quyền không đưa ra giả định. Hay tổng thể nghiên cứu về bản chất đã không thỏa điều kiện này, thì các phương pháp kiểm định tham số không thể đưa vào sử dụng, thay vào đó là kiểm định phi tham số.
Kiểm định phi tham số hay non-parametric hypothesis tests hỗ trợ kiểm định giả thuyết liên quan đến tổng thể nghiên cứu mà ở đó không mang bất kỳ giả định nào về quy luật phân phối, hay có quy luật phân phối bất kỳ không theo phân phối chuẩn, và không cần bất kỳ tham số nào như trung bình, độ lệch chuẩn, tỷ lệ,…thường áp dụng cho dữ liệu định tính hơn là dữ liệu định lượng. Các phương pháp kiểm định phi tham số đã xuất hiện từ rất lâu từ cuối những năm 1940 và vẫn còn hữu dụng cho đến ngày hôm nay.
Trong 2 bài viết lần này về kiểm định phi tham số, chúng ta sẽ cùng tìm hiểu đến một vài phương pháp kiểm định phi tham số quan trọng như Sign – test, Wilcoxon – rank test, Mann – Whitney test, Kruskal – Wallis test, và đặc biệt là kiểm định Chi bình phương Chi – squared test được ứng dụng phổ biến hơn mà chúng ta thường nhắc đến ở các chủ đề bài viết trong Data mining mà gần nhất là Survival analysis. Chúng ta sẽ tìm hiểu Chi-squared test với các ví dụ đơn giản trong phần 1 bài viết lần này.
Các lý thuyết liên quan đến thống kê, cũng như quy luật phân phối, lý thuyết kiểm định tham số như kiểm định là gì, vì sao cần, … chúng tôi sẽ không đề cập lại chi tiết. Các bạn có thể xem lại các bài viết qua link dưới đây:
Tổng quan về Statistics: Khái niệm và ứng dụng của thống kê
Tổng quan về Statistics: Descriptive statistics (thống kê mô tả)
Tổng quan về Statistics: Inferential statistics (thống kê suy luận)
Tìm hiểu về phương pháp kiểm định tham số
Các dạng kiểm định tham số (trường hợp 1 mẫu)
Các dạng kiểm định tham số (trường hợp 2 mẫu)
Kiểm định chi bình phương (Chi-squared test)
Kiểm định chi bình phương áp dụng cho dạng dữ liệu thống kê theo dạng tần số. Mục đích ứng dụng phổ biến của kiểm định chi bình phương đầu tiên là kiểm tra xem có mối liên hệ, mối quan hệ giữa 2 biến, 2 yếu tố đang xét đến. Nhu cầu kiểm tra mối liên hệ giữa 2 biến xuất hiện nhiều trong các phương pháp phân tích như hồi quy Logistics, Survival analysis,… và trong thực tế khi chúng ta quan tâm đến sự khác biệt giữa 2 nhóm đối tượng nghiên cứu thuộc lĩnh vực xã hội, kinh tế.
Một ứng dụng khác của kiểm định chi bình phương đó là “Goodness of Fit” dùng để kiểm tra giả định về quy luật phân phối trong một tổng thể nghiên cứu có đúng không, có hợp lý hay không ví dụ kiểm tra giả định chi tiêu trung bình của khách hàng cho các sản phẩm của công ty mỗi tháng tuân theo phân phối chuẩn. Hay ví dụ cụ thể, một chuyên viên phân tích bán hàng của một công ty cho rằng tỷ lệ doanh thu của sản phẩm A, B, C tuân theo phân phối đa thức (Multinominal probability distribution) lần lượt là 40%, 25%, 35%.
Chúng ta sẽ sử dụng kiểm định chi bình phương để kiểm tra kết luận của chuyên gia phân tích có đúng không.
Xem thêm: Steadicam Là Gì – Khi Nào Nên Dùng Gimbal ĐiệN Tử
Giả sử công ty sản xuất smartphone có 3 dòng sản phẩm A, B, C, có mức giá trung bình ngang nhau, không quá chênh lệch, dành cho phân khúc khách hàng tầm trung, được khách hàng chọn lựa dựa trên các yếu tố thiết kế, tính năng. Tỷ lệ doanh số phân khúc tầm trung trong năm 2019 lần lượt là 40%, 25%, 35%.
Trong năm 2020, dòng sản phẩm B được công ty thiết kế, sáng tạo thêm các tính năng mới như camera AI, nhận diện khuôn mặt. Công ty muốn tìm hiểu liệu việc sản phẩm B được cải tiến như vậy sẽ tác động lên doanh thu của sản phẩm A, C như thế nào.
Công ty tiến hành thu thập dữ liệu 300 khách hàng, mỗi khách hàng mua 1 trong 3 sản phẩm A, B, C. Chúng ta có phân phối đa thức với tỷ lệ doanh số cụ thể pA, pB, pC.
Nói một chút về phân phối đa thức (Multinominal probability distribution), đây là quy luật phân phối mở rộng từ phân phối nhị thức (Binominal probability distribution). Ví dụ trong phân phối nhị thức, chúng ta có xác suất khách hàng mua sản phẩm A: pA và xac suất không mua sản phẩm A sẽ là 1 – pA; và pA + (1 – pA) = 1. Đối với đa thức, chúng ta có thể xét nhiều hơn các kết quả đạt được, như ví dụ ở trên, nếu khách hàng không mua A, thì họ có thể mua B hoặc C; không mua B, thì có thể mua A hoặc C; không mua C, thì có thể mua A hoặc B. Chúng ta sẽ có pA – xác suất mua sản phẩm A, pB, pC lần lượt là xác suất mua sản phẩm B, xác suất mua sản phẩm C.
Với pA + pB + pC = 1
Quay trở lại với bài toán, chúng ta sẽ đặt giả thuyết:
H0: Doanh số của 3 sản phẩm A, B, C tuân theo phân phối đa thức với tỷ lệ doanh số hay xác suất khách hàng mua sản phẩm A, B hoặc C lần lượt là pA = 0.4 pB = 0.25 pC = 0.35
H1: Doanh số của 3 sản phẩm A, B, C không tuân theo phân phối đa thức với tỷ lệ doanh số hay xác suất khách hàng mua sản phẩm A, B hoặc C lần lượt là pA = 0.4 pB = 0.25 pC = 0.35
Hoặc đơn giản:
H0: pA = 0.4; pB = 0.25; pC = 0.35
H1: tỷ lệ doanh số ứng với 3 sản phẩm A, B, C sẽ không phải là pA = 0.4 pB = 0.25 pC = 0.35
Cách thực hiện
Kiểm định chi bình phương hoạt động dựa trên sự khác biệt giữa số quan sát thực tế (tần suất thực tế) – Observed, ký hiệu Oi; và số quan sát mong đợi hay dự kiến (tần suất mong đợi dự kiến) – Expected, ký hiệu Ei. Với i là nhóm đang xét.
Xem thêm: Định Nghĩa Của Trophy Là Gì, Định Nghĩa Của Từ Trophy Trong Từ Điển Lạc Việt
Từ “mong đợi”, hay “dự kiến” được hiểu đơn giản như sau. Ví dụ nếu công ty không tiến hành cải tiến sản phẩm B, thì tỷ lệ doanh số của 3 sản phẩm A, B, C trong năm 2020 có thể được mong đợi sẽ tối thiểu bằng 2019. Hoặc nếu không có gì xảy ra trong năm 2020, tỷ lệ doanh số 3 sản phẩm A, B, C dự kiến sẽ bằng năm trước.
Công thức kiểm định Chi-squared quen thuộc mà chúng tôi từng đề cập ở các chủ đề bài viết trước: