TỰ HỌC R - Hướng dẫn lựa chọn model xử lý thống kê

Hướng dẫn lựa chọn model xử lý thống kê phù hợp - Statistical Test Selection Tool [Facebook]

Phần khó nhất của câu chuyện xử lý thống kê là giai đoạn bắt đầu (cần phải biết rõ nên bắt đầu từ đâu? và tại sao lại bắt đầu ở chỗ đó mà không phải chỗ khác) hay còn gọi là cách tiếp cận vấn đề phù hợp với case/dataset quan tâm. Và một trong những cái khó nhất ở giai đoạn này chính là tìm ra một mô hình xử lý thống kê phù hợp với bản chất bộ dữ liệu bạn đang có. (tạm dịch từ trang 388, Crawley, Michael J. The R Book. 2nd ed. Chichester, West Sussex, United Kingdom: Wiley, 2013.)

Như vậy, việc hiểu rõ cả bản chất bộ dữ liệu (đặc điểm dữ liệu) thuộc nhóm định tính hay định lượng, biến liên tục hay phân loại theo sơ đồ này https://tuhocr.netlify.app/tong-quat.svg (cũng là sơ đồ căn bản để ta có cơ sở import dataset vào R để lưu trong các đối tượng phù hợp như dataframe, vector hay matrix). Đồng thời, ta cần hiểu rõ bản chất của từng công cụ kiểm định thống kê (tools for statistical tests) để lựa chọn cách kiểm định phù hợp với dataset (lựa model toán phù hợp với dataset, chứ không ép dataset raw data vào một mô hình toán cứng nhắc vì như vậy là không đúng bản chất xử lý thống kê).

OK, thống nhất ở cách nhìn nhận vấn đề như trên thì bạn sẽ có 1 nhu cầu rất tự nhiên là: "Giá như có ai đó đã xem qua hết một lượt các thể loại dữ liệu thường gặp và đề xuất các phương pháp xử lý thống kê phù hợp cho dataset đó thì hay biết mấy!"

Đúng là như vậy, và mình giới thiệu các bạn nỗ lực hệ thống hóa các phương pháp kiểm định thống kê theo kiểu cây quyết định để trợ giúp cho nhà nghiên cứu (là bạn) trong việc nên lựa chọn cách kiểm định thống kê nào là phù hợp với câu hỏi/giả thuyết nghiên cứu của bạn về bộ dataset hiện có.

1/ Đầu tiên là bạn có thể xem cuốn Statistical Rethinking này https://www.facebook.com/groups/tuhocr/posts/896183334787712/ có một sơ đồ khá hoàn chỉnh overview về quy trình chọn lựa các test thống kê căn cứ trên các chỉ số thường gặp trong bộ dữ liệu (vd nếu data không có phân bố chuẩn thì nên chọn phương pháp nào phù hợp).

2/ Nếu bạn cần thêm 1 nguồn nữa kiểm chứng xem sơ đồ này có ổn hay không, thì bạn tham khảo trang https://inspect-lb.org/statistical-tests/ của một nhóm nghiên cứu y sinh đa ngành (Created in January 2018, INSPECT-LB – a non-profit, independent research group of motivated multi-university and multidisciplinary researchers and academics) về hướng dẫn lựa chọn các test thống kê phù hợp. Trên này cũng có công cụ Bias Inspector giúp đánh giá các điểm bias trong nghiên cứu. Cách tiếp cận của nhóm này rất trực tiếp, bạn chọn đặc điểm dataset sau đó có các câu hỏi về dataset đó nếu dữ liệu của bạn có chứa đặc điểm nào thì công cụ này sẽ recommend bạn nên dùng test kiểm định đó cho phù hợp.

3/ Trên internet cũng có một số trang về quy trình lựa chọn kiểm định thống kê, ví dụ trang này https://statkat.com/statistical-technique-selection/tool-for-selecting-a-statistical-technique.php hướng dẫn chi tiết hơn kèm theo công thức toán của phép kiểm định đó.

Nhìn chung, theo thời gian thì kinh nghiệm xử lý và biện luận kết quả thống kê từ các loại dataset khác nhau đã được các nhóm nghiên cứu họ tích lũy lại và hệ thống hóa dần dần. Do đó ngày nay việc tìm kiếm cách biện luận dữ liệu không còn khó khăn như trước nữa. Câu chuyện còn lại là bạn cần nắm vững tool R là phần mềm giúp bạn xử lý nhanh gọn lẹ các phép kiểm định thống kê này, và xuất ra file báo cáo ở dạng PDF hay HTML qua rmarkdown giúp viết báo cáo khả lập nhanh chóng. Vì vậy, cách tiếp cận của mình khi training R cho học viên qua các chuyên đề ở www.tuhocr.com về câu chuyện thống kê là mình tập trung hướng dẫn cách sử dụng R (hiểu R hoạt động như thế nào) vì đây là mảng kiến thức cũng còn khá mới ở VN, còn việc ráp code R vào xử lý và biện luận kết quả thống kê thì chúng ta yên tâm là khối kiến thức này đã hoàn chỉnh cho những case thông thường, còn những dataset hay câu hỏi phức tạp hơn thì luôn có các group chuyên ngành để giải đáp cho bạn, một khi, bạn đã *sẵn sàng*.

Chúc mọi người cuối tuần vui vẻ. Happy learning small things everyday.

Nếu bạn đã áp dụng xử lý thống kê, xuất ra báo cáo, rồi khi bị hỏi ngược lại là tại sao lại dùng phép kiểm định đó mà không dùng phép kiểm định khác? Vì sao lại xử lý theo kiểu này, kiểu khác mới đúng hơn... thì đó là dấu hiệu bạn cần phải nắm vững một cách có hệ thống, toàn diện về các phương pháp lựa chọn phép kiểm định thống kê cho các loại dataset từ liên tục đến phân nhóm (factor). Vì kiểu gì thì bạn cũng sẽ gặp đi gặp lại các case xử lý dữ liệu khác nhau một chút xíu nhưng lại ẩn chứa những câu chuyện đằng sau đó (về lựa chọn phương pháp kiểm định phù hợp).

Vậy nên, một cách tiếp cận bao vây, khoanh vùng vấn đề là cần thiết với những chủ đề có nhiều điểm khúc mắc nho nhỏ mà nếu không hiểu rõ thì ta sẽ xây dựng báo cáo và biện luận bị sơ hở rất nhiều. Bản chất câu chuyện nào về số liệu, về toán thì bạn cứ đưa hết vào R rồi test hết các style/type xử lý thống kê ở các cực hạn/cực đoan dữ liệu khác nhau để hình dung là vì sao phải làm test này mà không làm test kia, tất cả đều có lý do đằng sau việc lựa chọn phương pháp phù hợp.

Thử và sai trong sự thận trọng và có hệ thống sẽ giúp tiết kiệm thời gian cho bạn sửa chữa/lấp kín những sơ hở sau này trong lập luận về số liệu thống kê. R là công cụ rất mạnh để ta có thể thử và sai một cách nhanh chóng nhờ cơ chế hoạt động theo coding, giúp tái lập nhanh kết quả xử lý cả trên đồ thị lẫn số liệu tính toán mà các phần mềm khác khó làm nhanh gọn được như R.