Hiện nay nhu cầu ôn tập lại xác suất thống kê đang rất sôi động. Việc nắm vững các khái niệm này sẽ giúp chúng ta không bị lan man bởi các model hay thuật toán đa dạng (vốn cũng có gốc rễ từ các model căn bản mà phát triển lên). Vì vậy mình giới thiệu các bạn bộ 3 cuốn sách này về nhập môn về thống kê, kiểm định giả thuyết và phân tích hồi quy do chuyên gia Jim Forst thực hiện. Các bạn tìm đọc nhé. Vài dòng sơ lược về tiểu sử tác giả như sau (trích từ trang Preface cuốn Introduction to Statistics)

I love statistics and analyzing data! I also love talking and writing about it. I was a researcher at a major university. Then, I spent over a decade working at a major statistical software company (ND: theo mình biết là công ty Minitab). During my time at the software company, I learned how to present statistics in a manner that makes it more intuitive. I want you to understand the essential concepts, practices, and knowledge for statistics so you can analyze your data confidently. That’s the goal of my book.

Trang web này trình bày rất nhiều bài viết mang tính giải thích các thuật ngữ thống kê thường gặp như bậc tự do (degrees of freedom) là gì, khoảng tin cậy, hay p-value là gì, cách ước tính cỡ mẫu ra sao, kèm theo phần comment trả lời câu hỏi giữa Mr. Jim và bạn đọc (cũng phần lớn ở lĩnh vực nghiên cứu). Khi bạn theo dõi trọn vẹn bài viết kèm theo dây comment liên quan bạn sẽ được ôn tập lại kiến thức rất tốt về các chủ đề thống kê thường quy này.

https://statisticsbyjim.com/

Việc hiểu đúng các khái niệm về thống kê và quy trình phân tích tương ứng câu hỏi nghiên cứu đặt ra ban đầu giúp cho ta nhìn được bức tranh toàn cảnh về chủ đề mình đang thực hiện, khi đó việc lựa chọn phần mềm để xử lý thống kê (vd như SPSS, SAS, Minitab hay R, Python...) chỉ là câu chuyện ta thuận theo cách sử dụng của phần mềm nào thì dùng phần mềm đó. Lợi thế của việc sử dụng R là vì ngay trong thiết kế thì R đã là ngôn ngữ lập trình chuyên để xử lý thống kê và vẽ đồ thị, do đó bạn sẽ dễ dàng triển khai các quy trình phân tích thống kê từ đơn giản đến phức tạp trong R qua các function mặc định hay qua các gói package đa dạng chuyên sâu miễn phí từ cộng đồng người dùng R trên khắp thế giới.

Trọng tâm của mình khi training R cho học viên qua các chuyên đề ở www.tuhocr.com là đưa ra cách tiếp cận nhanh chóng cho các chủ đề thống kê nào thì sẽ sử dụng model/package nào tương ứng (vốn có rất nhiều hướng dẫn trên google), giúp các bạn tiết kiệm thời gian mò mẫm lựa chọn các package phù hợp với chủ đề bạn đang thực hiện.

Với background research, mình dành hơn 50% thời gian chỉ để thảo luận với học viên về bản chất bộ dataset đầu vào và câu hỏi nghiên cứu để có cơ sở chọn/tìm đọc đúng các tài liệu nói rõ về chủ đề đó nhằm giúp ích cho quá trình học tập và làm theo được thuận lợi.

Hầu như tài liệu xịn về các chủ đề bạn quan tâm đều đã có, vấn đề là ta dành thời gian, tĩnh tâm để văn ôn võ luyện thì mọi thứ cũng đâu vào đó. Chúc các bạn ứng dụng R có hiệu quả vào công việc.

Tài liệu này được viết theo cách chia sẻ kinh nghiệm/góc nhìn về xử lý thống kê giữa người có kinh nghiệm/người đi trước với các bạn đi sau, giúp ta hiểu về các concept thống kê theo cách gần gũi nhất (không phải mơ hồ qua các lý thuyết và công thức phức tạp), lẽ đương nhiên bạn sẽ cần đọc thêm các tài liệu về công thức toán học đằng sau các model thống kê (trong sách này cũng có dẫn ra) khi tiếp tục đào sâu vào chủ đề bạn quan tâm.

Sau cùng thì bạn hiểu vì sao thống kê tuy không khó để sử dụng (chỉ cần học tập và làm theo) nhưng "khó để hiểu cho đúng", bởi vì nó liên quan về các góc nhìn khác nhau về bản chất ước đoán giá trị thực của thực tế (population) chỉ từ một vài lần lấy mẫu ngẫu nhiên với sai số không thể kiểm soát được. 

Các tài liệu mang tính chất diễn giải, biện luận đi ngay vào chủ đề thống kê như Mr. Jim Forst đúc kết lại giúp ta tự tin là ngay ở mindset của chuyên gia về xử lý thống kê thì họ cũng tư duy từ những chuyện rất bình thường mà diễn giải rộng ra, không có gì quá phức tạp khi ta hiểu đúng ngay từ đầu các khái niệm cơ bản.