HƯỚNG DẪN VẼ ĐỒ THỊ HISTOGRAM FREQUENCY VÀ DENSITY
Trong cơn bão AI hiện nay, rộ lên nhiều quan điểm cho rằng không cần học code vẫn làm việc tốt được. Chuyện này cũng dần trở nên hiển nhiên khi AI ngày càng mạnh sẽ xuất ra ngay và luôn các đoạn code template theo yêu cầu người dùng (còn dùng được hay không thì người dùng phải hậu xử lý tiếp theo nữa nhé!)
Tuy nhiên để triệt để customize chỉnh sửa này nọ cho đúng ý bạn nhất để ra đồ thị chuẩn chỉnh thì việc bạn có nền tảng lập trình căn bản, trong trường hợp vẽ các dạng đồ thị thống kê này thì bạn trang bị kỹ năng R qua các chuyên đề chi tiết ở www.tuhocr.com sẽ giúp bạn chủ động dựng nên đồ thị đẹp và chuẩn nhất có thể. Ngay cả khi offline bạn vẫn có thể làm việc được, không cần phải trả bất kỳ chi phí gì cả (R là phần mềm miễn phí, mã nguồn mở, chạy đa nền tảng, online offline đều ok).
Mình định kỳ vẫn vẽ ra các dạng đồ thị thống kê thường quy để support học viên có sẵn code template giúp ráp ngay vào dataset, xử lý công việc nhanh gọn. Ở góc độ này thì code template được con người lập trình ra sẽ dễ hiểu hơn rất nhiều so với code template cho AI viết ra, bởi vì khi bạn có thắc mắc thì bạn sẽ trao đổi trực tiếp với tác giả code template đó để hiểu vì sao làm các bước lập trình như vậy.
Chúc các bạn ứng dụng R có hiệu quả vào công việc.
Đồ thị histogram là dạng đồ thị chuyển tiếp vào câu chuyện thống kê, hoàn toàn khác về bản chất của đồ thị cột hay đồ thị đường ban đầu khi mà nó có sự kiện "chia ra các khoảng interval (breaks)" trên bộ dữ liệu (dù là số đếm hay số liên tục) để đếm tần số xuất hiện các con số này.
Mọi chuyện sẽ phức tạp hơn một chút khi bạn đọc đồ thị histogram density khi thấy trục tung là "mật độ xác suất" với ý nghĩa là mức độ xuất hiện của con số dữ liệu bất kỳ so với toàn bộ con số có trong dãy số liệu. Tổng xác suất xuất hiện của các con số này sẽ là 1, ta gọi là xác suất. Xác suất là đại lượng không có đơn vị đo dao động từ 0 đến 1.
Chi tiết hơn thì các bạn tham khảo ở đây nhé.
Ở đây ta lưu ý là bình thường khi vẽ đồ thị histogram và line density thì sẽ có 2 loại đường là kernel density và normal curve, với đặc trưng là kernel density nó bám sát vào dữ liệu gốc hơn (vì tính theo thuật toán method tương ứng) còn normal curve là đường phân bố chuẩn với mean và sd lấy từ bộ dữ liệu ban đầu. Việc thể hiện 2 đường này cùng lúc sẽ giúp mình đánh giá mức độ skewness của bộ dữ liệu lệch trái hay lệch phải (là so giữa chóp đỉnh của kernel density với normal curve).
Trong đồ thị histogram bạn cần thể hiện luôn cả số mean, median và mode, với đặc điểm của số mode có thể xuất hiện nhiều lần (nếu dữ liệu có phân bố gồm nhiều đỉnh khác nhau multimodal) hoặc có thể không có số mode (nếu mỗi con số trong bộ dữ liệu chỉ xuất hiện 1 lần).
Để hiểu kỹ về đồ thị histogram bạn sẽ tìm hiểu từ chỗ frequency polygon và density polygon là đường nối liền giữa các cột, khi mà số cột tăng lên rất nhiều thì density polygon trở thành normal curve.
Nếu gọi khái niệm phương sai và độ lệch chuẩn là khái niệm trung tâm của thống kê, thì đồ thị histogram là bước nhập môn rất quan trọng, cần hiểu kỹ về giá trị trục hoành, trục tung, vì sao lại vẽ ra được cột và đường trên cùng đồ thị, thuật toán nào đằng sau đó, sẽ giúp bạn không bị lạc lối khi kiểm tra đặc điểm dữ liệu để xác nhận xem dữ liệu đang có thuộc dạng phân bố nào để có cơ sở chọn lựa phép kiểm định thống kê và các model phân tích phía sau được phù hợp với từng dạng dữ liệu thực nghiệm.
Hình full-size (3600 × 2400 px): histogram_frequency.png | histogram_density.png
Dataset minh họa: experiment.xlsx