HƯỚNG DẪN VẼ ĐỒ THỊ CỘT - PROPORTION BAR CHART

Đồ thị cột đơn là dạng đơn giản nhất mà ta thường hay gặp khi mỗi nhóm được đại diện cho một cột.

Đồ thị cột theo group thường phức tạp hơn một chút khi trong group có nhiều thành phần con. Khi ấy ta có 3 cách biểu diễn khác nhau tùy vào mục tiêu trực quan hóa dữ liệu:

1/ Side-by-side bar chart (các cột đứng cạnh nhau, trong cùng group)

2/ Stacked bar chart (các cột chồng lên nhau), giá trị của đồ thị cột là giá trị thực.

3/ Trường hợp ta thể hiện tỷ lệ phần trăm ở mỗi cột (tỷ lệ giữa các thành phần trong cùng group) thì ta có stacked proportion bar chart, hay gọi tắt là proportion bar chart là đồ thị cột phần trăm, giúp biểu diễn theo tỷ lệ từ 0 đến 1 (hoặc theo phần trăm), làm rõ hơn đóng góp của từng thành phần đối với group trong đó, giúp so sánh giữa các cột/các group với nhau một cách tương đối (không phụ thuộc vào giá trị gốc).

Đồ thị cột khi được biểu diễn theo trục thời gian (như trong trường hợp này là tỷ trọng sản xuất gạo của các quốc gia trên thế giới theo thời gian, với mỗi năm là 1 group với thành phần là các quốc gia sản xuất gạo trong năm đó) thì sẽ mang lại cái nhìn rõ hơn về sự thay đổi/xu hướng của các thành phần ta quan tâm ở cả 2 chiều gồm thời gian (trục x) và tỷ lệ đóng góp theo từng năm giữa các quốc gia (trục y).

Template bar chart này có thể áp dụng cho việc trực quan hóa dữ liệu về biến động các nhóm tuổi trong cơ cấu dân số hay tỷ trọng sản xuất ngành nghề nào đó. Tuy nhiên hạn chế của dạng proportion bar chart là thường không thể hiện giá trị gốc nên có khả năng làm người đọc dễ nhầm lẫn về độ lớn giữa các năm là như nhau. Vì vậy mình đã thêm legend và chú thích ở trục x phía trên về tổng sản lượng theo từng năm để cung cấp đủ thông tin ngay trong cùng 1 đồ thị.

Hy vọng qua bài viết này sẽ truyền cảm hứng đến bạn tự tin áp dụng R để vẽ những đồ thị ngày càng xuất sắc để hỗ trợ biện luận chủ đề trình bày được tốt nhất. Trân trọng.

Để vẽ các đồ thị theo tỷ trọng/cơ cấu giữa các thành phần với nhau thì khâu xử lý dữ liệu, kiểm tra, đối chiếu là rất quan trọng để đảm bảo số liệu không bị sai. Trong dataset của FAOSTAT họ đã tính sẵn 1 biến là [World] cho tổng sản lượng của thế giới, khi mình thực hiện xử lý dữ liệu thì đã áp dụng package tuhocr với function extract_faostat giúp trích xuất nhanh dữ liệu theo từng quốc gia, từ đó ta cộng lại để kiểm chứng xem có trùng khớp với biến [World] của FAOSTAT tính ra hay không.

Thường xuyên double-check trong quá trình xử lý dữ liệu bằng các lệnh subset/summarize trong R giúp bạn nắm vững dữ liệu đang có trong tay, từ đó sẽ tự tin để triển khai các dạng đồ thị phù hợp với yêu cầu đề bài. Chúc các bạn ứng dụng R có hiệu quả vào công việc.

Link package tuhocr bạn download ở đây: https://tuhocr.github.io/