Giới thiệu package tuhocr với chức năng giúp lọc dữ liệu nông sản cây trồng từ FAOSTAT

https://tuhocr.github.io/articles/filter_faostat.html

Trong quá trình hướng dẫn phân tích dữ liệu trên dataset FAOSTAT ở chuyên đề 1+ (trải dài qua 30 video từ làm sạch dữ liệu đến vẽ đồ thị và xây dựng function automate việc lọc data) thì mình có làm function filter_faostat() và extract_faostat() như là kết quả đầu ra của toàn bộ câu chuyện này.

Việc function hóa được workflow xử lý dữ liệu, nén lại trong function và đóng gói trong package giúp tăng khả năng sử dụng lại function đó trong những lần sau, giúp tiết kiệm thời gian cho người dùng, đặc biệt khi 1 function nào đó được phổ biến rộng rãi thì khả năng phát hiện ra bug sẽ càng cao, đây là cơ sở để cho tác giả package tiếp tục cải tiến function tốt hơn nhằm tăng hiệu quả việc trích xuất dữ liệu từ một dataset cụ thể nào đó.

Trên tinh thần này, mình đã làm package tuhocr với các hướng dẫn trích xuất dữ liệu sử dụng 2 function này để chia sẻ với mọi người khi cần lọc nhanh dữ liệu nông sản (cho nhóm cây trồng, hiện tại có 172 item trong dataset FAOSTAT) để vẽ đồ thị hay phân tích thống kê được nhanh chóng.

File full-size:

Các bạn download và sử dụng nhé. Mặc dù mình đã test rất kỹ tuy nhiên vẫn sẽ có sai sót xảy ra, vì vậy bạn liên hệ mình để xử lý các bug nếu có nha. Cảm ơn mọi người rất nhiều.

Để khép lại chuyên đề 1+ Xử lý dữ liệu trên case study FAOSTAT mình đã gom lại các câu chuyện này trong 2 function giúp lọc nhanh dữ liệu, thu được clean dataset giúp vẽ đồ thị được nhanh chóng. Như vậy, nếu bạn muốn biết quốc gia nào sản xuất đậu nành (soya beans) nhiều nhất trên thế giới vào 2 mốc thời gian là năm 2000 và 2021 thì bạn áp dụng đoạn code này để thu được kết quả tương ứng nhé.

> soya_data <- filter_faostat(data_rds = df_1,

+ data_region = df_2,

+ item_filter = "Soya beans",

+ rank_filter = 1:10,

+ year_filter = c(2000, 2021))

Tương tự, nếu bạn cần lọc ra toàn bộ các quốc gia sản xuất gạo trên thế giới thì bạn áp dụng function extract_faostat() với item là "Rice", từ đây bạn sẽ subset tiếp cho các quốc gia liên quan đến chủ đề bạn quan tâm.