Một dự án học máy toàn diện trên bộ dữ liệu thời tiết (Weather Dataset), bao gồm:
- Phân cụm dữ liệu: Sử dụng thuật toán K-Means để chia dữ liệu thành 7 cụm
- Phân loại dữ liệu: Áp dụng hơn 10 phương pháp học máy để phân loại:
- SVC (Support Vector Classifier)
- Naive Bayes (Multinomial & Gaussian)
- Logistic Regression
- K-Nearest Neighbors
- Decision Tree
- Neural Networks (MLP)
- Ensemble Methods:
- Random Forest
- AdaBoost
- Bagging
- Voting Classifier
- Deep Neural Network (Keras)
- File weathers.csv chứa dữ liệu thời tiết từ năm 2015–2021 (2.430 bản ghi)
- Các đặc trưng: nhiệt độ, độ ẩm, tốc độ gió, áp suất, lượng mưa, v.v.
- Có biểu đồ thống kê so sánh hiệu suất các phương pháp
- Deep Neural Network đạt độ chính xác 94.74% trên tập test
- Các chỉ số Precision, Recall, F1-Score được tính toán chi tiết
- Ngôn ngữ: Python
- Thư viện: TensorFlow/Keras, Scikit-learn, Pandas, NumPy, Matplotlib, Seaborn
- Định dạng: Jupyter Notebook (main.ipynb)