Dự án này là một phần của khóa học Big Data tại Samsung Innovation Campus. Mục tiêu của dự án là phân tích và dự đoán giá bất động sản tại Bắc Kinh sử dụng các kỹ thuật Big Data và mô hình Máy Học (Machine Learning).
- Ngày: 14/08/2024
- Tên Nhóm: BD 02
- Thành Viên Nhóm:
- Lê Đông Anh Kiệt (Nhóm trưởng)
- Trần Tuấn Kiệt
- Ngô Văn Lâu
- Ngân Hoàng Huy
- La Hồng Lộc
- Nguyễn Đặng Phú Mẫn
Thị trường bất động sản ngày càng phức tạp, chịu ảnh hưởng bởi nhiều yếu tố như kinh tế vĩ mô, vị trí, và đặc điểm của tài sản. Các phương pháp truyền thống để định giá thường không nắm bắt hết được các yếu tố này. Big Data cho phép chúng ta phân tích một cách toàn diện và cung cấp dự đoán chính xác hơn về xu hướng giá bất động sản.
Dự án sử dụng Big Data để cung cấp các dự đoán giá bất động sản chính xác, thời gian thực, hỗ trợ nhà đầu tư, nhà phát triển và người tiêu dùng đưa ra các quyết định hợp lý hơn.
Tên | Vai Trò |
---|---|
Lê Đông Anh Kiệt | Tiền xử lý dữ liệu, Huấn luyện mô hình |
Trần Tuấn Kiệt | Trực quan hóa dữ liệu, Đánh giá mô hình |
Ngô Văn Lâu | Viết báo cáo, Thu thập dữ liệu |
Ngân Hoàng Huy | Thu thập dữ liệu, Phân tích mô hình |
La Hồng Lộc | Thu thập dữ liệu, Huấn luyện mô hình |
Nguyễn Đặng Phú Mẫn | Trực quan hóa dữ liệu, Viết báo cáo |
Ngày | Nhiệm Vụ |
---|---|
01/06 - 24/06 | Thu thập dữ liệu từ Kaggle và Lianjia |
18/06 - 07/07 | Tiền xử lý và làm sạch dữ liệu |
25/06 - 07/07 | Xây dựng mô hình |
30/06 - 05/08 | Trực quan hóa dữ liệu |
08/07 - 14/08 | Huấn luyện mô hình |
01/08 - 14/08 | Viết báo cáo cuối cùng |
Dự án sử dụng bộ dữ liệu gồm hơn 318,000 giao dịch bất động sản tại Bắc Kinh để dự đoán giá bất động sản bằng các kỹ thuật Máy Học. Bộ dữ liệu bao gồm các thông tin về vị trí, giá cả, đặc điểm tài sản và nhiều thuộc tính khác.
Bộ dữ liệu bao gồm 26 thuộc tính chứa thông tin về vị trí, giá giao dịch và các đặc điểm của bất động sản. Dữ liệu đã được làm sạch và xử lý để sử dụng trong huấn luyện mô hình.
Dữ liệu được đọc bằng Pandas, sử dụng mã hóa GBK
để xử lý các ký tự tiếng Trung.
df = pd.read_csv('rawdata.csv', encoding='gbk', low_memory=False)
Dữ liệu đã được làm sạch bằng cách xử lý các giá trị thiếu, ngoại lệ và những lỗi nhập liệu sai. Biến đổi đặc trưng bao gồm Chuẩn hóa Min-Max và phát hiện ngoại lệ bằng IQR.
Bốn mô hình dự đoán đã được thử nghiệm:
- Hồi Quy Tuyến Tính
- Cây Quyết Định
- Gradient Boosting
- Mạng Nơ-ron Nhân Tạo (ANN)
Dữ liệu được trực quan hóa để khám phá các mẫu và xác thực kết quả mô hình.
sns.histplot(df['totalPrice'], kde=True, log_scale=True)
Dữ liệu được nhập và làm sạch bằng mã sau:
df = pd.read_csv('rawdata.csv', encoding='gbk')
Các giá trị ngoại lệ được loại bỏ bằng IQR:
Q1 = df['totalPrice'].quantile(0.25)
Q3 = df['totalPrice'].quantile(0.75)
IQR = Q3 - Q1
df = df[~((df['totalPrice'] < (Q1 - 1.5 * IQR)) | (df['totalPrice'] > (Q3 + 1.5 * IQR)))]
Mô hình tốt nhất là Random Forest, với sai số MAE, MSE, RMSE thấp nhất và giá trị R² cao nhất.
- Xử Lý Dữ Liệu: Thành công trong việc làm sạch và chuẩn bị một tập dữ liệu lớn.
- Phát Triển Mô Hình: Xây dựng và thử nghiệm nhiều mô hình dự đoán khác nhau.
- Hiểu Biết Từ Dữ Liệu: Cung cấp các dự đoán giá bất động sản chính xác, hỗ trợ quyết định đầu tư và phân tích thị trường.
- Thử nghiệm các thuật toán nâng cao như XGBoost để cải thiện độ chính xác.
- Sử dụng Phân Tích Không Gian Địa Lý để đánh giá ảnh hưởng của vị trí đến giá bất động sản.
- Khám phá việc sử dụng Học Sâu (Deep Learning) để cải thiện kết quả.