Simple Wikipedia analyzer is an simple text analyzer to scrap the content of Wikipedia dump XML file, parse and analyze the frequency of every unique word in it.
Time spent: 6 hours spent in total
IDE: Jetbrain IntelliJ
Requirement
Viết chương trình thống kê số lượng bài viết, danh sách duy nhất các chữ và tần suất của chúng
trên toàn bộ tập dữ liệu. Chỉ quan tâm tựa đề và nội dung chính (bài viết chính, không quan tâm
infobox, các đường link,...) của các trang thuộc Không gian tên chính (các trang chứa nội dung
bách khoa, tham khảo tại đây
https://vi.wikipedia.org/wiki/Wikipedia:Kh%C3%B4ng_gian_t%C3%AAn ).
-
Bộ dữ liệu của wikipedia dump có hơn 1 300 000 trang. Vì vậy sinh viên cần chú ý vấn đề tràn bộ nhớ và tối ưu thời gian thực thi
-
Sinh viên có thể Parse dữ liệu bằng 1 thư viện bất kỳ.
-
Kết quả của bài tập phần này là tập tin văn bản <MSSV1_MSSV2>.txt chứa số lượng bài viết,
danh sách duy nhất các chữ và tần suất tương ứng.