Skip to content

HCMUSAssignmentWarehouse/wikipedia-analyzer-ws

Repository files navigation

Web Science W03 - Simple Wikipedia analyzer

Simple Wikipedia analyzer is an simple text analyzer to scrap the content of Wikipedia dump XML file, parse and analyze the frequency of every unique word in it.

Time spent: 6 hours spent in total

IDE: Jetbrain IntelliJ

Requirement

Viết chương trình thống kê số lượng bài viết, danh sách duy nhất các chữ và tần suất của chúng

trên toàn bộ tập dữ liệu. Chỉ quan tâm tựa đề và nội dung chính (bài viết chính, không quan tâm

infobox, các đường link,...) của các trang thuộc Không gian tên chính (các trang chứa nội dung

bách khoa, tham khảo tại đây

https://vi.wikipedia.org/wiki/Wikipedia:Kh%C3%B4ng_gian_t%C3%AAn ).

  • Bộ dữ liệu của wikipedia dump có hơn 1 300 000 trang. Vì vậy sinh viên cần chú ý vấn đề tràn bộ nhớ và tối ưu thời gian thực thi

  • Sinh viên có thể Parse dữ liệu bằng 1 thư viện bất kỳ.

  • Kết quả của bài tập phần này là tập tin văn bản <MSSV1_MSSV2>.txt chứa số lượng bài viết,

danh sách duy nhất các chữ và tần suất tương ứng.

About

No description or website provided.

Topics

Resources

Stars

Watchers

Forks

Releases

No releases published

Packages

No packages published