Web Science W03 - Simple Wikipedia analyzer

Simple Wikipedia analyzer is an simple text analyzer to scrap the content of Wikipedia dump XML file, parse and analyze the frequency of every unique word in it.

Time spent: 6 hours spent in total

IDE: Jetbrain IntelliJ

Requirement

Viết chương trình thống kê số lượng bài viết, danh sách duy nhất các chữ và tần suất của chúng

trên toàn bộ tập dữ liệu. Chỉ quan tâm tựa đề và nội dung chính (bài viết chính, không quan tâm

infobox, các đường link,...) của các trang thuộc Không gian tên chính (các trang chứa nội dung

bách khoa, tham khảo tại đây

https://vi.wikipedia.org/wiki/Wikipedia:Kh%C3%B4ng_gian_t%C3%AAn ).

Bộ dữ liệu của wikipedia dump có hơn 1 300 000 trang. Vì vậy sinh viên cần chú ý vấn đề tràn bộ nhớ và tối ưu thời gian thực thi
Sinh viên có thể Parse dữ liệu bằng 1 thư viện bất kỳ.
Kết quả của bài tập phần này là tập tin văn bản <MSSV1_MSSV2>.txt chứa số lượng bài viết,

danh sách duy nhất các chữ và tần suất tương ứng.

Name		Name	Last commit message	Last commit date
Latest commit History 9 Commits
.idea		.idea
src/com		src/com
.gitattributes		.gitattributes
.gitignore		.gitignore
1412363_1412477.txt		1412363_1412477.txt
New Text Document.txt		New Text Document.txt
README.md		README.md
test.xml		test.xml

Provide feedback

Saved searches

Use saved searches to filter your results more quickly

Repository files navigation

Web Science W03 - Simple Wikipedia analyzer

About

Releases

Packages

Contributors 2

Languages

HCMUSAssignmentWarehouse/wikipedia-analyzer-ws

Folders and files

Latest commit

History

Repository files navigation

Web Science W03 - Simple Wikipedia analyzer

About

Topics

Resources

Stars

Watchers

Forks

Releases

Packages 0

Contributors 2

Languages

Packages