-
Lakukan data scraping dari sebuah laman web untuk memperoleh data atau informasi tertentu TANPA MENGGUNAKAN API. Hasil data scraping ini nantinya akan disimpan dalam RDBMS.
-
Daftarkan judul topik yang akan dijadikan bahan data scraping dan DBMS yang akan digunakan pada spreadsheet berikut: Topik Data Scraping. Usahakan agar tidak ada peserta dengan topik yang sama. Akses edit ke spreadsheet akan ditutup tanggal 1 Juli 2023 pukul 21.40 WIB.
-
Pada folder
Data Scraping
, calon warga basdat harus mengumpulkan file script, json hasil data scraping. FolderData Scraping
terdiri dari foldersrc
,data
danscreenshots
.- Folder
src
berisi file script/kode yang WELL DOCUMENTED dan CLEAN CODE. - Folder
data
berisi file json hasil scraper. - Folder
screenshot
berisi tangkapan layar program.
- Folder
-
Sebagai referensi untuk mengenal data scraping, asisten menyediakan dokumen "Short Guidance To Data Scraping" yang dapat diakses pada link berikut: Data Scraping Guidance. Peserta diharapkan untuk memperhatikan etika dalam melakukan scraping.
-
Data yang diperoleh harus di-preprocessing terlebih dahulu.
Preprocessing contohnya :
- Cleaning
- Parsing
- Transformation
- dan lainnya
-
Dari data scraping yang sudah dilakukan, lakukan pengembangan database dalam bentuk ERD kemudian translasi ERD tersebut menjadi diagram relasional. Tambahkan tabel lain yang sekiranya berkaitan dengan tabel-tabel yang didapatkan dari data scraping yang dilakukan.
-
Implementasikan skema relational diagram tersebut ke RDBMS sesuai pilihan peserta. DBMS No-SQL tidak akan diterima. Jangan lupa implementasikan constraints (primary key, foreign key, dsb) pada database yang dibuat.
-
Masukkan data hasil scraping ke dalam RDBMS yang sudah dibuat. Tambahan tabel pada skema yang dibuat tidak perlu diisi dengan data dummy (cukup dibiarkan kosong).
-
Tools yang digunakan dibebaskan pada peserta.
-
Pada folder
Data Storing
, Calon warga basdat harus mengumpulkan bukti penyimpanan data pada DBMS. FolderData Storing
terdiri dari folderscreenshots
,export
, dandesign
.- Folder
screenshot
berisi tangkapan layar bukti dari penyimpanan data ke RDBMS. - Folder
export
berisi file hasil export dari DBMS dengan format.sql
. - Folder
design
berisi ER Diagram dan diagram relasional yang disimpan dalam format.png
- Folder
Task berikut bersifat tidak wajib (BONUS), boleh dikerjakan sebagian atau seluruhnya.
- Buatlah visualisasi data dalam bentuk dashboard (dari data hasil scraping saja) dan jelaskan apa insights yang didapatkan dari visualisasi data tersebut. Tools untuk melakukan visualisasi data ini dibebaskan pada peserta.
-
Dalam mengerjakan tugas, calon warga basdat terlebih dahulu melakukan fork project github pada link berikut: Seleksi-2023-Tugas-1. Sebelum batas waktu pengumpulan berakhir, calon warga basdat harus sudah melakukan pull request dengan nama
TUGAS_SELEKSI_1_[NIM]
-
Tambahkan juga
.gitignore
pada file atau folder yang tidak perlu di-upload. NB: BINARY TIDAK DIUPLOAD -
Berikan satu buah file
README
yang WELL DOCUMENTED dengan cara override fileREADME.md
ini.README
harus minimal memuat konten :
- Description of the data and DBMS (Why you choose it)
- Specification of the program
- How to use
- JSON Structure
- Database Structure (ERD and relational diagram)
- Explanation of ERD to relational diagram translation process
- Screenshot program (di-upload pada folder screenshots, di-upload file image nya, dan ditampilkan di dalam README)
- Reference (Library used, etc)
- Author
- Deadline pengumpulan tugas 1 adalah 17 Juli 2023 Pukul 22.40 WIB
Happiness does not come from doing easy work
but from the afterglow of satisfaction that
comes after the achievement of a difficult
task that demanded our best.
- Theodore Isaac Rubin