Wednesday, 5 June 2024

JURUS PEMBELAH DATA

Tulisan berikut ini adalah perjalanan penulis membuka data dari sisi pandang data scientist

Pemahaman Bisnis

Judul: Stroke Prediction Dataset

Kolom: id, gender, age, hypertension, heart_disease, ever_married, work_type, Residence_type, avg_glucose_level, bmi, smoking_status, stroke.

Tujuan: analisa dan indentifikasi stroke berdasarkan 10 variabel diatas.

Pemahaman Data

Data set terdiri dari 10 feature dan 1 target. Feature terbagi atas feature kunci dan feature demografi, dengan dimensi 5110x12.  

print("Dataset Length: ", len(dataFrame))
print("Dataset Shape: ", dataFrame.shape)
print("Dataset: ", dataFrame.head())


Data Shape

Selanjutnya statistik dasar dari data set yg dimiliki
Basic Statistic



Tentukan kolom mana yang akan menjadi variabel dan target. sebagai contoh, data stroke, tentunya yang menjadi target adalam kolom stroke (stroke<1> atau tidak stroke<0>).

Ketahui jenis data dengan perintah dataFrame.dtype(), kenali nilai unik pada setiap kolom , menggunakan dataFrame.nunique(). Menjadi perhatian bahwa kolom gender dapat berisikan lebih dari 2 nilai unik.

Lacak nilai null atau NaN dari data yang anda miliki, dengan menjalankan perintah dataFrame.isna(),sum().

Bersihkan NaN dengan memakai langkah eliminasi atau imputasi. imputasi terdiri dari beberapa teknik seperti:

1. Imputasi mean/median/mode.
2. Imputasi regresi
3. Imputasi hot/cold deck
4. Imputasi multiple imputation

Imputasi mean/median/mode adalah imputasi tercepat untuk membersihkan NaN. Target imputasi  adalah output dari perinah dataFrame.isna().sum() memberikan nilai 0.

Langkah tambahan adalah mengelompokan nilai-nilai, seperti umur, pendidikan ataupun pekerjaan. Hal ini akan memudahkan proses klasifikasi dan prediksi. Jika sebagian besar sampling memiliki rentang umur sampai 80 tahun, maka 1 buah sampling dengan usia 100 akan mengganggu analisa. sehingga perlu dikelompokan dalam kategori usia lanjut (60-100).

Klasifikasi KNN, SVM, Decision Tree dan Regresi Linier tidak dapat membaca nilai huruf (laki-laki/perempuan). Untuk mengatasi ini anda perlu melakukan encode terhadap nilai-nilai tersebut. 

Proses encode akan merubah karakter menjadi interger, laki-laki = 1. perempuan = 2 atau anak-anak = 1, remaja =2 dan seterusnya.


No comments:

Post a Comment

JURUS PEMBELAH DATA

Tulisan berikut ini adalah perjalanan penulis membuka data dari sisi pandang data scientist Pemahaman Bisnis Judul: Stroke Prediction Datase...