Tulisan berikut ini adalah perjalanan penulis membuka data dari sisi pandang data scientist
Pemahaman Bisnis
Judul: Stroke Prediction Dataset
Kolom: id, gender, age, hypertension, heart_disease, ever_married, work_type, Residence_type, avg_glucose_level, bmi, smoking_status, stroke.
Tujuan: analisa dan indentifikasi stroke berdasarkan 10 variabel diatas.
Pemahaman Data
Data set terdiri dari 10 feature dan 1 target. Feature terbagi atas feature kunci dan feature demografi, dengan dimensi 5110x12.
print("Dataset Length: ", len(dataFrame))
print("Dataset Shape: ", dataFrame.shape)
print("Dataset: ", dataFrame.head())
Tentukan kolom mana yang akan menjadi variabel dan target. sebagai contoh, data stroke, tentunya yang menjadi target adalam kolom stroke (stroke<1> atau tidak stroke<0>).
Ketahui jenis data dengan perintah dataFrame.dtype(), kenali nilai unik pada setiap kolom , menggunakan dataFrame.nunique(). Menjadi perhatian bahwa kolom gender dapat berisikan lebih dari 2 nilai unik.
Lacak nilai null atau NaN dari data yang anda miliki, dengan menjalankan perintah dataFrame.isna(),sum().
Bersihkan NaN dengan memakai langkah eliminasi atau imputasi. imputasi terdiri dari beberapa teknik seperti:
1. Imputasi mean/median/mode.
2. Imputasi regresi
3. Imputasi hot/cold deck
4. Imputasi multiple imputation
Imputasi mean/median/mode adalah imputasi tercepat untuk membersihkan NaN. Target imputasi adalah output dari perinah dataFrame.isna().sum() memberikan nilai 0.
Langkah tambahan adalah mengelompokan nilai-nilai, seperti umur, pendidikan ataupun pekerjaan. Hal ini akan memudahkan proses klasifikasi dan prediksi. Jika sebagian besar sampling memiliki rentang umur sampai 80 tahun, maka 1 buah sampling dengan usia 100 akan mengganggu analisa. sehingga perlu dikelompokan dalam kategori usia lanjut (60-100).
Klasifikasi KNN, SVM, Decision Tree dan Regresi Linier tidak dapat membaca nilai huruf (laki-laki/perempuan). Untuk mengatasi ini anda perlu melakukan encode terhadap nilai-nilai tersebut.
Proses encode akan merubah karakter menjadi interger, laki-laki = 1. perempuan = 2 atau anak-anak = 1, remaja =2 dan seterusnya.
No comments:
Post a Comment