Sunday, 12 March 2023

Ekstrak Data dan Normalisasi Data

 Ekstrak Data dan Normalisasi Data


Tulisan kali ini menyampaikan hasil pekerjaan dengan orang asing. Ini adalah pekerjaan pertama yang saya dapatkan dari situs freelancer www.upwork.com. Silahkan teman-teman mencoba disana.

Ekstrak data dan normalisasi adalah istilah-istilah yang sering saya dengan dan sering saya "lakukan". YA, ada quot pada kata lakukan. Artinya saya merasa telah melakukan ekstrak data dan normalisasi. tapi apakah ekstrak dan normalisasi itu sudah benar. Disini lah ujian pertama yang harus saya hadapi secara remote antara +62 dan +1. 

Sejak memasuki dunia data tahun 2015, ekstrak data dan normalisasi adalah hal yang biasa. Data-data yang diperoleh dari API, Web Service maupun CSV/Excel dibaca dengan mudah menggunakan Pentaho, MS Studio dan Talend Open Studio. YA, mereka terdiri dari ratusan ribu baris, tapi mereka sudah terformat dalam struktur. Apakah itu XML, CSV, JSON dan berisikan 1 buah nilai data untuk setiap cell-nya.Sehingga saya yakin dapat melakukannya. 
Bagaimana dengan data dalam bentuk kalimat tanpa struktur???.. Alhasil butuh 1 minggu agar saya dapat paham bagaimana cara ekstrak data. Berikut contoh datanya.



Yang harus anda lakukan adalah memilah dan mengambil kata, huruf dan angka yang memiliki kontribusi terhadap perhitungan. 
Tempatkan setiap temuan anda dalam usulan rencana kolom/field, dan kumpulkan setiap nilai yang ditemukan dalam usulan nilai. Selanjutnya lakukan normalisasi dari setiap nilai/value dan tentukan bentuk widget yang sesuai (single select, multi select)

Contoh data:
Any disputes or missing time must be made to Qualivis within 21 days from the end of the work week (15
days from invoice date). FILL OUT QUALIVIS TIME CORRECTION FORM AND SUBMIT IT TO BILLINGQUESTIONS@QUALIVIS.COM

Hasil Ekstrak:
  1. Qualivis
  2. 21 
  3. 15
  4. billingquestions@qualivis.com
  5. day(s)
Hasil Normalisasi
  1. Angka/Int = 21,15
  2. String = Qualivis
  3. Email = billingquestions@gualivis.com
  4. Variabel = days

Dari pekerjaan diatas akan disusun kedalam dokumen pengembangan sebagai acuan para programmer dan DBA

Title

Data Type

Field Name

Values

Tooltip

Call Off Option

String

Call Off Option

None, Guaranteed, Not Guaranteed, Varied, Facility

 

Call Off Value

Integer

Call Off Value

1,2,3,12, 24…

Represent number of hour, week, shift

Call Off Units

String

Call Off Var

Shift, hours, weeks

This value represent the unit of value

Call Off Statement

String

Call Off Statement

only if unit is closed,

no call off but they reserve the right to float them to get hours

Holiday facility call off

Additional information regarding to call off


Apa yang telah saya kerjaan tidak 100% memuaskan klien di US, tapi mereka dapat menerimanya. 
Ini pengalaman yang sangat berharga. Saat ini saya bisa mengatakan bahwa mampu dalam ekstrak dan normalisasi data dan bukan jagoan kandang. 

#excel
#ETL
#data analyst
#data extraction
#data normalization

No comments:

Post a Comment

JURUS PEMBELAH DATA

Tulisan berikut ini adalah perjalanan penulis membuka data dari sisi pandang data scientist Pemahaman Bisnis Judul: Stroke Prediction Datase...