Ekstrak Data dan Normalisasi Data
Tulisan kali ini menyampaikan hasil pekerjaan dengan orang asing. Ini adalah pekerjaan pertama yang saya dapatkan dari situs freelancer www.upwork.com. Silahkan teman-teman mencoba disana.
Ekstrak data dan normalisasi adalah istilah-istilah yang sering saya dengan dan sering saya "lakukan". YA, ada quot pada kata lakukan. Artinya saya merasa telah melakukan ekstrak data dan normalisasi. tapi apakah ekstrak dan normalisasi itu sudah benar. Disini lah ujian pertama yang harus saya hadapi secara remote antara +62 dan +1.
Sejak memasuki dunia data tahun 2015, ekstrak data dan normalisasi adalah hal yang biasa. Data-data yang diperoleh dari API, Web Service maupun CSV/Excel dibaca dengan mudah menggunakan Pentaho, MS Studio dan Talend Open Studio. YA, mereka terdiri dari ratusan ribu baris, tapi mereka sudah terformat dalam struktur. Apakah itu XML, CSV, JSON dan berisikan 1 buah nilai data untuk setiap cell-nya.Sehingga saya yakin dapat melakukannya.
Bagaimana dengan data dalam bentuk kalimat tanpa struktur???.. Alhasil butuh 1 minggu agar saya dapat paham bagaimana cara ekstrak data. Berikut contoh datanya.
Tempatkan setiap temuan anda dalam usulan rencana kolom/field, dan kumpulkan setiap nilai yang ditemukan dalam usulan nilai. Selanjutnya lakukan normalisasi dari setiap nilai/value dan tentukan bentuk widget yang sesuai (single select, multi select)
Contoh data:
Any disputes or missing time must be made to Qualivis within 21 days from the end of the work week (15
days from invoice date). FILL OUT QUALIVIS TIME CORRECTION FORM AND SUBMIT IT TO BILLINGQUESTIONS@QUALIVIS.COM
Hasil Ekstrak:
- Qualivis
- 21
- 15
- billingquestions@qualivis.com
- day(s)
Hasil Normalisasi
- Angka/Int = 21,15
- String = Qualivis
- Email = billingquestions@gualivis.com
- Variabel = days
Dari pekerjaan diatas akan disusun kedalam dokumen pengembangan sebagai acuan para programmer dan DBA
Title | Data Type | Field Name | Values | Tooltip |
Call Off Option | String | Call Off Option | None, Guaranteed, Not Guaranteed, Varied, Facility |
|
Call Off Value | Integer | Call Off Value | 1,2,3,12, 24… | Represent number of hour, week, shift |
Call Off Units | String | Call Off Var | Shift, hours, weeks | This value represent the unit of value |
Call Off Statement | String | Call Off Statement | l only if unit is closed, l no call off but they reserve the right to float them to get hours l Holiday facility call off | Additional information regarding to call off |
Apa yang telah saya kerjaan tidak 100% memuaskan klien di US, tapi mereka dapat menerimanya.
Ini pengalaman yang sangat berharga. Saat ini saya bisa mengatakan bahwa mampu dalam ekstrak dan normalisasi data dan bukan jagoan kandang.
#excel
#ETL
#data analyst
#data extraction
#data normalization
No comments:
Post a Comment