Membuat Dataset sendiri pada Bigquery Google
Menggunakan Data Banjir 10 Tahun Kota Pekalongan
Tulisan ini terprovokasi oleh salah satu perusahaan yang mensyaratkan kemampuan BigQuery Google. Penulis pun mulai mencari apa itu Bigquery. Pada dokumentasi google, Bigquery adalah data warehouse enterprise berbasis cloud dengan biaya efektif dan tanpa server. Dibangun lengkap dengan Machine Learning (ML) dan Bisnis Intelejen (BI). Demo video yang dibawakan oleh Lisa Google sangat menyenang, membayangkan mudahnya membuat visual dan insight. Sehingga penulis pun tertarik untuk mencoba.
Google menawarkan sandbox untuk mencoba Bigquery tanpa harus mendaftar kartu kredit, solusi yang cerdas.
https://console.cloud.google.com/bigquery
Note: please comment kalau ada bisa tanpa CC atau DC
Selanjutnya Anda akan diminta mengaktifkan (enable) fitur Bigquery console/API.
Sebagai pendatang baru pada dunia Bigquery, penulis akan mengikuti langkah-langkah pemula membuat query pada BQ. Google menyebutnya sebagai Query a public dataset with the Google Cloud console
Setelah anda memasuki jendala seperti diatas, google akan menyarankan langkah berikutnya, yaitu:
In the Type to search field, enter bigquery-public-data to check whether the public project is starred to the Explorer pane.
Hasilnya 0 found
It's ok, jangan panik, Google menyarankan untuk mencari tabel yang ada pada dataset bigquery-public-data. Contohnya adalah austin_311 or gsod, and then click Broaden search to all projects. Hasilnya sebagai berikut.
Pada bagian Explore akan tampil dataset Bigquery-public-data beserta tabel-tabel didalamnya. Anda harus mengaktifkan bintang pada dataset tersebut, sebagai tanda dataset yang akan digunakan selama proses query. Pilih Open lewat menu 3 titik disamping dataset tersebut untuk melihat detail data dan kolom-kolomnya.
Saatnya mencoba query, pada bagian editor tuliskan perintah berikut ini:
SELECT
name, gender,
SUM(number) AS total
FROM
`bigquery-public-data.usa_names.usa_1910_2013`
GROUP BY
name, gender
ORDER BY
total DESC
LIMIT
10
Query Per Minute dapat dilihat pada tab Job Information
Sungguh menakjubkan tidak sampai 1 detik, query tersebut dieksekusi oleh Bigquery Google.Selanjutnya penulis akan mencoba membuat data set sendiri. Menggunakan MyProject > silver-harmony, jalankan perintah create dataset melalui menu titik tiga.
Saya berikan nama 10years_pekalongan dimana Dataset tersebut akan menampung 10 tahun rekam data debit aliran sungai di kota pekalongan. Sesuai dengan petunjuk dari google, kita harus mengaktifkan tanda bintang pada dataset 10years_pekalongan.
Melalui menu tiga titik, jalankan perintah open untuk membuka database 10years_pekalongan. Kemudian pada bagian editor pilih menu create tabel. Akan menampilkan formulir seperti dibawah ini.
Penulis berharap google dapat langsung mengambil data dari web service. Tapi Google tidak memberikan pilihan tersebut. Asumsi penulis adalah google menginginkan sumber data yang clear & clean.
Mengisi seluruh isian formulir, Saya menggunakan file format csv dengan autodect skema. Lanjut dengan eksekusi perintah create table, google akan menampilan informasi proses telah selesai.
Go to table dan Open
Menyenangkan, kolom-kolom dapat terdeksi secara otomatis. Tab Preview dapat Anda gunakan untuk melihat isi dari suatu tabel. Mari, kita lihat isi dari data banjir 10 tahun Kota Pekalongan. Hasilnya...
Berantakan...
3 row pertama adalah atribute dari data. Konten data dimula dari baris ke 4. Tentunya ini harus diseting terlebih dahulu. Formulir create table memberikan pilihan yang baik untuk antisipasi data-data kosong yang akan di perlukan sebagai null.
Saat Anda merubah source file, sandbox tidak serta mendeteksinya. Jika dipaksakan hanya akan memberikan loading time tanpa ujung. Merefresh uploaded file juga tidak ada gunanya, sehingga tabel yang sudah di buat harus dihapus dan mengulang proses create table dari awal.
Saat anda cretae tabel pada seksi advance ada pilihan berapa row yang harus dilewati, saya pilih tiga baris. Artinya anda harus mengetahui skema dan metadata source data sebelum diupload pada Bigquery. (ingat clean & clear)
Hasil perubahan seting create table dengan opsi autodect field adalah sebagai berikut:
Fitur pengenalan otomatis sandbox tetap tidak mengenali kolom yg ada pada file. Sehingga hanya menuliskan string_field_0 dan string_field_1. Oleh karena itu penulis menempuh cara manual, yang mana memang disarankan dalam demo dari google :-)
Menggunakan perintah teks seperti dibawah ini
time:date,river_discharge:float,f3:string,f4:string,f5:string,f6:string
Masih keluar error karena bigquery tidak mengenali date dan double as float dari file sumber, harus diganti menjadi string. Akhirnya setelah 3 kali mengulang proses create data, tampilan tabel bisa sesuai dengan keinginan penulis.
Secara keseluruhan penilaian penulis adalah tidak memuaskan membuat data set sendiri menggunakan BigQuery. Harapan untuk dapat melakukan visualisasi sekejap seperti pada video demi juga tidak dapat terwujud karena google langsung mengaktifkan tagihan saat menguji menu BI.
#google #bigquery #datavisualization