Maret 2, 2024

Proses ETL (Extract Transform Load) Jaman Lalu Tidak Semudah Sekarang

pentho etl with kettle

Extract Transfrom Load atau dikenal dengan singkatan ETL sangat dikenal di awal 2000an. ETL, seperti termuat pada namanya, berfungsi untuk mengekstrak data, mentransformasikan data, dan memuatkan data. Biasanya digunakan untuk memindahkan data dari satu sumber ke bentuk lain, atau menggabungkan database dari platform yang berbeda ke bentuk yang akan digunakan.

Sebagai ilustrasi, di sebuah organisasi terdapat sejumlah database yang dikembangkan oleh masing-masing unit. Misal unit A mengembangkannya dengan platform MS-SQL server, unit B menggunakan PostgreSQL, unit C pakai Mysql, lalu ada sejumlah unit yang masih menggunakan MS-access atau MS-Excel. Lalu pimpinan ingin mengkonsolidasikan semua database ini dan ingin ditampilkan dalam bentuk dashboard, sehingga pimpinan bisa mengambil keputusan berdasarkan informasi terkini.

Pada kasus tersebut diatas, cara yang paling memungkinkan adalah dengan menggunakan teknologi ETL ini. Misalkan dashboard akan disusun menggunakan database Oracle. Maka perlu ada semacam proses, agar data-data dari berbagai platform ini berpindah, atau tersalin ke database Oracle tersebut.

Perangkat ETL

Ada sejumlah perangkat ETL yang bisa digunakan saat ini. Salah satunya adalah ETL dari SAS, yaitu SAS-DI, atau SAS Data Integrator. Sedangkan perangkat ETL lainnya, dan bisa dianggap yang paling murah, adalah ETL dari Pentaho, yaitu Kettle.

Cara kerjanya mirip. Keduanya menggunakan icon-icon yang bisa dirangkai membentuk urutan proses dari ETL itu sendiri.

Perangkat data analisis jaman sekarang sudah lebih lengkap. Power BI misalnya sudah memiliki fitur koneksi ke berbagai platform sumber data. Sehingga proses ETL sudah bisa dihandle di level perangkat visualisasi, tidak lagi harus menggunakan sistem ETL terpisah.

Penjadwalan ETL

Salah satu hal penting lainnya dari ETL adalah penjadwalan kapan proses ini akan dilangsungkan. Jadi ada semacam scheduler yang akan menjalankan proses ETL ini pada waktu-waktu tertentu yang diatur. Misalkan, ETL akan dilakukan setiap jam 10 pagi dan jam 10 malam. Sehingga bila data dilihat pada jam 2 siang, nilai yang ditampilkan di dashboard adalah hasil proses perhitungan pada jam 10 pagi dan belum dilakukan update data.

Pengalaman ber-ETL

Pada skala yang sangat besar, proses ETL tidak mudah dilakukan. Pada umumnya kesulitan yang terjadi adalah proses cleansing datanya. Hal ini bisa terjadi saat unit-unit yang terlibat tidak menggunakan kriteria yang sama dalam penetapan sebuah kategori. Belum lagi bila ternyata informasi yang dibutuhkan belum tersedia di unit-unit tersebut.

Bila tertarik dengan proses data analisis, termasuk proses ETLnya, silahkan kontak The Codanalyst.