Pengertian Enterprise Data Warehouse (EDW) dan Big Data
EDW (atau Enterprise Data Warehouse) adalah sebuah sistem yang berisikan kumpulan data yang berorientasi subyek, non-volatile, terintegrasi, dan memiliki dimensi waktu, yang digunakan dalam mendukung proses pengambilan keputusan. Secara garis besar, teknologi EDW merupakan teknologi yang mengintegrasikan/ mengkonsolidasikan data dari berbagai sumber internal dan eksternal, mengelola data dengan memberikan realibilitas dan kepercayaan terhadap data, dan memungkinkan pelaporan dan proses analisis [1]. EDW bertujuan menyediakan “satu versi kebenaran tunggal” yang dikumpulkan dari integrasi berbagai sumber referensi data dalam perusahaan [2].
Adapun, Big Data adalah sebuah sistem dengan kemampuan pemrosesan yang bervolume yang sangat besar, memiliki tipe dan sifat data yang bervariasi, yang boleh jadi dihasilkan dengan sistem berkecepatan tinggi, untuk menghasilkan berbagai analisis komputasi dari basic hingga yang tidak dapat diproses dengan aplikasi pemrosesan data tradisional sama lain [5]. Karena karakteristik-karakteristik ini, teknologi Big Data merupakan teknologi yang mampu menyimpan dan memproses sejumlah besar data terstruktur dan tidak terstruktur dalam perangkat-perangkat komputasi yang relatif tidak mahal. Big Data bertujuan untuk menemukan pola-pola atau korelasi yang tersembunyi dalam sejumlah besar data dengan efisien dan relatif cepat [4].
Mungkinkah Enterprise Data Warehouse (EDW) dan Big Data Tidak Saling Replaceable?
Ada beberapa pendapat mengenai kompatibilitas antara EDW dengan Big Data. Salah satu pendapat menyatakan bahwa EDW dan Big Data tidak akan saling replaceable, karena keduanya menjalankan fungsi yang berbeda. Dalam survey oleh Dimensinoal Research terhadap pihak profesional data pada tahun 2017, 64% responden mengatakan bahwa (Big Data) Hadoop dan data warehouse akan saling melengkapi satu sama lain [5].
Pendapat yang serupa juga dikemukakan oleh Bill Inmon, “bapak” data warehouse (yang pertama kali memperkenalkan istilah data warehouse). Dalam tulisannya [2] beliau menyatakan bahwa Big Data dibutuhkan perusahaan untuk menemukan informasi baru yang berharga dari kumpulan data, yang dapat memberikan arahan pengambilan keputusan yang lebih baik, yang kemudian akan memberikan revenue, profit, dan pelanggan yang lebih baik. Sementara itu, data warehouse dibutuhkan bagi pembuat keputusan untuk mengambil keputusan yang berbasis pada fakta tunggal yang reliabel, terpercaya, dan dapat diakses oleh semua pihak yang berkepentingan.
Dalam hal ini, Big Data adalah alat; dan data warehouse merupakan metode pengorganisasian data yang dapat memastikan realibilitas data. Sehingga, selama sebuah perusahaan membutuhkan sumber data yang reliabel, terpercaya, dan mudah diakses dalam hal pengambilan keputusan, perusahaan tersebut membutuhkan data warehouse. Ada atau tidaknya analisis Big Data untuk mengarahkan pengambilan keputusan tidak berkorelasi dengan ada atau tidaknya data warehouse.
Adapun yang menjadi pertanyaan dengan adanya perkembangan teknologi Big Data saat ini adalah haruskah data warehouse dibangun dengan EDW proprietary? Ataukah dapat dibangun dengan commodity hardware terintegrasi dengan sistem Big Data?
Mungkinkah Teknologi Big Data dapat Menggantikan Teknologi EDW Proprietary?
Tidak dapat dipungkiri bahwa teknologi data warehouse tradisional tidak mampu menghadapi peningkatan jumlah, variasi dan kecepatan data di masa yang akan datang. Bahkan saat ini 92% query di data warehouse baru mencakup 20% data yang ada di perusahaan [5]. Menurut survey TDWI, volume data yang perlu diproses oleh data warehouse milik 20% responden saat ini telah mencapai 10-100 TB [5].
Selain itu, meskipun data-data eksotis (real time data, social media, web logs, IoT, dll) belum banyak dikelola dalam EDW responden pada saat ini, dalam waktu 3 tahun kedepan terdapat peningkatan penggunaan data-data eksotis yang dikumpulkan dan digunakan oleh responden [5].
Data warehouse tradisional, yang umumnya dibangun menggunakan teknologi database relasional (RDBMS), membutuhkan data dimodelkan sejak awal data warehouse dibangun; struktur dan definisi output, formula-formula, dan sumber data perlu dibuat standar yang jelas, lengkap dengan deskripsi konten dan parameter yang dikeluarkan dan dibutuhkan (schema-on-write).
Ketika hal-hal ini tidak dilakukan dengan baik, data warehouse dapat mengalami kegagalan karena adanya fungsi dan kapabilitas yang tidak diimplementasikan, kinerja tidak dapat diterima, dan availibilitas serta kualitas laporan yang buruk, sehingga pengguna tidak dipuaskan dan tidak ada manfaat yang dirasakan [5].
Selain itu, teknologi database relasional secara inheren memiliki keterbatasan dalam hal ekpansi; perubahan requirement pada output atau input yang mengubah skema data akan sulit diterapkan, sulit direkonfigurasi, sementara biaya yang dibutuhkan untuk penambahan kapasitas komputasi ikut meningkat dengan tajam seiring bertambahnya data yang perlu dikelola.
Teknologi-teknologi Big Data memungkinkan tantangan-tantangan diatas dihadapi, salah satunya menggunakan data lake. Data lake merupakan metode penyimpanan data yang dengan menyimpan data dalam format aslinya, tanpa membutukan pendefinisian skema data di awal, dan didesain untuk menggunakan media penyimpanan yang relatif murah. Data lake juga fleksibel dalam hal rekonfigurasi dan baru membutuhkan skema data ketika data akan digunakan sesuai keperluan (schema-on-read).
Jika pun Big Data harus mampu menjadi EDW yang mempunyai fungsi dasar Extract-Transfer-Load dan mempunyai kemampuan untuk menyimpan satu versi data yang dianggap “paling benar” bagi perusahaan sepertinya bukan hal yang tidak mungkin untuk dilakukan oleh Big Data.
Hal ini sesuai dengan survey yang dilakukan TDWI.org yang menanyakan bagaimana peran Hadoop dalam EDW saat ini dan 3 tahun ke depan. Ternyata dalam survey tersebut ditunjukkan telah ada 16% responden yang menjawab bahwa saat ini Hadoop telah berperan sebagai DW utama di perusahaan mereka.
Bagimana hal ini dapat dilakukan, berikut ini adalah salah satu alternatif blok diagram yang mungkin untuk diimplementasikan dimana Big Data sekaligus berperan sebagai EDW maupun Data Discovery (Big Data Analytics)
Gambar 4: Arsitektur Hadoop sebagai EDW dan Big Data Analytics System
Kesimpulan
Secara mainstream saat ini, EDW dan Big Data tidak akan saling replaceable, setidaknya hingga 2-3 tahun ke depan. EDW dianggap sebagai the truthiest of data for company; adapun Big Data adalah the discovery of data for company.
Dengan demikian alternatif solusi, yang mungkin ditawarkan adalah sebagai berikut: [5].
1. Bagi perusahaan yang telah memiliki EDW, jika ingin mengembangkan Big Data, dapat melakukan modernisasi EDW yang dimiliki yaitu deengan menambah kemampuan EDW dengan Big Data System untuk menghandle discovery dan data-data unstructured.
2. Adapun untuk perusahaan yang belum memiliki EDW, disarankan dapat mengkaji implementasi Big Data sekaligus dengan kemampuan sebagai EDW, untuk dihasilkan the truthiest of data dan discovery.
References
[1] J. Caserta and E. Cordo, “Data Warehousing in the Era of Big Data,” 19 January 2016. [Online]. Available: http://www.dbta.com/BigDataQuarterly/Articles/Data-Warehousing-in-the-Era-of-Big-Data-108590.aspx.
[2] B. Inmon, “Big Data Implementation vs. Data Warehousing,” 7 November 2013. [Online]. Available: http://www.b-eye-network.com/view/17017.
[3] M. Hilbert, “Big Data for Development: A Review of Promises and Challenges,” [Online]. Available: http://www.martinhilbert.net/big-data-for-development/.
[4] “Big Data Analytics: What it is and why it matters,” [Online]. Available: https://www.sas.com/en_us/insights/analytics/big-data-analytics.html.
[5] Sharing Vision, “Big Data dan EDW Trend 2017 and Success Stories,” 2017.