Data

Data Catalog, Apa itu dan Manfaatnya untuk Perusahaan

Data Catalog telah menjadi komponen penting dalam manajemen data. Organisasi yang berhasil menerapkan data catalog, memperoleh hasil yang signifikan pada kecepatan dan kualitas analisis data.

Sedangkan organisasi yang belum mengimplementasikan data catalog, seringkali bertanya: apa itu data catalog? Mengapa perusahaan membutuhkannya? Dan apa yang dapat dilakukan data catalog tersebut?

Pertanyaan-pertanyaan tersebut akan coba kami jawab dalam artikel ini. Semoga dapat membantu Anda memahami apa itu data catalog dan manfaatnya untuk perusahaan.

Apa itu Data Catalog?

Data Catalog adalah daftar inventaris semua aset data yang dimiliki organisasi. Manajemen data catalog berfungsi untuk mengelola data catalog organisasi secara terpusat agar memudahkan para pengguna data dalam mencari data yang tepat untuk proses bisnis yang sedang dikerjakan (data discovery).

Beberapa aktivitas yang terdapat pada teknologi data catalog antara lain: data management, data searching, data inventory, dan data evaluation. Ditambah dengan kemampuan untuk membentuk dan menyajikan metadata secara otomatis.

Fitur software Data Catalog
Fitur software Data Catalog. Sumber: TechTarget SearchData Management.

Mari kita gunakan analogi sebuah perpustakaan dalam menggambarkan data catalog. Ketika kita datang ke perpustakaan, kita memanfaatkan katalog buku mereka untuk mencari judul dan di rak mana buku tersebut ditempatkan. Semua informasi yang Anda butuhkan terkait buku, ada di katalog tersebut.

Fungsi dari katalog di perpustakaan, dapat dilakukan oleh Database Management System maupun Data Warehouse.

Data Catalog lebih luas daripada itu. Sekarang, bayangkan Anda memiliki katalog yang berisi informasi semua perpustakaan di sebuah negara. Dengan katalog ini Anda dapat mengetahui dimana saja perpustakaan yang memiliki buku yang Anda cari. Inilah Data Catalog.

Sistem data catalog telah menjadi standar untuk kegiatan manajemen metadata di era Big Data dan Self Service Analytics. Kemampuan utama dari teknologi ini adalah cataloging data, yaitu mengumpulkan semua metadata yang tersebar dan menjadikannya terpusat untuk membantu identifikasi data yang dapat diakses para pengguna.

Kegiatan pembuatan katalog data sangat tidak efektif jika dilakukan secara manual. Oleh karena itu teknologi data catalog memungkinkan kegiatan penemuan dataset baru untuk pembangunan katalog dilakukan secara otomatis (automated discovery of datasets). Artificial Intelligence (AI) dan Machine Learning yang diterapkan untuk metadata collection, semantic inference, dan tagging akan sangat menunjang kegiatan otomasi tersebut dan meminimalisasi adanya kegiatan manual.

Aplikasi data catalog dapat diibaratkan seperti aplikasi e-commerce pada umumnya, namun alih-alih menampilkan informasi produk (nama, harga, deskripsi, dsb), aplikasi ini menampilkan informasi terkait penyimpanan datanya (tabel, metadata, business owner, dll).

Data Catalog - Collibra
Contoh software Data Catalog – Collibra

Gambar di atas adalah salah satu contoh software Data Catalog, yaitu Collibra. Dapat kita lihat bahwa data di perusahaan dapat diberi label (tag) untuk memudahkan pencarian dan penyajian kepada pengguna. Pengguna dapat dengan mudah memilih data yang dicari.

Sedangkan gambar di bawah ini, Anda dapat melihat contoh aset data. Selain label, kita dapat mengetahui kualitas data, jumlah baris data, jumlah atribut, sumber data dari sistem apa, dll.

Data Catalog listing
Data Catalog listing – Ataccama

Fitur-fitur Teknologi Data Catalog

Berikut ini adalah beberapa fitur penting dari sebuah teknologi data catalog:

  • Dataset Searching – aplikasi data katalog harus memiliki kemampuan pencarian data berdasar istilah bisnis, kata kunci (tag), atau nama tabel di DBMS. Adanya kemampuan pencarian data berdasar bahasa alami (natural language) akan sangat bermanfaat bagi pengguna non-teknis.  Oleh karena itu fitur ini akan menjadi pembeda antara satu aplikasi dengan aplikasi lainnya.
  • Dataset Evaluation – aktivitas pemilihan dataset untuk dimanfaatkan dalam kegiatan analisis haruslah dapat dilakukan dalam sebuah aplikasi data catalog. Beberapa kegiatan evaluasi tersebut antara lain: melihat preview sebuah dataset, mengetahui semua metadata yang terkait dari suatu dataset, melihat review pengguna lain terhadap suatu dataset, dan melihat kualitas dataset tersebut.
  • Data Access – ketika dataset yang diinginkan telah berhasil ditemukan dan dievaluasi maka pengguna dapat dengan mudah mengakses data tersebut tanpa banyak terlibat dalam hal-hal teknis. Aplikasi data catalog juga harus dapat menjamin keamanan, privasi, dan perlindungan akan data yang dapat diakses pengguna, baik yang bersifat publik, terbatas, maupun rahasia.

Manfaat Teknologi Data Catalog

Proses analisis data dengan Data Catalog
Proses analisis data tanpa dan dengan Data Catalog. Sumber: Atalion.

Ilustrasi di atas menunjukkan rangkaian kegiatan yang dilakukan dalam pemanfaatan data saat organisasi tidak memiliki dokumentasi yang memadai dan hanya mengandalkan pengetahuan pegawai. Ada banyak kegiatan yang harus dilakukan berulang-ulang, karena tidak ada metadata yang jelas (trial and error) sehingga pekerjaan menjadi tidak efektif dan efisien.

Dengan adanya teknologi data catalog dalam organisasi, maka rangkaian kegiatan analisis yang dimulai dari menemukan data kemudian mengevaluasinya sampai melakukan analisis dapat dilakukan dengan cepat dan efisien. Selain itu hasil analisis yang dilakukan memiliki tingkat keyakinan yang lebih tinggi.

Kesimpulan

Mengelola data di era big data, data lake, dan self-service analytics adalah aktivitas yang penuh tantangan. Data Catalog adalah salah satu solusi untuk mengatasi tantangan-tantangan tersebut. Data Catalog membuat manajemen data lebih cepat dan mudah dilakukan.

Published by Rosalina Paramita

Seorang penggiat data. Berpengalaman dalam manajemen data, data warehouse, dan data analytics sejak tahun 2010.

Leave a Reply

Your email address will not be published.