Sejarah Deduplikasi Data

Data deduplication telah ada, setidaknya dalam bentuknya yang paling primitif, sejak tahun 1970-an. Awalnya dimulai karena perusahaan ingin menyimpan informasi kontak pelanggan dalam jumlah besar tanpa menggunakan sejumlah besar ruang penyimpanan. Salah satu ide pertama adalah melalui dan menghapus data duplikat. Misalnya, perusahaan mungkin memiliki alamat untuk pengiriman, dan alamat untuk penagihan ke pelanggan tertentu. Dalam kasus ini, alamat-alamat yang identik itu akan digabungkan menjadi satu file. Ini dilakukan oleh petugas entri data yang akan meninjau data baris demi baris dan menyingkirkan duplikat.

Tentu saja, jumlah personel yang dibutuhkan untuk melakukan ini sangat luas dan butuh waktu sangat lama. Terkadang, proses deduplikasi data akan memakan waktu berbulan-bulan untuk diselesaikan. Namun, mengingat sebagian besar ini terjadi pada hard copy, itu bukan masalah besar. Masalah besar cam bersama ketika penggunaan komputer menjadi luas di lingkungan kantor.

Dengan komputer yang digunakan secara luas dan ledakan internet, jumlah data yang tersedia juga meledak. Sistem pencadangan dibuat untuk memastikan bahwa perusahaan tidak akan kehilangan semua data mereka. Seiring waktu berlalu, floppy disk dan perangkat keras eksternal lainnya digunakan untuk menyimpan data ini. Sayangnya, data ini akan segera mengisi cakram-cakram ini dan jumlah ruang untuk menyimpan data ini sangat luas.

Dengan penyimpanan cloud dan opsi penyimpanan alternatif lainnya, perusahaan mulai memindahkan penyimpanan mereka ke lingkungan virtual. Mereka juga pindah ke penyimpanan berbasis disk berbasis pita, hanya karena harganya murah dan membutuhkan lebih sedikit ruang. Namun, opsi penyimpanan ini mahal dan sulit dikelola karena data terus bertambah. Data yang sama akan disimpan berulang kali. Data yang berlebihan ini tidak diperlukan dan mengambil ruang penyimpanan yang berharga.

Perusahaan mungkin telah menyesuaikan rencana cadangan mereka untuk menghilangkan duplikasi, tetapi tidak ada cara cepat untuk melakukan ini. Saat itulah para profesional TI mulai bekerja pada algoritma untuk mengotomatisasi proses deduplikasi data. Mereka umumnya melakukan ini berdasarkan kasus per kasus, dengan tujuan mereka untuk mengoptimalkan file cadangan mereka sendiri. Algoritme mereka akan disesuaikan untuk memenuhi kebutuhan individu mereka sendiri.

Tidak ada satu pun perusahaan yang muncul dengan ide deduplikasi data. Sebaliknya, kebutuhan untuk menemukan cara untuk mengurangi file duplikat adalah kebutuhan umum di industri. Ada banyak ilmuwan komputer yang memajukan teknologi deduplikasi data secara signifikan, tetapi tidak ada satu pun ilmuwan yang bertanggung jawab sepenuhnya. Sementara banyak yang mengklaim kredit untuk istilah 'deduplikasi data' itu sendiri, tidak ada orang yang dapat mengklaim kredit untuk gagasan itu sendiri.

Sebaliknya, penciptaan deduplikasi data algoritma lebih merupakan kompilasi. Orang-orang di industri TI melihat kebutuhan untuk mengurangi duplikasi data dan mereka memenuhi kebutuhan untuk mengurangi file duplikat tersebut dengan membuat algoritme. Dengan meningkatnya data, orang akan terus mencari cara untuk memampatkan data dengan cara yang membuatnya mudah disimpan.