Saya telah mewarisi sekelompok riset dengan ~ 40TB data di tiga sistem file. Data ini terbentang hampir 15 tahun, dan ada kemungkinan besar jumlah duplikat yang baik karena para peneliti menyalin data satu sama lain untuk alasan yang berbeda dan kemudian hanya bertahan pada salinan.
Saya tahu tentang alat de-duping seperti fdupes dan rmlint. Saya mencoba untuk menemukan satu yang akan bekerja pada set data yang besar. Saya tidak peduli apakah perlu berminggu-minggu (atau bahkan mungkin berbulan-bulan) untuk merayapi semua data - saya mungkin akan mempercepatnya untuk mempermudah sistem file. Tapi saya perlu menemukan alat yang entah bagaimana super efisien dengan RAM, atau dapat menyimpan semua data perantara yang dibutuhkan dalam file daripada RAM. Saya berasumsi bahwa RAM saya (64GB) akan habis jika saya merayapi semua data ini sebagai satu set.
Saya sedang bereksperimen dengan fdupes sekarang di pohon 900GB. Ini 25% dari keseluruhan dan penggunaan RAM telah perlahan-lahan merayap sepanjang waktu, sekarang di 700MB.
Atau, apakah ada cara untuk mengarahkan proses menggunakan RAM yang dipetakan disk sehingga ada lebih banyak tersedia dan tidak menggunakan sistem RAM?
Saya menjalankan CentOS 6.