Apakah ada cara mudah untuk mengganti file duplikat dengan hardlink?

137

Saya mencari cara yang mudah (perintah atau serangkaian perintah, mungkin melibatkan find) untuk menemukan file duplikat di dua direktori, dan mengganti file dalam satu direktori dengan hardlink file di direktori lain.

Inilah situasinya: Ini adalah server file tempat banyak orang menyimpan file audio, masing-masing pengguna memiliki folder sendiri. Terkadang beberapa orang memiliki salinan file audio yang sama persis. Saat ini, ini adalah duplikat. Saya ingin membuatnya jadi hardlink, untuk menghemat ruang hard drive.

— Josh
sumber

20

Satu masalah yang mungkin Anda hadapi dengan tautan keras adalah jika seseorang memutuskan untuk melakukan sesuatu pada salah satu file musik mereka yang telah Anda sambungkan dengan keras, mereka dapat secara tidak sengaja memengaruhi akses orang lain ke musik mereka.

— Steven D

4

masalah lain adalah bahwa dua file berbeda yang berisi "Some Really Great Tune", bahkan jika diambil dari sumber yang sama dengan encoder yang sama kemungkinan besar tidak akan identik bit-for-bit.

— msw

3

solusi yang lebih baik mungkin memiliki folder musik publik ...

— Stefan

4

terkait: superuser.com/questions/140819/ways-to-deduplicate-files

— David Cary

1

@tante: Menggunakan symlink tidak menyelesaikan masalah. Ketika seorang pengguna "menghapus" file, jumlah tautan ke sana akan dikurangi, ketika hitungannya mencapai nol, file-file itu akan benar-benar dihapus, itu saja. Jadi penghapusan tidak ada masalah dengan file yang di-hardlink, satu-satunya masalah adalah pengguna mencoba mengedit file (memang tidak bisa dipastikan) atau menimpanya (sangat mungkin jika login)

— maaartinus

41

Ada skrip perl di http://cpansearch.perl.org/src/ANDK/Perl-Repository-APC-2.002/eg/trimtrees.pl yang melakukan apa yang Anda inginkan:

Lintasi semua direktori yang disebutkan pada baris perintah, hitung checksum MD5 dan temukan file dengan MD5 identik. JIKA mereka sama, lakukan perbandingan nyata jika mereka benar-benar sama, ganti yang kedua dari dua file dengan tautan keras ke yang pertama.

— fschmitt
sumber

Kedengarannya sempurna , terima kasih !! Saya akan mencobanya dan menerima jika berfungsi seperti yang dijelaskan!

— Josh

3

Ini melakukan persis apa yang saya minta. Namun saya percaya bahwa ZFS dengan dedup pada akhirnya akan menjadi cara untuk melakukannya, karena saya menemukan bahwa file memiliki sedikit perbedaan sehingga hanya sedikit yang bisa di-hardlink.

— Josh

11

Terpilih ini, tetapi setelah meneliti lagi, saya agak tidak. rdfindtersedia melalui manajer paket untuk SEMUA platform utama (os x, linux, (cyg) win, solaris), dan bekerja pada kecepatan asli yang sangat tinggi. Jadi, silakan periksa jawabannya di bawah ini.

— oligofren

@oligofren saya berpikiran sama, tapi kemudian saya memukul [Errno 31] Too many links. Script ini tampaknya menjadi satu-satunya yang menangani itu.

— phunehehe

5

Memeriksa semua file tunggal, bukan hanya file di mana ada setidaknya satu lainnya dengan ukuran yang sama, tidak perlu tidak efisien (dan cenderung tidak perlu terjadi tabrakan hash).

— Charles Duffy

85

rdfindtidak persis apa yang Anda minta (dan dalam urutan johny mengapa daftar). Memungkinkan untuk menghapus duplikat, menggantinya dengan tautan lunak atau keras. Digabungkan dengan symlinksAnda juga dapat membuat symlink baik absolut maupun relatif. Anda bahkan dapat memilih algoritma checksum (md5 atau sha1).

Karena dikompilasi, ini lebih cepat daripada kebanyakan solusi skrip: timepada folder 15 GiB dengan 2600 file di Mac Mini dari 2009 mengembalikan ini

9.99s user 3.61s system 66% cpu 20.543 total

(menggunakan md5).

Tersedia di sebagian besar penangan paket (mis. MacPort untuk Mac OS X).

— db
sumber

11

+1 Saya menggunakan rdfinddan menyukainya. Ini memiliki -dryrun trueopsi yang akan memberi tahu Anda apa yang akan dilakukan. Mengganti duplikat dengan tautan keras semudah -makehardlinks true. Ini menghasilkan log yang bagus dan biarkan saya tahu berapa banyak ruang yang dibebaskan. Plus, menurut tolok ukur penulis , rdfind lebih cepat daripada duff dan fslint.

— Daniel Trebbien

oooh, bagus. Saya dulu menggunakan fdupes, tetapi opsi -L untuk duplikat hardlink tidak ada di Ubuntu 14.10 terbaru. Cukup lambat, dan tidak ada untuk Homebrew di OSX, jadi jawaban ini jauh lebih baik. Terima kasih!

— oligofren

Algoritma yang sangat cerdas dan cepat.

— ndemou

2

Saya menduga kinerja alat ini lebih berkaitan dengan algoritma itu sendiri dan lebih sedikit hubungannya dengan apakah itu alat yang dikompilasi atau skrip. Untuk operasi semacam ini, disk akan menjadi penghambat hampir setiap saat. Selama alat yang dituliskan memastikan bahwa mereka memiliki operasi I / O async yang sedang berlangsung saat membakar CPU pada checksum, mereka harus berkinerja sebaik biner asli.

— cdhowie

rdfind sangat bergantung pada OS dan kompiler baru. (tidak akan berjalan pada CentOS 6.x tanpa pembangunan kembali alat pengembangan yang hampir selesai)

— Cosmo F

49

Gunakan fdupesalat ini:

fdupes -r /path/to/foldermemberi Anda daftar duplikat di direktori (-r membuatnya rekursif). Outputnya terlihat seperti ini:

filename1
filename2

filename3
filename4
filename5

dengan filename1 dan filename2 menjadi identik dan filename3, filename4 dan filename5 juga identik.

— tante
sumber

1

Ubuntu Note: Sampai September 2013, ini belum memiliki rilis yang stabil (versi 1.50-PR2-3), jadi pembaruan belum muncul di ubuntu.

— Stuart Axon

11

Saya baru saja mencoba menginstal fdupes_1.50-PR2-4 di Ubuntu dan Debian, juga tidak memiliki flag -L. Untungnya membangun dari github.com/tobiasschulz/fdupes sangat mudah.

— neu242

3

Coba rdfind- suka fdupes, tetapi lebih cepat dan tersedia di OS X dan Cygwin juga.

— oligofren

6

fdupestampaknya hanya menemukan duplikat, bukan menggantinya dengan hardlink, jadi bukan jawaban untuk pertanyaan IMO.

— Calimo

2

Ada alat serupa yang disebut jdupesberdasarkan fdupes, tetapi juga dapat mengganti file duplikat dengan symlinks ( -l), hardlinks ( -L) atau memerintahkan btrfs untuk mendupuplikasi blok pada tingkat sistem file ( -B, jika Anda menggunakan btrfs).

— Marius Gedminas

23

Saya menggunakan hardlinkdari http://jak-linux.org/projects/hardlink/

— waltinator
sumber

1

Petunjuk yang bagus, saya gunakan pada code.google.com/p/hardlinkpy basis biasa tapi ini tidak diperbarui untuk sementara waktu ...

— meduz

2

Ini tampaknya mirip dengan aslinya hardlinkdi Fedora / RHEL / dll.

1

hardlinksekarang biner asli di banyak sistem paket Linux (sejak ~ 2014) dan sangat cepat. Untuk file 1,2M (320GB), hanya butuh 200 detik (menghubungkan sekitar 10% file).

— Marcel Waldvogel

FWIW, di atas hardlinkdiciptakan oleh Julian Andres Klode sementara Fedora hardlinkdiciptakan oleh Jakub Jelinek (sumber: pagure.io/hardlink - nama paket Fedora: hardlink)

— maxschlepzig

18

Ini adalah salah satu fungsi yang disediakan oleh "fslint" - http://en.flossmanuals.net/FSlint/Introduction

Klik tombol "Gabung":

— Flimm
sumber

4

-M akan menghubungkan duplikat bersama-sama, -d akan menghapus semua kecuali satu, dan -t akan mengering, mencetak apa yang akan dilakukan

— Azendale

1

Di Ubuntu inilah yang harus dilakukan: sudo apt-get install fslint /usr/share/fslint/fslint/findup -m /your/directory/tree(direktori / usr / share / fslint / fslint / secara default bukan dalam $ PATH)

— Jocelyn

14

Karena target utama Anda adalah untuk menghemat ruang disk, ada solusi lain: de-duplikasi (dan mungkin kompresi) pada tingkat sistem file. Dibandingkan dengan solusi hard-link, itu tidak memiliki masalah yang secara tidak sengaja mempengaruhi file tertaut lainnya.

ZFS memiliki dedup (level blok, bukan level file) sejak kumpulan versi 23 dan kompresi sejak lama. Jika Anda menggunakan linux, Anda dapat mencoba zfs-fuse , atau jika Anda menggunakan BSD, ia didukung secara native.

— Wei-Yin
sumber

Ini mungkin cara saya akhirnya, apakah implementasi ZFS BSD melakukan dedup? Saya pikir tidak.

— Josh

Selain itu, sistem file HAMMER di DragonFlyBSD memiliki dukungan deduplikasi.

— hhaamu

14

ZFS dedup adalah teman dari siapa pun. Di mana ZFS merekomendasikan ram 1Gb per 1TB ruang disk yang dapat digunakan, Anda benar-benar gila jika Anda mencoba menggunakan dedup dengan ram kurang dari 32Gb per 1TB ruang disk yang dapat digunakan. Itu berarti bahwa untuk cermin 1TB, jika Anda tidak memiliki ram 32 Gb, Anda kemungkinan akan menghadapi kondisi bom memori cepat atau lambat yang akan menghentikan mesin karena kurangnya ram. Pernah ke sana, melakukan itu, masih pulih dari PTSD.

— killermist

4

Untuk menghindari persyaratan RAM yang berlebihan dengan deduplikasi online (mis., Periksa setiap penulisan), btrfsgunakan deduplikasi batch atau offline (jalankan setiap kali Anda menganggapnya berguna / diperlukan) btrfs.wiki.kernel.org/index.php/Dupuplikasi

— Marcel Waldvogel

3

Perbarui tujuh tahun kemudian: Saya akhirnya pindah ke ZFS dan mencoba deduplication - Saya menemukan bahwa persyaratan RAM memang jauh dari tinggi. Penggunaan snapshot ZFS dengan cepat memberikan solusi yang akhirnya saya gunakan. (Menyalin musik, snapshot, dan klon satu pengguna, menyalin musik pengguna kedua ke dalam klon menggunakan rsync --inplacehanya blok yang diubah yang disimpan)

— Josh

7

Pada Linux modern sekarang ini ada https://github.com/g2p/bedup yang menduplikasi pada sistem file btrfs, tetapi 1) tanpa banyak overhead pemindaian, 2) file dapat menyimpang dengan mudah lagi setelahnya.

— Matthew Bloch
sumber

1

Latar belakang dan informasi lebih lanjut tercantum di btrfs.wiki.kernel.org/index.php/Deduplication (termasuk referensi ke cp --reflink, lihat juga di bawah)

— Marcel Waldvogel

5

Untuk menemukan file duplikat, Anda dapat menggunakan duff .

Duff adalah utilitas baris perintah Unix untuk dengan cepat menemukan duplikat dalam set file yang diberikan.

Cukup jalankan:

duff -r target-folder

Untuk membuat hardlink ke file-file itu secara otomatis, Anda perlu mengurai output dari duff dengan bash atau bahasa scripting lainnya.

— Stefan
sumber

Sangat lambat - lihat rdfind.pauldreik.se/#g0.6

— ndemou

5

aptitude show hardlink

Deskripsi: Hardlink banyak salinan dari file yang sama Hardlink adalah alat yang mendeteksi banyak salinan dari file yang sama dan menggantinya dengan hardlink.

Idenya telah diambil dari http://code.google.com/p/hardlinkpy/ , tetapi kode tersebut telah ditulis dari awal dan dilisensikan di bawah lisensi MIT. Beranda: http://jak-linux.org/projects/hardlink/

— Julien Palard
sumber

Satu-satunya program yang disebutkan di sini tersedia untuk Gentoo tanpa membuka kedok dan dengan dukungan hardlink, terima kasih!

— Jorrit Schippers

4

Saya telah menggunakan banyak alat hardlink untuk Linux yang disebutkan di sini. Saya juga terjebak dengan ext4 fs, di Ubuntu, dan telah menggunakan cp -l dan -s untuk hard / softlinking. Tetapi akhir-akhir ini memperhatikan salinan ringan di halaman manual cp , yang akan menyiratkan cadangan ruang disk yang berlebihan sampai satu sisi diubah:

   --reflink[=WHEN]
          control clone/CoW copies. See below

       When  --reflink[=always]  is specified, perform a lightweight copy, where the 
data blocks are copied only when modified.  If this is not possible the
       copy fails, or if --reflink=auto is specified, fall back to a standard copy.

— Marcos
sumber

Saya pikir saya akan memperbarui cpalias saya untuk selalu menyertakan --reflink=autoparameter sekarang

— Marcos

1

Apakah ext4 benar-benar mendukung --reflink?

7

Ini didukung pada btrfs dan OCFS2. Ini hanya mungkin pada sistem file copy-on-write, yang ext4 tidak. btrfs benar-benar terbentuk. Saya suka menggunakannya karena reflink dan snapshot, membuat Anda tidak terlalu takut untuk melakukan operasi massal pada pohon besar file.

— clacke

3

Menurut saya, memeriksa nama file terlebih dahulu bisa mempercepat. Jika dua file tidak memiliki nama file yang sama maka dalam banyak kasus saya tidak akan menganggapnya sebagai duplikat. Tampaknya metode tercepat adalah membandingkan, dengan urutan:

nama file
ukuran
md5 checksum
konten byte

Apakah ada metode yang melakukan ini? Lihatlah duff, fdupes, rmlint, fslint, dll

Metode berikut ini terpilih pada commandlinefu.com : Temukan File Duplikat (berdasarkan ukuran pertama, lalu hash MD5)

Bisakah perbandingan nama file ditambahkan sebagai langkah pertama, ukuran sebagai langkah kedua?

find -not -empty -type f -printf "%s\n" | sort -rn | uniq -d | \
  xargs -I{} -n1 find -type f -size {}c -print0 | xargs -0 md5sum | \
  sort | uniq -w32 --all-repeated=separate

— Johnny mengapa
sumber

3

Saya telah menggunakan duff, fdupesdan rmlint, dan sangat menyarankan pembaca untuk melihat ketiga hal ini . Ini memiliki set pilihan yang sangat baik (dan dokumentasi). Dengan itu, saya bisa menghindari banyak post-processing yang perlu saya gunakan dengan alat-alat lain.

— dubiousjim

3

Dalam nama file praktik saya adalah faktor yang paling tidak dapat diandalkan untuk melihat, dan saya benar-benar menghapusnya dari segala upaya saya membuat de-duping. Berapa banyak install.shfile yang dapat ditemukan pada sistem yang aktif? Saya tidak dapat menghitung berapa kali saya menyimpan file dan memiliki bentrokan nama, dengan beberapa penggantian nama saat itu untuk menyimpannya. Sisi lain: tidak tahu berapa kali saya mengunduh sesuatu dari sumber yang berbeda, pada hari yang berbeda, hanya untuk menemukan mereka adalah file yang sama dengan nama yang berbeda. (Yang juga membunuh keandalan cap waktu.) 1: Ukuran, 2: Intisari, 3: konten Byte.

— Gypsy Spellweaver

@GypsySpellweaver: (1) tergantung pada penggunaan pribadi, tidakkah Anda setuju? Dalam kasus saya, saya memiliki beberapa pemulihan dari beberapa cadangan, di mana file dengan nama dan konten yang sama ada di folder pemulihan yang berbeda. (2) Komentar Anda tampaknya menganggap hanya membandingkan nama file . Saya tidak menyarankan untuk menghilangkan cek lain.

— Johnny mengapa

2

Karena saya bukan penggemar Perl, inilah versi bash:

#!/bin/bash

DIR="/path/to/big/files"

find $DIR -type f -exec md5sum {} \; | sort > /tmp/sums-sorted.txt

OLDSUM=""
IFS=$'\n'
for i in `cat /tmp/sums-sorted.txt`; do
 NEWSUM=`echo "$i" | sed 's/ .*//'`
 NEWFILE=`echo "$i" | sed 's/^[^ ]* *//'`
 if [ "$OLDSUM" == "$NEWSUM" ]; then
  echo ln -f "$OLDFILE" "$NEWFILE"
 else
  OLDSUM="$NEWSUM"
  OLDFILE="$NEWFILE"
 fi
done

Ini menemukan semua file dengan checksum yang sama (apakah itu besar, kecil, atau sudah hardlink), dan hardlink mereka bersama-sama.

Ini dapat sangat dioptimalkan untuk pengulangan yang dijalankan dengan flag-flag find tambahan (mis. Ukuran) dan cache file (sehingga Anda tidak perlu mengulang checksum setiap kali). Jika ada yang tertarik dengan versi yang lebih pintar dan lebih lama, saya dapat mempostingnya.

CATATAN: Seperti yang telah disebutkan sebelumnya, hardlink berfungsi selama file tidak perlu modifikasi, atau dipindahkan melintasi filesystem.

— seren
sumber

Bagaimana saya bisa mengubah skrip Anda, sehingga alih-alih menghubungkannya, itu hanya akan menghapus file duplikat dan akan menambahkan entri ke file CSV file yang dihapus -> File Berjajar. . ???

— MR.GEWA

Tentu. Garis tautan keras: echo ln -f "$ OLDFILE" "$ NEWFILE" Hanya mengganti file duplikat dengan tautan keras, jadi Anda dapat mengubahnya dengan $ NEWFILE sebagai gantinya.

— Seren

dan bagaimana pada baris berikutnya, tulis dalam beberapa file teks entah bagaimana $ OLDFILE-> NEWFILE ???

— MR.GEWA

Ahh benar Ya, tambahkan baris setelah rm seperti: echo "$ NEWFILE" >> /var/log/deleted_duplicate_files.log

— seren

2

Jangan biarkan menemukan kembali roda. Ada solusi yang lebih matang yang tersedia, seperti rdfind, yang bekerja pada kecepatan asli dan hanya membutuhkan brew install rdfindatau apt-get install rdfinddipasang.

— oligofren

1

Saya membuat skrip Perl yang melakukan sesuatu yang mirip dengan yang Anda bicarakan:

http://pastebin.com/U7mFHZU7

Pada dasarnya, itu hanya melintasi sebuah direktori, menghitung SHA1sum dari file di dalamnya, hashing dan menautkan pertandingan bersama. Ini sangat berguna pada banyak kesempatan.

— amphetamachine
sumber

2

Saya berharap untuk segera mencoba ini ... mengapa tidak mengunggahnya di CPAN ... App ::

— relink

2

@xenoterracide: karena semua solusi serupa dan lebih matang yang sudah ada. lihat jawaban lain, terutama rdfind.

— oligofren

1

@oligofren Saya tidak ragu ada solusi yang lebih baik. TMTOWTDI saya kira.

— amfetamachine

1

Jika Anda ingin mengganti duplikat dengan Tautan Keras di mac atau sistem berbasis UNIX, Anda dapat mencoba SmartDupe http://sourceforge.net/projects/smartdupe/ sedang mengembangkannya

— Islam
sumber

3

Bisakah Anda memperluas seberapa "pintar" itu?

— Stéphane Gimenez

1

Bagaimana saya bisa membandingkan file dari dua direktori yang berbeda?

— Burcardo

1

Applicos FSLint ( http://www.pixelbeat.org/fslint/ ) dapat menemukan semua file yang sama dalam folder apa saja (berdasarkan konten) dan membuat hardlink. Cobalah!

Jorge Sampaio

— Jorge HB Sampaio Jr
sumber

Menggantung pemindaian 1TB hard disk ext3 hampir penuh, membuat seluruh sistem merangkak. Dibatalkan setelah 14 jam "pencarian"

— Angsuman Chakraborty

1

jdupes telah disebutkan dalam komentar tetapi layak mendapatkan jawabannya sendiri, karena mungkin tersedia di sebagian besar distribusi dan berjalan cukup cepat (hanya membebaskan 2,7 GB dari partisi penuh 158 GB (drive SSD) 98% dalam waktu sekitar satu menit):

jdupes -rL /foo/bar

— Skippy le Grand Gourou
sumber

0

Jika Anda akan melakukan hardlink, perhatikan hak pada file itu. Pemberitahuan, pemilik, grup, mode, atribut yang diperluas, waktu dan ACL (jika Anda menggunakan ini) disimpan dalam INODE. Hanya nama file yang berbeda karena ini disimpan dalam struktur direktori, dan menunjuk ke properti INODE lainnya. Penyebab ini, semua nama file yang terhubung ke inode yang sama, memiliki hak akses yang sama. Anda harus mencegah modifikasi file itu, karena setiap pengguna dapat merusak file yang lain. Sederhana saja. Sudah cukup, setiap pengguna menaruh file lain dengan nama yang sama. Nomor inode kemudian disimpan, dan konten file asli dihancurkan (diganti) untuk semua nama yang di-hardlink.

Cara yang lebih baik adalah deduplikasi pada layer filesystem. Anda dapat menggunakan BTRFS (terakhir kali sangat populer), OCFS atau seperti ini. Lihat halaman: https://en.wikipedia.org/wiki/Comparison_of_file_systems , khususnya di tabel Fitur dan deduplikasi data kolom. Anda dapat mengkliknya dan mengurutkan :)

Khususnya melihat sistem file ZFS. Ini tersedia sebagai FUSE, tetapi dengan cara ini sangat lambat. Jika Anda ingin dukungan asli, lihat halaman http://zfsonlinux.org/ . Kemudian Anda harus menambal kernel, dan menginstal alat zfs untuk manajemen. Saya tidak mengerti, mengapa linux tidak mendukung driver, itu adalah cara untuk banyak sistem operasi / kernel.

Sistem file mendukung deduplikasi dengan 2 cara, deduplikasi file, atau blok. ZFS mendukung blok. Ini berarti, konten yang sama yang berulang dalam file yang sama dapat dideduplikasi. Cara lain adalah waktu ketika data dideduplikasi, ini bisa online (zfs) atau offline (btrfs).

Perhatikan, deduplikasi mengkonsumsi RAM. Inilah sebabnya mengapa menulis file ke volume ZFS yang dipasang dengan FUSE, menyebabkan kinerja yang sangat lambat. Ini dijelaskan dalam dokumentasi. Tetapi Anda dapat secara online mengaktifkan / menonaktifkan deduplikasi volume. Jika Anda melihat ada data yang harus dideduplikasi, Anda cukup mengaktifkan deduplikasi, menulis ulang beberapa file untuk sementara dan akhirnya mengganti. setelah ini, Anda dapat mematikan deduplikasi dan mengembalikan kinerja penuh. Tentu saja, Anda dapat menambahkan ke penyimpanan disk cache apa pun. Ini bisa menjadi disk putar sangat cepat atau disk SSD. Tentu saja ini bisa menjadi disk yang sangat kecil. Dalam pekerjaan nyata ini adalah pengganti RAM :)

Di linux Anda harus berhati-hati untuk ZFS karena tidak semua berfungsi sebagaimana mestinya, khususnya ketika Anda mengelola sistem file, membuat snapshot dll. Tetapi jika Anda melakukan konfigurasi dan tidak mengubahnya, semua berfungsi dengan baik. Cara lain, Anda harus mengubah linux ke opensolaris, itu secara alami mendukung ZFS :) Apa yang sangat baik dengan ZFS adalah, ini berfungsi baik sebagai sistem file, dan manajer volumen mirip dengan LVM. Anda tidak membutuhkannya saat menggunakan ZFS. Lihat dokumentasi jika Anda ingin tahu lebih banyak.

Perhatikan perbedaan antara ZFS dan BTRFS. ZFS lebih tua dan lebih dewasa, sayangnya hanya di bawah Solaris dan OpenSolaris (sayangnya dicekik oleh oracle). BTRFS lebih muda, tetapi terakhir kali sangat baik didukung. Saya merekomendasikan kernel segar. ZFS memiliki deduplikasi online, yang menyebabkan menulis lambat, karena semua dihitung secara online. BTRFS mendukung dedupliaksi offline. Maka ini menghemat kinerja, tetapi ketika tuan rumah tidak ada hubungannya, Anda menjalankan alat secara berkala untuk melakukan deduplikasi. Dan BTRFS dibuat secara native di bawah linux. Mungkin ini FS yang lebih baik untuk Anda :)

— Znik
sumber

1

Saya suka dengan pendekatan deduplikasi offline (atau batch ) btrfs. Diskusi yang luar biasa mengenai opsi-opsi (termasuk cp --reflinkopsi) di sini: btrfs.wiki.kernel.org/index.php/Deduplication

— Marcel Waldvogel

ZFS bukan Solaris atau OpenSolaris saja. Ini didukung secara native di FreeBSD. Juga, ZFS di Linux adalah driver perangkat berbasis; ZFS on FUSE adalah hal yang berbeda.

— KJ Seefried

0

Hard link mungkin bukan ide terbaik; jika satu pengguna mengubah file, itu mempengaruhi keduanya. Namun, menghapus tautan keras tidak menghapus kedua file. Selain itu, saya tidak sepenuhnya yakin apakah Hard Links mengambil jumlah ruang yang sama (pada hard disk, bukan OS) seperti banyak salinan dari file yang sama; menurut Windows (dengan Ekstensi Shell Link), mereka melakukannya. Memang, itu Windows, bukan Unix ...

Solusi saya adalah membuat file "umum" di folder tersembunyi, dan mengganti duplikat yang sebenarnya dengan tautan simbolis ... kemudian, tautan simbolis akan disematkan dengan metadata atau aliran file alternatif yang hanya merekam namun kedua "file" itu. berbeda satu sama lain, seperti jika satu orang ingin mengubah nama file atau menambahkan seni album kustom atau yang lain seperti itu; bahkan mungkin berguna di luar aplikasi basis data, seperti memiliki beberapa versi dari permainan atau perangkat lunak yang sama diinstal dan mengujinya secara mandiri dengan perbedaan terkecil sekalipun.

— Amaroq Starwind
sumber

0

Cara termudah adalah menggunakan dupeGuru program khusus

seperti kata dokumentasi

Opsi Penghapusan

Opsi ini memengaruhi bagaimana penghapusan duplikat terjadi. Sebagian besar waktu, Anda tidak perlu mengaktifkannya.

Tautkan file yang dihapus:

File yang dihapus diganti dengan tautan ke file referensi. Anda memiliki pilihan untuk menggantinya dengan symlink atau hardlink. ... symlink adalah jalan pintas ke jalur file. Jika file asli dihapus atau dipindahkan, tautannya rusak. Hardlink adalah tautan ke file itu sendiri. Tautan itu sebagus file "asli". Hanya ketika semua hardlinks ke file dihapus adalah file itu sendiri dihapus.

Pada OSX dan Linux, fitur ini didukung sepenuhnya, tetapi di Windows, ini agak rumit. Windows XP tidak mendukungnya, tetapi Vista dan lebih tinggi mendukungnya. Namun, agar fitur berfungsi, dupeGuru harus dijalankan dengan hak administratif.

— Pengembang Rusia Junior Ruby
sumber