Jawaban singkat
Tidak mungkin untuk menjamin jangka waktu yang lama karena entropi (juga disebut kematian!). Data digital membusuk dan mati, sama seperti hal lain di alam semesta. Tapi itu bisa diperlambat.
Saat ini tidak ada bukti kegagalan dan secara ilmiah terbukti untuk menjamin 30+ tahun pengarsipan data dingin. Beberapa proyek bertujuan untuk melakukan itu, seperti proyek Rosetta Disks dari museum Long Now , meskipun mereka masih sangat mahal dan dengan kepadatan data yang rendah (sekitar 50 MB).
Sementara itu, Anda dapat menggunakan media optik tangguh yang telah terbukti secara ilmiah untuk penyimpanan dingin seperti jenis Blu-ray Disc HTL seperti Panasonic, atau DVD kelas + arsip seperti Verbatim Gold Archival, dan simpan di dalam kotak kedap udara di titik lunak (hindari suhu tinggi) dan keluar dari cahaya.
Juga menjadi REDUNDAN : Buat beberapa salinan data Anda (setidaknya 4), dan hitung hash untuk memeriksa secara teratur bahwa semuanya baik-baik saja, dan setiap beberapa tahun Anda harus menulis ulang data Anda pada disk baru. Juga, gunakan banyak kode koreksi kesalahan , mereka akan memungkinkan Anda untuk memperbaiki data Anda yang rusak!
Jawaban panjang
Mengapa data rusak dengan waktu? Jawabannya terletak pada satu kata: entropi . Ini adalah salah satu kekuatan utama dan tak terhindarkan dari alam semesta, yang membuat sistem menjadi semakin tidak teratur dalam waktu. Korupsi data persis seperti itu: gangguan urutan bit. Jadi dengan kata lain, Semesta membenci data Anda .
Melawan entropi sama seperti melawan kematian: Anda tidak akan pernah berhasil, selamanya. Tetapi, Anda dapat menemukan cara untuk memperlambat kematian, seperti halnya Anda dapat memperlambat entropi. Anda juga dapat mengelabui entropi dengan memperbaiki korupsi (dengan kata lain: Anda tidak dapat menghentikan korupsi, tetapi Anda dapat memperbaiki setelah itu terjadi jika Anda mengambil tindakan sebelumnya!). Sama seperti apa pun tentang hidup dan mati, tidak ada peluru ajaib, atau satu solusi untuk semua, dan solusi terbaik mengharuskan Anda untuk secara langsung terlibat dalam kurasi digital data Anda. Dan bahkan jika Anda melakukan semuanya dengan benar, Anda tidak dijamin untuk menjaga data Anda aman, Anda hanya memaksimalkan peluang Anda.
Sekarang untuk berita baiknya: sekarang ada cara yang cukup efisien untuk menyimpan data Anda, jika Anda menggabungkan media penyimpanan yang berkualitas baik , dan strategi pengarsipan / kurasi yang baik : Anda harus merancang kegagalan .
Apa strategi kurasi yang baik? Mari kita luruskan satu hal: sebagian besar info yang Anda temukan adalah tentang cadangan, bukan tentang arsip. Masalahnya adalah bahwa kebanyakan orang akan mentransfer pengetahuan mereka tentang strategi backup ke arsip, dan dengan demikian banyak mitos sekarang sering terdengar. Memang, menyimpan data selama beberapa tahun (cadangan) dan menyimpan data untuk waktu terlama yang mungkin berlangsung selama beberapa dekade setidaknya (arsip) adalah tujuan yang sama sekali berbeda, dan karenanya memerlukan alat dan strategi yang berbeda.
Untungnya, ada banyak penelitian dan hasil ilmiah, jadi saya menyarankan untuk merujuk pada makalah ilmiah daripada di forum atau majalah. Di sini, saya akan merangkum beberapa bacaan saya.
Selain itu, waspadalah terhadap klaim dan studi ilmiah yang tidak independen , mengklaim bahwa media penyimpanan ini atau itu sempurna. Ingat proyek BBC Domesday yang terkenal: «Digital Domesday Book bertahan 15 tahun, bukan 1000» . Selalu periksa penelitian dengan kertas yang benar-benar independen, dan jika tidak ada, selalu menganggap media penyimpanan tidak baik untuk arsip.
Mari kita perjelas apa yang Anda cari (dari pertanyaan Anda):
Arsip jangka panjang : Anda ingin menyimpan salinan data "pribadi" Anda yang masuk akal dan tidak dapat diproduksi kembali. Pengarsipan pada dasarnya berbeda dari cadangan , juga dijelaskan di sini : cadangan untuk data teknis dinamis yang secara teratur diperbarui dan dengan demikian perlu disegarkan menjadi cadangan (yaitu, OS, tata letak folder kerja, dll.), Sedangkan arsip adalah data statis yang Anda mungkin akan menulis hanya sekali dan hanya membaca dari waktu ke waktu . Arsip untuk data intemporal , biasanya pribadi.
Penyimpanan dingin : Anda ingin menghindari pemeliharaan data yang diarsipkan sebanyak mungkin. Ini adalah kendala BESAR, karena media harus menggunakan komponen dan metodologi penulisan yang tetap stabil untuk waktu yang sangat lama, tanpa manipulasi dari bagian Anda, dan tanpa memerlukan koneksi apa pun ke komputer atau pasokan listrik.
Untuk memudahkan analisis kami, pertama-tama pelajari solusi penyimpanan dingin, dan kemudian strategi arsip jangka panjang.
Media penyimpanan dingin
Kami mendefinisikan di atas apa media penyimpanan dingin yang baik: media itu harus menyimpan data untuk waktu yang lama tanpa manipulasi apa pun (karena itulah disebut "dingin": Anda bisa menyimpannya di lemari dan Anda tidak perlu menghubungkannya dengan komputer untuk memelihara data).
Kertas mungkin tampak seperti media penyimpanan paling tangguh di bumi, karena kita sering menemukan naskah kuno dari zaman kuno. Namun, kertas mengalami kelemahan utama: pertama, kerapatan data sangat rendah (tidak dapat menyimpan lebih dari ~ 100 KB di atas kertas, bahkan dengan karakter kecil dan peralatan komputer), dan kertas menurun seiring waktu tanpa ada cara untuk memantaunya: kertas , seperti halnya hard drive, menderita korupsi diam-diam. Tetapi sementara Anda dapat memantau korupsi diam-diam pada data digital, Anda tidak bisa di atas kertas. Misalnya, Anda tidak dapat menjamin bahwa gambar akan mempertahankan warna yang sama hanya dalam satu dekade: warna akan menurun, dan Anda tidak memiliki cara untuk menemukan apa warna aslinya. Tentu saja, Anda dapat pendeta gambar Anda jika Anda ahli dalam restorasi gambar, tetapi ini sangat memakan waktu, sedangkan dengan data digital, Anda dapat mengotomatiskan proses kurasi dan restorasi ini.
Hard Drives (HDD) yang dikenal untuk memiliki rentang hidup rata-rata 3 sampai 8 tahun: mereka tidak hanya menurunkan dari waktu ke waktu, mereka dijamin untuk akhirnya mati (yaitu: tidak dapat diakses). Kurva berikut menunjukkan kecenderungan ini untuk semua HDD mati pada tingkat yang mengejutkan:
Kurva Bathtub menunjukkan evolusi tingkat kegagalan HDD mengingat jenis kesalahan (juga berlaku untuk perangkat rekayasa):
Kurva yang menunjukkan tingkat kegagalan HDD, semua jenis kesalahan digabungkan:
Sumber: Backblaze
Anda dapat melihat bahwa ada 3 jenis HDD yang relatif mengalami kegagalan: yang sekarat cepat (mis: kesalahan produksi, HDD berkualitas buruk, kerusakan kepala, dll.), Yang laju laju sekarat konstan (manufaktur yang baik, mereka mati karena berbagai macam " alasan "normal, ini adalah kasus untuk sebagian besar HDD), dan akhirnya yang kuat yang hidup sedikit lebih lama dari sebagian besar HDD dan akhirnya mati segera setelah" yang normal "(misalnya: HDD beruntung, tidak terlalu banyak digunakan, kondisi lingkungan yang ideal, dll.) Dengan demikian, Anda dijamin bahwa HDD Anda akan mati.
Mengapa HDD sering mati? Maksud saya, data ditulis pada disk magnetik, dan medan magnet dapat bertahan beberapa dekade sebelum menghilang. Alasan mereka mati adalah karena media penyimpanan (disk magnetik) dan perangkat keras membaca (papan elektronik + kepala berputar) digabungkan : mereka tidak dapat dipisahkan, Anda tidak bisa hanya mengekstrak disk magnetik dan membacanya dengan kepala lain, karena pertama-tama papan elektronik (yang mengubah data fisik menjadi digital) berbeda untuk hampir setiap HDD (bahkan dari merek dan referensi yang sama, itu tergantung pada pabrik asal), dan mekanisme internal dengan kepala pemintalan sangat rumit sehingga saat ini tidak mungkin bagi manusia untuk dengan sempurna meletakkan kepala yang berputar pada piringan magnetik tanpa membunuhnya.
Selain itu, HDD diketahui mengalami kerusakan magnetik seiring waktu jika tidak digunakan (termasuk SSD). Dengan demikian, Anda tidak bisa hanya menyimpan data pada hard disk, menyimpannya di lemari dan berpikir bahwa itu akan menyimpan data tanpa koneksi listrik: Anda perlu mencolokkan HDD Anda ke sumber listrik setidaknya sekali per tahun atau per pasangan tahun . Dengan demikian, HDD jelas tidak cocok untuk penyimpanan dingin.
Kaset magnetik : mereka sering digambarkan sebagai tujuan untuk kebutuhan cadangan, dan oleh ekstensi untuk arsip. Masalah dengan pita magnetik adalah pita-pita itu SANGAT sensitif: partikel oksida magnetik dapat dengan mudah rusak oleh matahari, air, udara, goresan, mengalami degradasi oleh waktu atau perangkat elektromagnetik apa pun atau jatuh begitu saja oleh waktu, atau dicetak . Itu sebabnya mereka biasanya hanya digunakan di pusat data oleh para profesional. Juga, tidak pernah terbukti bahwa mereka dapat menyimpan data lebih dari satu dekade. Jadi, mengapa mereka sering disarankan untuk cadangan? Karena dulunya murah: pada zaman dulu, biayanya 10x hingga 100x lebih murah untuk menggunakan pita magnetik daripada HDD, dan HDD cenderung jauh lebih tidak stabil daripada sekarang. Jadi kaset magnetik terutama disarankan untuk cadangan karena efektivitas biaya, bukan karena ketahanan, yang paling menarik minat kami dalam hal pengarsipan data.
Kartu CompactFlash dan Secure Digital (SD) dikenal cukup kokoh dan kuat, mampu bertahan dari kondisi bencana .
Kartu memori di sebagian besar kamera hampir tidak bisa dihancurkan, menurut majalah Digital Camera Shopper. Lima format kartu memori selamat direbus, diinjak-injak, dicuci, dan dibenamkan dalam kopi atau cola.
Namun, seperti media berbasis magnet lainnya, ia bergantung pada medan listrik untuk menyimpan data, dan dengan demikian jika kartu kehabisan jus, data bisa hilang sama sekali. Jadi, tidak cocok untuk penyimpanan dingin (karena Anda perlu sesekali menulis ulang seluruh data pada kartu untuk menyegarkan kembali medan listrik), tetapi ini bisa menjadi media yang baik untuk pencadangan dan pengarsipan jangka pendek atau menengah.
Media optik: Media optik adalah kelas media penyimpanan yang mengandalkan laser untuk membaca data, seperti CD, DVD, atau Blu-ray (BD). Ini dapat dilihat sebagai evolusi kertas, tetapi kami menulis data dalam ukuran yang sangat kecil, sehingga kami membutuhkan bahan yang lebih tepat dan ulet daripada kertas, dan hanya cakram optik yang dapat melakukannya. Dua keuntungan terbesar dari media optik adalah media penyimpanan dipisahkan dari perangkat keras membaca (yaitu, jika pembaca DVD Anda gagal, Anda selalu dapat membeli yang lain untuk membaca disk Anda) dan bahwa itu didasarkan pada laser, yang membuatnya universal dan bukti masa depan (yaitu, selama Anda tahu cara membuat laser, Anda selalu dapat men-tweak untuk membaca bit dari disk optik dengan emulasi, seperti yang dilakukan CAMILEON untuk Domesday BBC Project ).
Seperti teknologi lainnya, iterasi baru tidak hanya menawarkan kepadatan yang lebih besar (ruang penyimpanan), tetapi juga koreksi kesalahan yang lebih baik, dan ketahanan yang lebih baik terhadap kerusakan lingkungan (tidak selalu, tetapi secara umum benar). Debat pertama tentang keandalan DVD adalah antara DVD-R dan DVD + R, dan bahkan jika DVD-R masih umum saat ini, DVD + R diakui lebih andal dan tepat . Sekarang ada cakram DVD kelas arsip, khusus dibuat untuk penyimpanan dingin, mengklaim bahwa mereka dapat bertahan minimal ~ 20 tahun tanpa pemeliharaan apa pun:
Verbatim Gold Archival DVD-R [...] telah dinilai sebagai DVD-R yang paling dapat diandalkan dalam tes stres jangka panjang menyeluruh oleh majalah Jerman terkenal (c't 16/2008, halaman 116-123 ) [...] mencapai daya tahan minimum 18 tahun dan daya tahan rata-rata 32 hingga 127 tahun (pada suhu 25C, kelembaban 50%). Tidak ada disk lain yang mendekati nilai-nilai ini, DVD-R terbaik kedua memiliki daya tahan minimum hanya 5 tahun.
Dari LinuxTech.net .
Selain itu, beberapa perusahaan yang mengkhususkan diri dalam sangat panjang jangka DVD arsip dan luas pasar mereka, seperti M-Disc dari Millenniata atau DataTresorDisc, mengklaim bahwa mereka dapat menyimpan data selama lebih dari 1000 tahun, dan diverifikasi oleh beberapa (non-independen) penelitian (dari 2009) antara lain yang kurang ilmiah .
Ini semua tampak sangat menjanjikan! Sayangnya, tidak ada studi ilmiah independen yang cukup untuk mengkonfirmasi klaim ini, dan beberapa yang tersedia tidak begitu antusias:
Kelembaban (80% RH) dan suhu (80 ° C) mempercepat penuaan pada beberapa DVD selama 2000 jam (sekitar 83 hari) uji dengan pemeriksaan rutin keterbacaan data:
Diterjemahkan dari lembaga Perancis untuk pengarsipan data digital (Archives de France), studi dari 2012.
Grafik pertama menunjukkan DVD dengan evolusi degradasi lambat. Yang kedua DVD dengan kurva degradasi cepat. Dan yang ketiga adalah untuk DVD "sangat jangka panjang" khusus seperti M-Disc dan DataTresorDisc. Seperti yang dapat kita lihat, kinerja mereka tidak cukup sesuai dengan klaim, lebih rendah atau setara dengan standar, DVD kelas non arsip!
Namun, cakram optik anorganik seperti M-Disc dan DataTresorDisc mendapatkan satu keuntungan: mereka cukup peka terhadap degradasi cahaya:
Penuaan dipercepat menggunakan cahaya (750 W / m²) selama 240 jam:
Ini adalah hasil yang bagus, tetapi DVD kelas arsip seperti Verbatim Gold Archival juga mencapai kinerja yang sama, dan lebih jauh, cahaya adalah parameter yang paling dapat dikontrol untuk objek: cukup mudah untuk menempatkan DVD di kotak atau lemari tertutup, dan dengan demikian menghilangkan kemungkinan dampak cahaya apa pun. Akan jauh lebih bermanfaat untuk mendapatkan DVD yang sangat tahan terhadap suhu dan kelembaban daripada cahaya.
Tim peneliti yang sama ini juga mempelajari pasar Blu-ray untuk melihat apakah akan ada merek dengan media yang bagus untuk penyimpanan dingin jangka panjang. Inilah temuan mereka:
Kelembaban dan suhu mempercepat penuaan pada beberapa merek Blu-ray, di bawah parameter yang sama seperti untuk DVD:
Penuaan cepat yang dipercepat pada beberapa merek BluRays, parameter yang sama:
Diterjemahkan dari studi Archives de France, 2012 ini.
Dua ringkasan dari semua temuan (dalam bahasa Prancis) di sini dan di sini .
Dalam kondisi baik, cakram Blu-ray terbaik (dari Panasonic) memiliki kinerja yang mirip dengan DVD kelas arsip terbaik dalam uji suhu + kelembaban, sementara hampir tidak masuk akal terhadap cahaya! Dan cakram Blu-ray ini bahkan bukan kelas arsip. Lebih jauh, cakram Blu-ray menggunakan kode koreksi kesalahan yang lebih baik daripada DVD (mereka sendiri menggunakan versi yang disempurnakan relatif ke CD), yang selanjutnya meminimalkan risiko kehilangan data. Dengan demikian, tampaknya beberapa cakram BluRay mungkin merupakan pilihan yang sangat baik untuk penyimpanan dingin.
Dan memang, beberapa perusahaan mulai bekerja pada cakram Blu-ray penyimpanan kelas kerapatan tinggi, seperti Panasonic dan Sony, mengumumkan bahwa mereka akan dapat menawarkan 300 GB hingga 1TB penyimpanan dengan masa hidup rata-rata 50 tahun. Juga, perusahaan besar beralih ke media optik untuk penyimpanan dingin (karena mengkonsumsi sumber daya jauh lebih sedikit karena Anda dapat menyimpannya tanpa pasokan listrik), seperti Facebook yang mengembangkan sistem robot untuk menggunakan cakram Blu-ray sebagai "dingin penyimpanan " untuk data yang jarang diakses oleh sistem mereka.
Inisiatif pengarsipan Long Now: Ada petunjuk menarik lainnya seperti proyek Rosetta Disc oleh museum Long Now , yang merupakan proyek untuk menulis halaman-halaman Kejadian dalam skala mikroskopis di setiap bahasa di bumi yang diterjemahkan oleh Kejadian. Ini adalah proyek yang hebat, yang merupakan media pertama yang menawarkan media yang memungkinkan untuk menyimpan 50 MB untuk penyimpanan dingin jangka panjang (karena ditulis dalam karbon), dan dengan akses kedepannya karena Anda hanya perlu kaca pembesar untuk mengakses data (tidak ada spesifikasi format aneh atau kerumitan teknologi untuk menangani seperti sinar violet dari Blu-ray, hanya perlu kaca pembesar!). Namun, ini masih dibuat secara manual dan dengan demikian diperkirakan biayanya sekitar $ 20K, yang agak terlalu banyak untuk skema pengarsipan pribadi saya kira.
Solusi berbasis internet: Belum ada media lain untuk menyimpan data Anda di internet. Namun, solusi cadangan cloud tidak cocok, karena perhatian utama daripada perusahaan hosting awan mungkin tidak hidup selama Anda ingin menyimpan data Anda. Alasan lain termasuk fakta bahwa itu sangat lambat untuk cadangan (karena transfer melalui internet) dan sebagian besar penyedia mengharuskan file juga ada di sistem Anda untuk tetap online. Misalnya, baik CrashPlan dan Backblaze akan menghapus file secara permanen yang setidaknya tidak terlihat sekali di komputer Anda dalam 30 hari terakhir, jadi jika Anda ingin mengunggah data cadangan yang Anda simpan hanya di hard drive eksternal, Anda harus mencolokkan HDD USB setidaknya sebulan sekali dan sinkronkan dengan cloud Anda untuk mengatur ulang hitungan mundur. Namun, beberapa layanan cloud menawarkan untuk menjaga file Anda tanpa batas (selama Anda membayar tentu saja) tanpa hitungan mundur, seperti SpiderOak. Jadi, berhati-hatilah dengan kondisi dan penggunaan solusi cadangan berbasis cloud yang Anda pilih.
Alternatif untuk penyedia cadangan cloud adalah dengan menyewa server pribadi Anda secara online, dan jika mungkin, pilih satu dengan mirroring / backup data Anda secara otomatis jika terjadi kegagalan perangkat keras di pihak mereka (beberapa bahkan menjamin Anda terhadap data yang hilang dalam kontrak mereka) , tapi tentu saja lebih mahal). Ini adalah solusi yang bagus, pertama karena Anda masih memiliki data Anda, dan kedua karena Anda tidak perlu mengelola kegagalan perangkat keras, ini adalah tanggung jawab tuan rumah Anda. Dan jika suatu hari tuan rumah Anda gulung tikar, Anda masih bisa mendapatkan kembali data Anda (pilihlah tuan rumah yang serius agar mereka tidak mati malam itu tetapi beri tahu Anda sebelumnya, mungkin Anda bisa meminta untuk memasukkannya ke dalam kontrak), dan hosting ulang di tempat lain.
Jika Anda tidak ingin repot mengatur server online pribadi Anda sendiri, dan jika Anda mampu membelinya, Amazon menawarkan layanan pengarsipan data baru, yang disebut Glacier . Tujuannya adalah untuk secara dingin menyimpan data Anda untuk jangka panjang: dengan demikian, biayanya banyak untuk menyimpan data di Glacier, tetapi biayanya lebih mahal untuk mendapatkan kembali data ini, karena layanan ini dibuat untuk menyimpan data di luar jangkauan , jangan menyimpan data yang ingin sering Anda akses. Ini berarti bahwa layanan ini mengutip harga untuk menulis data, tetapi juga untuk membacanya. Layanan ini memiliki biaya yang sangat besar, tetapi mungkin merupakan kesepakatan yang bagus untuk beberapa data Anda yang paling masuk akal (yaitu: jika Anda memiliki beberapa file teks atau gambar yang SANGAT masuk akal, karena jenis data ini biasanya berukuran kecil, maka tidak akan dikenakan biaya banyak untuk disimpan di Gletser).
Kekurangan cold storage : Namun, ada kelemahan besar pada media penyimpanan dingin mana pun: tidak ada pemeriksaan integritas, karena media penyimpanan dingin TIDAK BISA memeriksa integritas data secara otomatis (mereka hanya bisa menerapkan skema koreksi kesalahan untuk "menyembuhkan" sedikit kerusakan setelah korupsi terjadi, tetapi tidak dapat dicegah atau dikelola secara otomatis!) karena, berlawanan dengan komputer, tidak ada unit pemrosesan untuk menghitung / membuat jurnal / memeriksa dan memperbaiki sistem file. Sedangkan dengan komputer dan beberapa unit penyimpanan, Anda dapat secara otomatis memeriksa integritas arsip Anda dan secara otomatis tercermin ke unit lain jika perlu jika beberapa korupsi terjadi dalam arsip data (selama Anda memiliki beberapa salinan dari arsip yang sama).
Arsip Jangka Panjang
Bahkan dengan teknologi terbaik yang tersedia saat ini, data digital hanya dapat disimpan dalam keadaan dingin selama beberapa dekade (sekitar 20 tahun). Dengan demikian, dalam jangka panjang, Anda tidak bisa hanya mengandalkan cold storage: Anda perlu menyiapkan metodologi untuk proses pengarsipan data Anda untuk memastikan bahwa data Anda dapat diambil di masa mendatang (bahkan dengan perubahan teknologi), dan bahwa Anda meminimalkan risiko. kehilangan data Anda. Dengan kata lain, Anda harus menjadi kurator digital dari data Anda, memperbaiki korupsi ketika itu terjadi dan membuat ulang salinan baru ketika dibutuhkan.
Tidak ada aturan yang sangat mudah, tetapi di sini ada beberapa strategi kurasi yang mapan , dan khususnya alat ajaib yang akan membuat pekerjaan Anda lebih mudah:
- Prinsip redundansi / replikasi : Redundansi adalah satu-satunya alat yang dapat mengembalikan efek entropi , yang merupakan prinsip berdasarkan teori informasi. Untuk menyimpan data, Anda perlu menggandakan data ini. Kode kesalahan adalah aplikasi otomatis dari prinsip redundansi. Namun, Anda juga perlu memastikan bahwa data Anda berlebihan: beberapa salinan dari data yang sama pada disk yang berbeda, beberapa salinan pada media yang berbeda (sehingga jika satu media gagal karena masalah intrinsik, ada sedikit kemungkinan bahwa yang lain pada media yang berbeda juga akan gagal pada waktu yang sama), dll. Terutama , Anda harus selalu memiliki setidaknya 3 salinan data Anda, juga disebut redundansi 3-modular dalam rekayasa, sehingga jika salinan Anda menjadi rusak, Anda dapat memberikan suara mayoritas sederhana untuk memperbaiki file Anda dari 3 salinan Anda. Selalu ingat saran kompas pelaut:
Tidak ada gunanya membawa dua kompas, karena jika ada yang salah, Anda tidak akan pernah tahu mana yang benar, atau jika keduanya salah. Selalu ambil satu kompas, atau lebih dari tiga.
Kode koreksi kesalahan : ini adalah alat ajaib yang akan membuat hidup Anda lebih mudah dan data Anda lebih aman. Kode koreksi kesalahan (ECC) adalah konstruk matematika yang akan menghasilkan data yang dapat digunakan untuk memperbaiki data Anda. Ini lebih efisien, karena ECC dapat memperbaiki lebih banyak data Anda menggunakan lebih sedikit ruang penyimpanan daripada replikasi sederhana (yaitu, membuat banyak salinan file Anda), dan mereka bahkan dapat digunakan untuk memeriksa apakah file Anda memiliki korupsi, dan bahkan menemukan di mana korupsi itu. Sebenarnya, ini persis merupakan aplikasi dari prinsip redundansi, tetapi dengan cara yang lebih pintar daripada replikasi. Teknik ini banyak digunakan dalam komunikasi jarak jauh saat ini, seperti 4G, WiMax, dan bahkan komunikasi ruang angkasa NASA. Sayangnya, meskipun ECC ada di mana-mana dalam telekomunikasi, mereka tidak dalam perbaikan file, mungkin karena itu agak rumit. Namun, beberapa perangkat lunak tersedia, seperti PAR2 yang terkenal (tapi sekarang sudah tua), DVD Disaster (yang menawarkan untuk menambahkan kode koreksi kesalahan pada disk optik) dan pyFileFixity (yang saya kembangkan sebagian untuk mengatasi keterbatasan dan masalah PAR2). Ada juga sistem file yang secara opsional mengimplementasikan Reed-Solomon seperti ZFS untuk Linux atau ReFS untuk Windows, yang secara teknis merupakan generalisasi dari RAID5.
Periksa integritas file Anda secara teratur: Hash file Anda, dan periksa dari waktu ke waktu (yaitu, sekali per tahun, tetapi itu tergantung pada media penyimpanan dan kondisi lingkungan). Ketika Anda melihat bahwa file Anda mengalami korupsi, saatnya untuk memperbaiki menggunakan ECC yang Anda buat jika Anda telah melakukannya, dan / atau untuk membuat salinan baru dari data Anda pada media penyimpanan baru. Memeriksa data, memperbaiki korupsi, dan membuat salinan baru adalah siklus kurasi yang sangat baik yang akan memastikan bahwa data Anda aman. Memeriksa khususnya sangat penting karena salinan file Anda dapat rusak secara diam-diam, dan jika Anda kemudian menyalin salinan yang telah dirusak, Anda akan berakhir dengan file yang benar-benar rusak. Ini bahkan lebih penting dengan media penyimpanan dingin, seperti disk optik, yang TIDAK BISA secara otomatis memeriksa integritas data (mereka sudah menerapkan ECC untuk menyembuhkan sedikit, tetapi mereka tidak dapat memeriksa atau membuat salinan baru secara otomatis, itu tugas Anda!). Untuk memantau perubahan file, Anda dapat menggunakan skrip rfigc.py daripyFileFixity atau alat UNIX lainnya seperti md5deep . Anda juga dapat memeriksa status kesehatan beberapa media penyimpanan seperti hard drive menggunakan alat seperti Hard Drive Sentinel atau smartmontools open source .
Simpan media arsip Anda di lokasi yang berbeda (dengan setidaknya satu salinan di luar rumah Anda!) Untuk menghindari peristiwa bencana kehidupan nyata seperti banjir atau kebakaran. Misalnya, satu cakram optik di tempat kerja Anda, atau cadangan berbasis cloud dapat menjadi ide bagus untuk memenuhi persyaratan ini (bahkan jika penyedia cloud dapat dimatikan kapan saja, selama Anda memiliki salinan lain, Anda akan aman , penyedia cloud hanya akan berfungsi sebagai arsip di luar kantor jika terjadi keadaan darurat).
Simpan dalam wadah khusus dengan parameter lingkungan yang terkontrol : untuk media optik, simpan jauh dari cahaya dan dalam kotak kedap air untuk menghindari kelembaban. Untuk hard drive dan kartu sd, simpan dalam selongsong anti-magnetik untuk menghindari sisa listrik merusak drive. Anda juga dapat menyimpan dalam kantong / kotak kedap udara dan kedap air dan menyimpannya dalam freezer: suhu lambat akan memperlambat entropi, dan Anda dapat memperpanjang cukup banyak masa hidup media penyimpanan seperti itu (pastikan air menang bisa masuk ke dalam, kalau tidak medium Anda akan cepat mati).
Gunakan perangkat keras berkualitas baik dan periksa terlebih dahulu (misalnya: ketika Anda membeli kartu SD, uji seluruh kartu dengan perangkat lunak seperti HDD Scan untuk memeriksa bahwa semuanya baik-baik saja sebelum menulis data Anda). Ini sangat penting untuk drive optik, karena kualitasnya dapat secara drastis mengubah kualitas cakram yang Anda bakar, seperti yang ditunjukkan oleh studi Archives de France (pembakar DVD yang buruk akan menghasilkan DVD yang akan bertahan jauh lebih sedikit).
Pilih dengan hati-hati format file Anda: tidak semua format file tahan terhadap korupsi, beberapa bahkan jelas lemah. Misalnya, gambar .jpg dapat benar-benar rusak dan tidak dapat dibaca dengan merusak hanya satu atau dua byte. Sama untuk arsip 7zip. Ini konyol, jadi berhati-hatilah dengan format file dari file yang Anda arsipkan. Sebagai aturan praktis, teks jernih sederhana adalah yang terbaik, tetapi jika Anda perlu mengompres, gunakan zip non-padat dan untuk gambar, gunakan JPEG2 (belum open-source ...). Info lebih lanjut dan ulasan dari kurator pro digital di sini , di sini , dan di sini .
Simpan di samping arsip data Anda setiap perangkat lunak dan spesifikasi yang diperlukan untuk membaca data. Ingatlah bahwa spesifikasi berubah dengan cepat, dan dengan demikian di masa depan data Anda mungkin tidak dapat dibaca lagi, bahkan jika Anda dapat mengakses file. Dengan demikian, Anda harus memilih format dan perangkat lunak open source, dan menyimpan kode sumber program di sepanjang data Anda sehingga Anda selalu dapat mengadaptasi program dari kode sumber untuk diluncurkan dari OS atau komputer baru.
Banyak metode dan pendekatan lain tersedia di sini , di sini dan di berbagai bagian Internet.
Kesimpulan
Saya menyarankan untuk menggunakan apa yang dapat Anda miliki, tetapi selalu menghormati prinsip redundansi (membuat 4 salinan!), Dan selalu memeriksa integritas secara berkala (jadi Anda perlu membuat pra-database database hash MD5 / SHA1 sebelumnya), dan membuat yang baru salinan dalam kasus korupsi. Jika Anda melakukannya, Anda dapat secara teknis menyimpan data selama Anda menginginkan apa pun media penyimpanan Anda. Waktu antara setiap pemeriksaan tergantung pada keandalan media penyimpanan Anda: jika itu floppy disk, periksa setiap 2 bulan, apakah itu HTL Blu-ray, periksa setiap 2/3 tahun.
Sekarang dalam kondisi optimal, saya menyarankan agar cold storage menggunakan cakram Blu-ray HTL atau cakram DVD kelas arsip yang disimpan dalam kotak yang kedap air dan disimpan di tempat yang segar. Selain itu, Anda dapat menggunakan kartu SD dan penyedia berbasis cloud seperti SpiderOak untuk menyimpan salinan data Anda yang berlebihan, atau bahkan hard drive jika lebih mudah diakses oleh Anda.
Gunakan banyak kode koreksi kesalahan , mereka akan menghemat hari Anda. Anda juga dapat membuat banyak salinan dari file ECC ini (tetapi banyak salinan data Anda lebih penting daripada banyak salinan ECC karena file ECC dapat memperbaiki diri mereka sendiri!).
Semua strategi ini dapat diimplementasikan menggunakan seperangkat alat yang saya kembangkan (open source): pyFileFixity . Alat ini sebenarnya dimulai oleh diskusi ini, setelah menemukan bahwa tidak ada alat gratis untuk sepenuhnya mengelola perbaikan file. Juga, silakan merujuk ke readme proyek dan wiki untuk info lebih lanjut tentang perbaikan file dan kurasi digital.
Pada catatan terakhir, saya benar-benar berharap bahwa lebih banyak R&D akan diberikan pada masalah ini. Ini adalah masalah utama bagi masyarakat kita saat ini, memiliki lebih banyak data digital, tetapi tanpa jaminan bahwa massa informasi ini akan bertahan lebih dari beberapa tahun. Itu cukup menyedihkan, dan saya benar-benar berpikir bahwa masalah ini harus diletakkan jauh lebih maju, sehingga ini menjadi titik pemasaran bagi konstruktor dan perusahaan untuk membuat perangkat penyimpanan yang dapat bertahan untuk generasi mendatang.
/ EDIT: baca di bawah ini untuk rutin kurasi praktis .