Hemat biaya, arsip data video dan gambar jangka panjang? ~ 50 TB


16

Laboratorium saya sedang dalam proses menyiapkan server kecil yang menyimpan data (sebagian besar data video dan gambar, ditambah beberapa dokumen) untuk proyek yang sedang dikerjakan oleh grup kami pada saat yang bersamaan. Secara historis, setelah proyek penelitian berakhir, data dengan sembarangan berakhir diarsipkan dalam satu hard drive, atau setumpuk besar DVD (atau CD di masa lalu), dan / atau beberapa video berakhir di kaset Sony DV atau bahkan Kaset VHS (lab ini telah aktif sejak awal 90-an), ATAU campuran dari semua ...

Pertanyaan: Apa cara terbaik untuk (1) menggabungkan mereka SEMUA ke dalam format DAN media penyimpanan yang sama, dan (2) media apa yang terbaik untuk pengarsipan jangka panjang dari data tersebut untuk akses yang sangat sesekali (katakanlah, 30+ tahun?)? Sayangnya kami tidak memiliki anggaran tingkat perusahaan (kami hanya ~ lab 10 orang), jadi tidak dapat melakukan hal-hal yang harganya ratusan ribu dolar.

Terima kasih!

PS Mempertimbangkan video dan gambar lama kami memiliki resolusi yang lebih kecil, tetapi yang baru-baru ini sangat besar, saya pikir kita berbicara tentang 30 ~ 40 TB untuk data yang sangat lama, 10 ~ 20 TB untuk data terbaru, kemudian penambahan tahunan sekitar 5 TB .

Jawaban:


22

Sayangnya, tidak ada cara terbaik untuk Anda. Pengarsipan media digital selama 30 tahun adalah masalah yang sangat sulit dan membutuhkan investasi rutin. Tentang satu-satunya format yang dijamin dapat dibaca dalam 30 tahun adalah ASCII dan UTF8, yang bukan format video. Format penyimpanan berubah, kaset 8 trek reel-to-reel yang kami gunakan 30 tahun yang lalu hampir tidak mungkin untuk dibaca hari ini meskipun data masih dalam rekaman (ada cerita menarik tentang NASA yang membangun kembali tape drive berusia 40 tahun) untuk mendapatkan beberapa kaset data Apollo yang baru dipulihkan / ditemukan). Taruhan terbaik Anda adalah dengan berkomitmen secara berkala, saya katakan setiap 5 tahun, penilaian lingkungan arsip Anda dengan anggaran yang cukup untuk membawa format lama ke format yang lebih baru.

Anda mungkin tahu lebih baik daripada saya, tetapi lanskap video berubah dengan cepat. Pengeditan online waktu nyata sekarang mungkin, di mana itu hanya dapat dilakukan pada kit yang sangat baik bahkan 10 tahun yang lalu. Siapa yang tahu bagaimana keadaan akan terlihat 30 tahun karenanya.

  • Atur jendela arsip Anda selama 5 tahun.
    • Dalam jangka waktu singkat array penyimpanan largish sudah cukup (
      • disk 50TB besar dan lambat bisa didapat dengan harga di bawah $ 70K, mungkin jauh di bawah.
      • Sebuah tape drive LTO5 dan 50 kaset (lebih dari nilai 50TB) dapat diperoleh dengan harga kurang dari $ 15K.
  • Apa format Anda menyimpan video Anda terserah Anda.
  • Mulailah menemukan dan mengonversi semua barang lama Anda ke penyimpanan baru ini.
  • Pada akhir 5 tahun, lakukan penilaian penuh lain dari lingkungan arsip Anda.
    • Format apa yang Anda gunakan?
    • Apa format yang lebih baru?
    • Codec apa yang tampaknya jalan buntu, dan media apa yang Anda simpan yang disandikan seperti itu?
    • Putuskan bagaimana Anda akan bermigrasi ke metode penyimpanan yang lebih baru (format data, disk / tape / yang lainnya), dan belanjakan dengan tepat.
  • Ulangi 6 kali.

Itu akan membuat Anda sampai 30 tahun.


+1, Jika Anda benar-benar mencoba untuk menjadi murah, Anda mungkin bisa melakukannya setiap 10 tahun. Drive ATA-66 & 100 adalah HD preferensi satu dekade lalu, dan masih ada teknologi untuk terhubung dengan itu. Tetapi ada komputer di sekitar sudah yang tidak memiliki header IDE, dekade teknologi lama semakin rapuh.
Chris S

6
+1 untuk poin bagus dalam penyalinan, tetapi -1 untuk menyatakan bahwa format akan menjadi tidak dapat dibaca. Setelah data tersedia pada media yang dapat disalin, file-file tersebut tidak akan menjadi tidak dapat dimainkan kecuali mereka berada dalam format yang SANGAT aneh. Pengarsipan ke sesuatu yang sangat umum seperti MPEG2 sangat mungkin merupakan format yang tahan lama. Transcoding video lossy adalah proses lossy. Seharusnya tidak dilakukan. Kami tidak perlu mengeluarkan biaya banyak untuk menjaga codec video arus utama ...
Paul McMillan

@ Paul Terima kasih atas tipsnya. Terakhir kali saya nongkrong di sekitar orang video adalah 7 tahun yang lalu, jadi saya berkarat.
sysadmin1138

Terima kasih banyak atas penilaian terperinci dan tipnya! Kami akan melakukan yang terbaik dengan anggaran TI kami yang terbatas. Senang sekali Anda semua dan serverfault.com ada di sini untuk membantu.
Hpy

ya, kami datang dengan cara. Namun, saya tidak punya masalah memainkan file AVI berusia 17 tahun dari windows 3.1 hari. Caranya terletak pada pemilihan format yang sudah digunakan secara luas.
Paul McMillan

11

Saya sangat setuju dengan posting sysadmin1138 dalam segala hal kecuali satu peringatan - Saya tidak berpikir Anda akan memiliki anggaran untuk benar-benar mencapai apa yang Anda inginkan.

Ada 5 fungsi utama yang perlu Anda buat;

  • kebijakan konten dan katalog standar - Saya tahu Anda ingin menyimpan semuanya dalam satu format tetapi Anda benar-benar harus mempertimbangkan dua - PDF untuk gambar dan H.264 untuk video - keduanya merupakan format dukungan jangka panjang dengan kode multi-platform yang hampir akan tentu didukung oleh satu pihak atau lainnya selama 25-50 tahun dalam bentuk mereka saat ini hanya karena penggunaan yang ada di seluruh dunia.
  • katalog atau CMS untuk mengindeks dan mempublikasikan konten.
  • sistem 'isi konten' - ini akan mengambil semua media Anda, paket, menyandikan, menyimpan dan memperbarui katalog untuk setiap konten baru. Anda akan memerlukan pemeriksaan kualitas konten manual atau otomatis.
  • toko konten utama - ini akan memiliki dua blok penyimpanan utama; satu kecil untuk menampung konten asal saat sedang ditranskodekan / diperiksa dan blok yang jauh lebih besar untuk menahan konten 'dekat'. Ini adalah satu-satunya kegunaan yang valid untuk RAID 6 yang pernah saya jumpai tetapi coba gunakan disk berkualitas perusahaan yang memiliki 'siklus kerja' 24x365 di sini.
  • sistem cadangan jangka panjang - ini adalah tempat uang nyata akan dibelanjakan, Anda harus memilih vendor yang menawarkan kemampuan cadangan jangka panjang yang sesungguhnya. Jika saya melakukan ini sekarang saya masih akan pergi dengan tape over disk murni untuk alasan umur panjang data, mungkin oleh IBM karena mereka memiliki banyak pengalaman di bidang ini. Anda juga perlu mempertimbangkan bahwa Anda juga perlu melakukan restorasi tape dan verifikasi data secara teratur, yang berarti Anda akan membutuhkan blok penyimpanan ketiga setidaknya sama besar dengan tape terbesar yang Anda miliki - dan sistem untuk memverifikasi juga tentunya. Selain itu, Anda perlu memastikan bahwa perangkat lunak cadangan yang Anda gunakan akan ada untuk waktu yang lama juga, sesuatu seperti TAR di * nix kemungkinan akan ada untuk sementara waktu tetapi mungkin tidak secara fungsional memberi Anda apa yang Anda inginkan. pastikan ini tidak diabaikan oleh vendor rekaman Anda.

Jadi apa yang ingin Anda lakukan dapat dilakukan, saya telah melakukannya sendiri beberapa kali selama dua dekade terakhir - tetapi tidak ada yang murah.

Semoga berhasil.


PDF untuk gambar sepertinya cara yang cukup mengerikan untuk melakukannya. Ya benar-benar PDF untuk dokumen, tetapi simpan gambar sebagai tiffs atau JPEG tergantung pada format output Anda. Kemampuan membaca itu tidak mungkin hilang.
Paul McMillan

Terima kasih atas tipsnya! Jika saya dapat menandai dua jawaban yang diterima saya akan melakukannya untuk ini. :)
hpy

1
itu ok penyuan, 1138 dan tunas;)
Chopper3

2
Jujur, kesulitan dengan segala jenis sistem CMS adalah bahwa ia cenderung menjadi bagian pertama dan paling usang dari suatu sistem. Anda akan lebih baik meminta semua orang untuk menulis file teks ASCII dengan beberapa deskripsi dasar dan menyimpannya dengan data mentah Anda. Setiap CMS atau sistem otomatis akan menjadi tua dalam skala beberapa tahun.
Paul McMillan

3

Yang lain telah memberikan saran yang bagus tentang cara membuat cadangan media Anda. Saya sarankan Anda menghabiskan waktu berkualitas melihat perpustakaan pedoman kongres:

http://www.digitalpreservation.gov/formats/index.shtml

Anda mungkin juga mempertimbangkan membangun array ZFS whitebox murah. Anda mungkin dapat melakukan sesuatu yang sesuai dengan kebutuhan Anda di bawah $ 10k. Saat drive mati, ganti dengan yang lebih besar, sehingga kapasitas penyimpanan Anda bertambah saat Anda menghasilkan data. Itu mungkin akan membuat Anda terus berjalan cukup lama, dan Anda dapat menggantinya dengan perangkat berkapasitas lebih tinggi saat tua. Keuntungannya adalah bahwa data Anda online (sehingga dapat diakses seperlunya), dan relatif terlindungi dengan baik terhadap bitrot, masalah serius ketika Anda memiliki data sebanyak ini.

Opsi pembangunan yang layak disatukan di sini:

http://www.zfsbuild.com/


2

Sesulit bagi para teknolog, saya akan merekomendasikan segera menghentikan pemikiran tentang disk dan teknologi. Pecahkan masalah bisnis Anda menjadi hal-hal yang harus Anda ambil keputusannya.

Contoh:

  • Bagaimana Anda akan berurusan dengan mengubah format kaset digital analog / aneka menjadi media digital yang dapat disimpan pada beberapa jenis penyimpanan digital?
  • Bagaimana Anda mengelola konten dan metadata terkait? Penyimpanan mudah - Anda bisa meletakkan semuanya di kaset KPP dan menyimpannya di tambang garam lama, tetapi Anda tidak akan memiliki akses ke data.
  • Apakah Anda menciptakan kembali roda? Jika Anda berada di universitas, apakah sudah ada solusi untuk manajemen konten yang tersedia secara terpusat? Atau jika Anda perlu membeli / membangun manajemen konten Anda sendiri, adakah infrastruktur terpusat yang dapat Anda beli? (Pita, Penyimpanan objek, SAN)
  • Apa saja persyaratan bisnis yang sebenarnya? Apa yang benar-benar ingin Anda simpan dan mengapa? Seringkali ketika Anda benar-benar menggali inti permasalahan, persyaratan retensi jangka panjang sebenarnya hanya berlaku untuk sebagian kecil data.

1

Ketahuilah bahwa jika Anda menyimpan data dalam format lossy, dan kemudian mengonversi ke format lossy lain, dan kemudian yang lain, kualitas video Anda akan menurun dengan setiap transisi.

Berikut ini berbicara tentang audio, tetapi hal yang sama umumnya berlaku:

Anda dapat mengubah format audio apa pun menjadi Ogg Vorbis. Namun, mengubah dari satu format lossy, seperti MP3, ke format lossy lainnya, seperti Vorbis, umumnya merupakan ide yang buruk. Encoders MP3 dan Vorbis mencapai rasio kompresi yang tinggi dengan membuang bagian-bagian bentuk gelombang audio yang mungkin tidak akan Anda dengar. Namun, codec MP3 dan Vorbis sangat berbeda, sehingga masing-masing akan membuang bagian audio yang berbeda, walaupun pasti ada beberapa tumpang tindih. Mengubah MP3 ke Vorbis melibatkan pengodean kembali file MP3 ke format yang tidak terkompresi, seperti WAV, dan mengompres ulang menggunakan Ogg Vorbis encoder. MP3 yang didekodekan akan kehilangan bagian audio asli yang dibuang oleh pembuat enkode MP3. Encoder Ogg Vorbis kemudian akan membuang komponen audio lainnya saat kompres data. Sebagus-bagusnya, hasilnya akan berupa file Ogg yang terdengar sama dengan MP3 asli Anda, tetapi kemungkinan besar file yang dihasilkan akan terdengar lebih buruk daripada MP3 asli Anda. Anda tidak akan mendapatkan file yang terdengar lebih baik daripada MP3 asli.

Karena banyak pemutar musik dapat memutar file MP3 dan Ogg, tidak ada alasan Anda harus mengalihkan semua file Anda ke satu format atau yang lain. Jika Anda menyukai Ogg Vorbis, maka kami akan mendorong Anda untuk menggunakannya saat Anda menyandikan dari sumber audio asli, lossless (seperti CD). Saat menyandikan dari aslinya, Anda akan menemukan bahwa Anda dapat membuat file Ogg yang lebih kecil atau dengan kualitas yang lebih baik (atau keduanya) daripada MP3 Anda.

(Jika Anda benar-benar harus mengonversi dari MP3 ke Ogg, ada beberapa skrip konversi yang tersedia di Freshmeat.)

http://www.vorbis.com/faq/#transcode

Jadi mungkin yang terbaik untuk memilih format lossless, karena setelah Anda memilih satu format lossy, Anda terjebak dengannya.


3
Video lossless saat ini tidak praktis untuk disimpan. Terlalu mahal untuk mengarsipkan pertunjukan per menit dari rekaman. Pilih codec lossy Anda senang dengan sekarang yang digunakan secara luas, dan biarkan media Anda di dalamnya.
Paul McMillan

Terima kasih atas poin bagus tentang lossless-ness, kami pasti akan berpikir keras tentang ini.
Hpy

1

Mungkin ada sesuatu yang saya lewatkan, tidak bisakah Anda menyandikan semuanya menggunakan format terbuka di mana kode sumber untuk codec tersedia, dan kemudian menempelkan semuanya di Amazon S3?

Dengan begitu Amazon harus khawatir tentang penyimpanan data yang sebenarnya, dan, kecuali tidak ada komputer yang dapat mengkompilasi C / C ++ dalam waktu 30 tahun, Anda akan dapat memperoleh informasi ...

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.