Saya seorang mahasiswa PhD Geofisika dan bekerja dengan sejumlah besar data gambar (ratusan GB, puluhan ribu file). Saya tahu svn
dan git
cukup baik dan datang untuk menghargai sejarah proyek, dikombinasikan dengan kemampuan untuk mudah bekerja sama dan memiliki perlindungan terhadap kerusakan disk. Saya menemukan git
juga sangat membantu untuk memiliki cadangan yang konsisten tetapi saya tahu bahwa git tidak dapat menangani sejumlah besar data biner secara efisien.
Dalam studi master saya, saya bekerja pada kumpulan data dengan ukuran yang sama (juga gambar) dan memiliki banyak masalah melacak versi yang berbeda pada server / perangkat yang berbeda. Menyebarkan 100GB melalui jaringan benar-benar tidak menyenangkan, dan menghabiskan banyak waktu dan upaya saya.
Saya tahu bahwa orang lain dalam sains tampaknya memiliki masalah yang sama, namun saya tidak dapat menemukan solusi yang baik.
Saya ingin menggunakan fasilitas penyimpanan di institut saya, jadi saya perlu sesuatu yang bisa menggunakan server "bodoh". Saya juga ingin memiliki cadangan tambahan pada hard disk portabel, karena saya ingin menghindari mentransfer ratusan GB melalui jaringan sedapat mungkin. Jadi, saya memerlukan alat yang dapat menangani lebih dari satu lokasi terpencil.
Terakhir, saya benar-benar membutuhkan sesuatu yang bisa digunakan peneliti lain, jadi tidak perlu super sederhana, tetapi harus dipelajari dalam beberapa jam.
Saya telah mengevaluasi banyak solusi yang berbeda, tetapi tampaknya tidak ada yang sesuai dengan tagihan:
- svn agak tidak efisien dan membutuhkan server pintar
- hg bigfile / largefile hanya dapat menggunakan satu remote
- git bigfile / media juga dapat menggunakan hanya satu remote, tetapi juga tidak terlalu efisien
- loteng tampaknya tidak memiliki log, atau kemampuan yang berbeda
- bup terlihat sangat bagus, tetapi membutuhkan server "pintar" untuk bekerja
Saya sudah mencoba git-annex
, yang melakukan semua yang saya butuhkan (dan masih banyak lagi), tetapi sangat sulit digunakan dan tidak didokumentasikan dengan baik. Saya sudah menggunakannya selama beberapa hari dan tidak bisa memahaminya, jadi saya ragu rekan kerja lain akan tertarik.
Bagaimana peneliti menangani set data besar, dan apa yang digunakan kelompok riset lain?
Untuk lebih jelasnya, saya terutama tertarik pada bagaimana peneliti lain menangani situasi ini, bukan hanya dataset khusus ini. Tampaknya bagi saya bahwa hampir semua orang seharusnya memiliki masalah ini, namun saya tidak tahu siapa yang telah menyelesaikannya. Haruskah saya menyimpan cadangan data asli dan melupakan semua hal ini versi kontrol? Itukah yang dilakukan orang lain?