Saya memiliki tes unit yang lebih kecil yang menggunakan cuplikan kecil dari kumpulan data nyata. Saya juga ingin menguji program saya terhadap set data lengkap karena banyak alasan. Satu-satunya masalah adalah bahwa dataset nyata tunggal sekitar ~ 5GB. Saya belum menemukan angka sulit untuk apa yang bisa disimpan repositori Git tetapi sepertinya terlalu banyak.
Solusi yang tim saya telah adopsi adalah bahwa proyek memiliki file yang berisi jalur ke sistem file terlampir jaringan yang menyimpan data pengujian kami. File ini diabaikan Git.
Saya merasa ini adalah solusi yang tidak sempurna karena dua alasan. Ketika NAS tidak berfungsi, lambat, atau turun daripada kita tidak bisa menjalankan tes penuh. Alasan kedua adalah bahwa ketika seseorang pertama kali mengkloning repositori, unit test gagal sehingga mereka harus mencari cara untuk me-mount sesuatu dengan nama tertentu dan sintaks yang digunakan untuk membangun file path pengujian.
Jadi pertanyaan saya ada dua. Berapa banyak data, terlalu banyak data untuk disimpan dalam kontrol revisi?
Apa cara yang lebih baik untuk menangani sejumlah besar data uji?