Katakanlah saya menjalankan komputasi superkomputer pada 100k core selama 4 jam di http://www.nersc.gov/users/computational-systems/edison/configuration , bertukar sekitar 4 PB data melalui jaringan dan melakukan sekitar 4 TB I / HAI. Penghitungan semuanya bilangan bulat, sehingga hasilnya benar atau salah (tidak ada kesalahan angka menengah).
Dengan asumsi kode itu benar, saya ingin memperkirakan probabilitas bahwa perhitungannya salah karena kegagalan perangkat keras. Apa cara yang baik untuk melakukan ini? Apakah ada sumber yang bagus untuk angka yang diperlukan untuk membuat perkiraan seperti itu?