Saya perlu memastikan bahwa sitemap XML saya memiliki kurang dari sampah (tautan rusak). Daftar URL ada dalam ratusan ribu, dan bahkan jika mungkin untuk menguji semuanya 1 per 1 saya lebih suka tidak, karena berbagai alasan:
1 - Saved bandwidth
2 - Faster traffic for real clients
3 - Less noise in visitor statistics (because my test would count as a visit)
5 - I could go on...
Jadi saya pikir mengambil subset acak akan cukup, masalahnya adalah saya tidak tahu probabilitas.
Apakah ada fungsi sederhana yang bisa saya gunakan?
Jika ini membantu, kita dapat mengira memiliki informasi a priori tentang kemungkinan tautan untuk dipecah di seluruh proses. Katakanlah di lintas berjalan ada untuk setiap tautan yang akan diputus.