Saya mencoba membuat metrik untuk mengukur ketidaksamaan distribusi untuk percobaan yang saya jalankan. Saya memiliki variabel acak yang harus didistribusikan secara seragam dalam banyak kasus, dan saya ingin dapat mengidentifikasi (dan mungkin mengukur tingkat) contoh kumpulan data di mana variabel tidak terdistribusi secara seragam dalam margin tertentu.
Contoh tiga seri data masing-masing dengan 10 pengukuran yang mewakili frekuensi kemunculan sesuatu yang saya ukur mungkin kira-kira seperti ini:
a: [10% 11% 10% 9% 9% 11% 10% 10% 12% 8%]
b: [10% 10% 10% 8% 10% 10% 9% 9% 12% 8%]
c: [ 3% 2% 60% 2% 3% 7% 6% 5% 5% 7%] <-- non-uniform
d: [98% 97% 99% 98% 98% 96% 99% 96% 99% 98%]
Saya ingin dapat membedakan distribusi seperti c dari yang seperti a dan b, dan mengukur deviasi c dari distribusi yang seragam. Sama halnya, jika ada metrik untuk seberapa seragam suatu distribusi (std. Deviasi mendekati nol?), Saya mungkin dapat menggunakannya untuk membedakan yang dengan varian tinggi. Namun, data saya mungkin hanya memiliki satu atau dua outlier, seperti contoh c di atas, dan saya tidak yakin apakah itu akan mudah dideteksi dengan cara itu.
Saya dapat meretas sesuatu untuk melakukan ini dalam perangkat lunak, tetapi saya sedang mencari metode / pendekatan statistik untuk membenarkan ini secara formal. Saya mengikuti kelas bertahun-tahun yang lalu, tetapi statistik bukanlah bidang saya. Ini sepertinya sesuatu yang harus memiliki pendekatan terkenal. Maaf jika semua ini benar-benar berkepala tebal. Terima kasih sebelumnya!