mengapa ketika kita memiliki kesalahan yang tidak terdistribusi secara normal, apakah validitas pernyataan signifikansi kita dikompromikan? Mengapa interval kepercayaan terlalu lebar atau sempit?
Interval kepercayaan didasarkan pada cara pembilang dan penyebut didistribusikan dalam t-statistik.
Dengan data normal pembilang suatu t-statistik memiliki distribusi normal dan distribusi kuadrat penyebut (yang kemudian varians) adalah kelipatan tertentu dari distribusi chi-kuadrat. Ketika pembilang dan penyebutnya juga independen (karena hanya akan menjadi kasus dengan data normal, mengingat pengamatan itu sendiri independen), seluruh statistik memiliki distribusi-t.
β^- βsβ^βt
Jika data berasal dari distribusi lain, statistik tidak akan memiliki distribusi-t. Misalnya, jika berekor berat, distribusi-t cenderung cenderung sedikit lebih ringan (pengamatan terluar lebih banyak mempengaruhi penyebut daripada pembilang). Ini sebuah contoh. Dalam kedua kasus, histogram adalah untuk 10.000 regresi:
β= 0( - 2 , 2 )
Interval t 95% (yang harus mencakup 95% lereng dalam sampel kami) beroperasi dari -2,048 hingga 2,048. Untuk data normal, sebenarnya termasuk 95,15% dari 10.000 lereng sampel. Untuk data yang miring ini termasuk 99,91%.