Bukankah distribusi normal memungkinkan nilai negatif?
Benar. Itu juga tidak memiliki batas atas.
Di salah satu bagian dari buku teks saya, dikatakan bahwa distribusi normal bisa baik untuk pemodelan nilai ujian.
Terlepas dari pernyataan sebelumnya, namun demikian kadang-kadang demikian. Jika Anda memiliki banyak komponen untuk pengujian, tidak terlalu kuat terkait (mis. Sehingga Anda pada dasarnya tidak pertanyaan yang sama belasan kali, atau setiap bagian memerlukan jawaban yang benar untuk bagian sebelumnya), dan tidak sangat mudah atau sangat sulit ( sehingga sebagian besar mark berada di suatu tempat dekat tengah), maka marka mungkin sering cukup baik didekati dengan distribusi normal; seringkali cukup baik sehingga analisis tipikal harus menimbulkan sedikit perhatian.
Kami tahu pasti bahwa itu tidak normal , tetapi itu tidak secara otomatis menjadi masalah - selama perilaku prosedur yang kami gunakan cukup dekat dengan apa yang seharusnya untuk tujuan kami (misalnya kesalahan standar, interval kepercayaan, tingkat signifikansi dan kekuatan - mana yang dibutuhkan - lakukan dekat dengan apa yang kita harapkan)
Pada bagian selanjutnya, ia menanyakan distribusi apa yang sesuai untuk memodelkan klaim asuransi mobil. Kali ini, dikatakan bahwa distribusi yang sesuai adalah Gamma atau Inverse Gaussian karena mereka kontinu dengan nilai positif saja.
Ya, tetapi lebih dari itu - mereka cenderung condong ke kanan dan variabilitas cenderung meningkat ketika rata-rata semakin besar.
Berikut adalah contoh distribusi ukuran klaim untuk klaim kendaraan:
https://ars.els-cdn.com/content/image/1-s2.0-S0167668715303358-gr5.jpg
(Gambar 5 dari Garrido, Genest & Schulz (2016) "Model linear umum untuk frekuensi dan tingkat keparahan klaim asuransi yang tergantung", Asuransi: Matematika dan Ekonomi, Vol 70, September, p205-215. Https : //www.sciencedirect. com / science / article / pii / S0167668715303358 )
Ini menunjukkan ekor kanan miring kanan dan berat kanan. Namun kita harus sangat berhati-hati karena ini adalah distribusi marjinal, dan kami menulis model untuk distribusi bersyarat , yang biasanya akan jauh lebih condong (distribusi marjinal yang kita lihat jika kita hanya melakukan histogram ukuran klaim sebagai campuran distribusi bersyarat ini). Namun demikian biasanya adalah kasus bahwa jika kita melihat ukuran klaim dalam subkelompok prediktor (mungkin mengkategorikan variabel kontinu) bahwa distribusinya masih sangat condong ke kanan dan berekor cukup berat di sebelah kanan, menunjukkan bahwa sesuatu seperti model gamma * adalah mungkin jauh lebih cocok daripada model Gaussian.
* mungkin ada sejumlah distribusi lain yang akan lebih cocok daripada Gaussian - Gaussian terbalik adalah pilihan lain - meskipun kurang umum; model lognormal atau Weibull, walaupun bukan GLM sebagaimana adanya, mungkin cukup berguna juga.
[Jarang terjadi bahwa distribusi ini adalah deskripsi yang hampir sempurna; mereka perkiraan yang tidak tepat, tetapi dalam banyak kasus cukup baik sehingga analisis ini berguna dan dekat dengan properti yang diinginkan.]
Yah, saya percaya bahwa nilai ujian juga akan berlanjut dengan hanya nilai-nilai positif, jadi mengapa kita menggunakan distribusi normal di sana?
Karena (dalam kondisi yang saya sebutkan sebelumnya - banyak komponen, tidak terlalu tergantung, tidak sulit atau mudah) distribusinya cenderung cukup dekat dengan simetris, unimodal dan tidak berekor berat.