'Y harus didistribusikan secara normal'
harus?
Dalam kasus yang Anda sebutkan itu adalah bahasa yang ceroboh (disingkat 'kesalahan dalam Y harus didistribusikan secara normal' ), tetapi mereka tidak benar-benar (sangat) mengatakan bahwa responsnya harus didistribusikan secara normal, atau setidaknya sepertinya tidak saya bahwa kata-kata mereka dimaksudkan seperti itu.
Materi kursus Penn State
berbicara tentang "variabel kontinu "Y , tetapi juga tentang " " seperti dalam mana kita dapat menganggap , yang disebut amoeba dalam komentar 'conditional', biasanya didistribusikan,YiE(Yi)=β0+β1xi
Yi
Yi∼N(β0+β1xi,σ2)
Artikel menggunakan dan secara bergantian. Di seluruh artikel kita berbicara tentang 'distribusi Y', misalnya: YYi
namun pada titik lain mereka juga merujuk ke alih-alih :YiY
Variabel dependen TIDAK perlu terdistribusi secara normal, tetapi biasanya mengasumsikan distribusi dari keluarga eksponensial (misalnya binomial, Poisson, multinomial, normal, ...)Yi
Halaman websolusi statistik
adalah deskripsi yang sangat singkat, disederhanakan, bergaya. Saya tidak yakin Anda harus menganggap ini serius. Sebagai contoh, ini berbicara tentang
..membutuhkan semua variabel normal multivarian ...
sehingga bukan hanya variabel respon,
dan juga deskripsi 'multivarian' tidak jelas. Saya tidak yakin bagaimana menafsirkannya.
Artikel wikipedia
memiliki konteks tambahan yang dijelaskan dalam tanda kurung:
Regresi linier biasa memprediksi nilai yang diharapkan dari jumlah yang tidak diketahui yang diberikan (variabel respons, variabel acak) sebagai kombinasi linear dari serangkaian nilai yang diamati (prediktor) . Ini menyiratkan bahwa perubahan konstan dalam prediktor mengarah ke perubahan konstan dalam variabel respons (yaitu model respons linear). Ini sesuai ketika variabel respon memiliki distribusi normal (secara intuitif, ketika variabel respon dapat bervariasi pada dasarnya tanpa batas di kedua arah tanpa "nilai nol" tetap, atau lebih umum untuk setiap kuantitas yang hanya bervariasi dengan jumlah yang relatif kecil, misalnya manusia ketinggian).
Ini 'tidak ada nilai nol tetap' tampaknya menunjuk pada kasus bahwa kombinasi linear ketika memiliki domain tak hingga (dari minus tak terhingga ke plus tak terhingga) sedangkan sering banyak variabel memiliki beberapa nilai batas hingga (seperti jumlah yang tidak memungkinkan nilai negatif).y+ϵϵ∼N(0,σ)
Baris tertentu telah ditambahkan pada 8 Maret 2012 , tetapi perhatikan bahwa baris pertama artikel Wikipedia masih berbunyi "generalisasi yang fleksibel dari regresi linier biasa yang memungkinkan untuk variabel respon yang memiliki model distribusi kesalahan selain dari distribusi normal" dan tidak sangat (tidak di mana-mana) salah.
Kesimpulan
Jadi, berdasarkan tiga contoh ini (yang memang bisa menghasilkan kesalahpahaman, atau setidaknya bisa disalahpahami) saya tidak akan mengatakan bahwa "kesalahpahaman ini telah menyebar" . Atau setidaknya tidak bagi saya bahwa maksud dari ketiga contoh tersebut adalah untuk berpendapat bahwa Y harus didistribusikan secara normal (walaupun saya ingat masalah ini telah muncul sebelumnya di sini di stackexchange, pertukaran antara kesalahan yang didistribusikan secara normal dan variabel respon yang didistribusikan secara normal mudah dibuat).
Jadi, asumsi bahwa 'Y harus didistribusikan secara normal' bagi saya tampaknya bukan seperti kepercayaan / kesalahpahaman yang tersebar luas (seperti dalam sesuatu yang menyebar seperti ikan herring merah), tetapi lebih seperti kesalahan umum (yang tidak menyebar tetapi dibuat secara independen setiap kali ).
Komentar tambahan
Contoh kesalahan pada situs web ini adalah dalam pertanyaan berikut
Bagaimana jika residu terdistribusi normal, tetapi y tidak?
Saya akan menganggap ini sebagai pertanyaan pemula. Itu tidak hadir dalam bahan-bahan seperti materi kursus Penn State, situs web Wikipedia, dan baru-baru ini dicatat dalam komentar buku 'Memperluas Regresi Linier dengan R'.
Para penulis karya-karya itu benar memahami materi. Memang, mereka menggunakan frasa seperti 'Y harus berdistribusi normal', tetapi berdasarkan konteks dan rumus yang digunakan Anda dapat melihat bahwa mereka semua berarti 'Y, tergantung pada X, harus terdistribusi secara normal' dan bukan 'marginal Y harus didistribusikan secara normal '. Mereka tidak salah memahami gagasan itu sendiri, dan setidaknya gagasan itu tidak tersebar luas di antara para ahli statistik dan orang-orang yang menulis buku dan materi pelajaran lainnya. Tetapi salah membaca kata-kata ambigu mereka memang dapat menyebabkan kesalahpahaman.