Dari mana datangnya kesalahpahaman bahwa Y harus didistribusikan secara normal?

Tampaknya sumber yang memiliki reputasi baik menyatakan bahwa variabel dependen harus didistribusikan secara normal:

Asumsi model: terdistribusi secara normal, kesalahan terdistribusi normal, , dan independen, dan diperbaiki, dan varians konstan . $Y$ $e_i \sim N(0,\sigma^2)$ $X$ $\sigma^2$

Penn State, STAT 504 Analisis Data Diskrit

Kedua, analisis regresi linier mengharuskan semua variabel normal multivariat.

StatistikSolusi, Asumsi Regresi Linier

Ini sesuai ketika variabel respons memiliki distribusi normal

Wikipedia, model linier umum

Adakah penjelasan yang baik tentang bagaimana atau mengapa kesalahpahaman ini menyebar? Apakah asalnya diketahui?

Terkait

Regresi linier dan asumsi tentang variabel respons

— timwiz
sumber

Sedih. Anda melakukan perbuatan baik di sini ...

— jbowman

Saya tidak tahu situasi apa pun yang menggunakan regresi linier yang memerlukan distribusi marginal , atau gabungan semua variabel menjadi multivariat normal. Itu tampak seperti kesalahpahaman bagi saya.

Y

$Y$

— Matthew Drury

@MichaelChernick "Y terdistribusi secara normal" jelas-jelas salah. Lihat di R: X <- runif(n=100)lalu Y <- 3 + .5*X + rnorm(n=100, mean = 0, sd = .1)mainkan dengan histogram untuk meyakinkan diri sendiri bahwa X atau Y tidak terdistribusi secara normal. Kemudian summary(lm(Y ~ X)), dan perhatikan sangat dekat dengan seberapa dekat intersep ke 3, dan kemiringan X adalah 0,5. Asumsinya adalah bahwa kesalahan terdistribusi secara normal.

— Alexis

@Alexis Saya percaya apa yang Michael coba katakan adalah bahwa asumsi Normalitas multivariat cukup tetapi tidak perlu. Itu jelas bagaimana seseorang harus membaca kutipan Wikipedia. Kutipan kedua jelas salah dalam menyatakan bahwa asumsi-asumsi itu perlu. Kutipan pertama bersifat ambigu tetapi dapat dengan murah hati dibaca dalam arti yang dijelaskan oleh Michael.

— Whuber

Yang saya katakan adalah asumsi normalitas menyiratkan sifat-sifat tertentu. Sebagai contoh dalam regresi linier sederhana jika Anda mengasumsikan istilah kesalahan adalah normal dengan nol rata-rata dan varians konstan estimasi kuadrat terkecil dari parameter regresi kemungkinan maksimum. Menyimpan semua asumsi kecuali normalitas kuadrat terkecil tidak lagi kemungkinan maksimum tetapi masih varians minimum yang tidak bias.

— Michael Chernick

Jawaban:

'Y harus didistribusikan secara normal'

harus?

Dalam kasus yang Anda sebutkan itu adalah bahasa yang ceroboh (disingkat 'kesalahan dalam Y harus didistribusikan secara normal' ), tetapi mereka tidak benar-benar (sangat) mengatakan bahwa responsnya harus didistribusikan secara normal, atau setidaknya sepertinya tidak saya bahwa kata-kata mereka dimaksudkan seperti itu.

Materi kursus Penn State

berbicara tentang "variabel kontinu " $Y$ , tetapi juga tentang " " seperti dalam mana kita dapat menganggap , yang disebut amoeba dalam komentar 'conditional', biasanya didistribusikan, $Y_i$

E (Y_{i}) = β_{0} + β_{1} x_{i}

$E(Y_i) = \beta_0 + \beta_1 x_i$

Y_{i}

$Y_i$

Y_{i} \sim N (β_{0} + β_{1} x_{i}, σ^{2})

$Y_i \sim N(\beta_0 + \beta_1x_i,\sigma^2)$

Artikel menggunakan dan secara bergantian. Di seluruh artikel kita berbicara tentang 'distribusi Y', misalnya: $Y$ $Y_i$

ketika menjelaskan beberapa varian GLM (regresi logistik biner),

Komponen acak : Distribusi diasumsikan , ... $Y$ $Binomial(n,\pi)$
dalam beberapa definisi

Komponen Acak - mengacu pada distribusi probabilitas dari variabel respons ( ); misalnya distribusi normal untuk dalam regresi linier, atau distribusi binomial untuk dalam regresi logistik biner. $Y$ $Y$ $Y$

namun pada titik lain mereka juga merujuk ke alih-alih : $Y_i$ $Y$

Variabel dependen TIDAK perlu terdistribusi secara normal, tetapi biasanya mengasumsikan distribusi dari keluarga eksponensial (misalnya binomial, Poisson, multinomial, normal, ...) $Y_i$

Halaman websolusi statistik

adalah deskripsi yang sangat singkat, disederhanakan, bergaya. Saya tidak yakin Anda harus menganggap ini serius. Sebagai contoh, ini berbicara tentang

..membutuhkan semua variabel normal multivarian ...

sehingga bukan hanya variabel respon,

dan juga deskripsi 'multivarian' tidak jelas. Saya tidak yakin bagaimana menafsirkannya.

Artikel wikipedia

memiliki konteks tambahan yang dijelaskan dalam tanda kurung:

Regresi linier biasa memprediksi nilai yang diharapkan dari jumlah yang tidak diketahui yang diberikan (variabel respons, variabel acak) sebagai kombinasi linear dari serangkaian nilai yang diamati (prediktor) . Ini menyiratkan bahwa perubahan konstan dalam prediktor mengarah ke perubahan konstan dalam variabel respons (yaitu model respons linear). Ini sesuai ketika variabel respon memiliki distribusi normal (secara intuitif, ketika variabel respon dapat bervariasi pada dasarnya tanpa batas di kedua arah tanpa "nilai nol" tetap, atau lebih umum untuk setiap kuantitas yang hanya bervariasi dengan jumlah yang relatif kecil, misalnya manusia ketinggian).

Ini 'tidak ada nilai nol tetap' tampaknya menunjuk pada kasus bahwa kombinasi linear ketika memiliki domain tak hingga (dari minus tak terhingga ke plus tak terhingga) sedangkan sering banyak variabel memiliki beberapa nilai batas hingga (seperti jumlah yang tidak memungkinkan nilai negatif). $y+\epsilon$ $\epsilon \sim N(0,\sigma)$

Baris tertentu telah ditambahkan pada 8 Maret 2012 , tetapi perhatikan bahwa baris pertama artikel Wikipedia masih berbunyi "generalisasi yang fleksibel dari regresi linier biasa yang memungkinkan untuk variabel respon yang memiliki model distribusi kesalahan selain dari distribusi normal" dan tidak sangat (tidak di mana-mana) salah.

Kesimpulan

Jadi, berdasarkan tiga contoh ini (yang memang bisa menghasilkan kesalahpahaman, atau setidaknya bisa disalahpahami) saya tidak akan mengatakan bahwa "kesalahpahaman ini telah menyebar" . Atau setidaknya tidak bagi saya bahwa maksud dari ketiga contoh tersebut adalah untuk berpendapat bahwa Y harus didistribusikan secara normal (walaupun saya ingat masalah ini telah muncul sebelumnya di sini di stackexchange, pertukaran antara kesalahan yang didistribusikan secara normal dan variabel respon yang didistribusikan secara normal mudah dibuat).

Jadi, asumsi bahwa 'Y harus didistribusikan secara normal' bagi saya tampaknya bukan seperti kepercayaan / kesalahpahaman yang tersebar luas (seperti dalam sesuatu yang menyebar seperti ikan herring merah), tetapi lebih seperti kesalahan umum (yang tidak menyebar tetapi dibuat secara independen setiap kali ).

Komentar tambahan

Contoh kesalahan pada situs web ini adalah dalam pertanyaan berikut

Bagaimana jika residu terdistribusi normal, tetapi y tidak?

Saya akan menganggap ini sebagai pertanyaan pemula. Itu tidak hadir dalam bahan-bahan seperti materi kursus Penn State, situs web Wikipedia, dan baru-baru ini dicatat dalam komentar buku 'Memperluas Regresi Linier dengan R'.

Para penulis karya-karya itu benar memahami materi. Memang, mereka menggunakan frasa seperti 'Y harus berdistribusi normal', tetapi berdasarkan konteks dan rumus yang digunakan Anda dapat melihat bahwa mereka semua berarti 'Y, tergantung pada X, harus terdistribusi secara normal' dan bukan 'marginal Y harus didistribusikan secara normal '. Mereka tidak salah memahami gagasan itu sendiri, dan setidaknya gagasan itu tidak tersebar luas di antara para ahli statistik dan orang-orang yang menulis buku dan materi pelajaran lainnya. Tetapi salah membaca kata-kata ambigu mereka memang dapat menyebabkan kesalahpahaman.

— Sextus Empiricus
sumber

+1 Yang mengatakan: Saya pikir kita semua telah melihat banyak pertanyaan yang menyatakan normalitas marginal Y di sini ... ada beberapa penyebaran kesalahpahaman. :)

— Alexis

Ya saya setuju bahwa asumsi 'y biasanya didistribusikan' sering terjadi (saya tidak dapat menemukan contoh dengan mudah, tetapi itu mungkin karena orang menggambarkan hal-hal ini di antara baris dan tidak dengan kata kunci sederhana). Namun, saya percaya bahwa ini lebih dari sesuatu yang 'umum' bukan sesuatu yang sangat ' tersebar '. Dan setidaknya, tentu saja tiga contoh yang diberikan oleh OP tidak terlalu kuat (tidak kuat dalam arti menunjukkan penyebaran kesalahpahaman, meskipun mereka menggambarkan penggunaan bahasa secara patologis dan bagaimana kesalahan dapat berasal).

— Sextus Empiricus

@Martijn Weterings: Saya ingin tidak setuju dengan pernyataan Anda "Saya tidak akan mengatakan bahwa kesalahpahaman ini telah menyebar". Dalam bukunya Extending the Linear Regression dengan R, digunakan sebagai bacaan wajib di sejumlah program statistik pascasarjana, Julian Faraway menyatakan pada halaman xi di Pendahuluan buku ini bahwa "Model linear standar tidak dapat menangani respons yang tidak normal, y, seperti sebagai jumlah atau proporsi ".

— ColorStatistics

@ColorStatistics, perhatikan konteks dan interpretasi yang saya berikan untuk 'menyebar' (seperti dalam sesuatu yang menyebar seperti ikan haring merah). Orang membuat kesalahan, dan kesalahan ini mungkin ada di mana-mana. Tapi itu tidak seperti menyebar seperti disalin (misalnya contoh kesalahan yang disalin, dan menyebar adalah penggunaan derajat kebebasan dalam tabel kontingensi alih-alih , yang terjadi antara 1900 dan 1920) .....

n - 1

$n-1$

(r - 1) (c - 1)

$(r-1)(c-1)$

— Sextus Empiricus

@ColorStatistics, saya baru saja melewati beberapa bagian teks dan jelas bahwa penulisnya tidak bingung (berdasarkan pada rumus yang tidak ambigu). Misalnya buku bahkan dimulai dengan: " mana didistribusikan secara normal" $y = \beta_0 + \beta_1 x_1 + ... \beta_p x_p + \epsilon$ $\epsilon$ . Memang, penulis sering menggunakan frasa seperti "responsnya ... didistribusikan". Tapi, artinya respons bersyarat . Saya menganggap ini lebih sebagai tulisan singkat dan penulis tidak bermaksud menyampaikan secara harfiah bahwa tanggapan marjinal harus memiliki distribusi khusus yang disebutkan.

— Sextus Empiricus

Adakah penjelasan yang baik tentang bagaimana / mengapa kesalahpahaman ini menyebar? Apakah asalnya diketahui?

Kami biasanya mengajarkan versi statistik yang "disederhanakan" kepada mahasiswa sarjana dalam banyak disiplin ilmu. Saya dalam psikologi, dan ketika saya mencoba memberi tahu para mahasiswa bahwa nilai- p adalah "probabilitas data — atau lebih banyak data ekstrem — mengingat bahwa hipotesis nol itu benar," kolega memberi tahu saya bahwa saya membahas lebih detail daripada yang saya butuhkan. menutupi. Bahwa saya membuatnya lebih sulit daripada seharusnya, dll. Karena siswa di kelas memiliki berbagai kenyamanan (atau ketiadaan) dengan statistik, instruktur umumnya tetap sederhana: "Kami menganggapnya sebagai temuan yang andal jika p <.05, "misalnya, alih-alih memberi mereka definisi aktual dari nilai- p .

Saya pikir di sinilah penjelasan mengapa kesalahpahaman telah menyebar. Misalnya, Anda dapat menulis model sebagai:

$Y = \beta_0 + \beta_1X + \epsilon$ mana $\epsilon \sim \text{N}(0, \sigma^2_\epsilon)$

Ini dapat ditulis ulang sebagai:

$Y|X \sim \text{N}(\beta_0 + \beta_1X, \sigma^2_\epsilon)$

Yang berarti bahwa "Y, tergantung pada X, biasanya terdistribusi dengan rata-rata nilai yang diprediksi dan beberapa varian."

Ini sulit untuk dijelaskan, sehingga orang yang menggunakan steno mungkin hanya mengatakan: "Y harus didistribusikan secara normal." Atau ketika itu dijelaskan kepada mereka pada awalnya, orang-orang salah memahami bagian bersyarat — karena, jujur, membingungkan.

Jadi dalam upaya untuk tidak membuat hal-hal menjadi sangat rumit, instruktur hanya menyederhanakan apa yang mereka katakan agar tidak terlalu membingungkan kebanyakan siswa. Dan kemudian orang melanjutkan pendidikan statistik mereka atau praktik statistik dengan kesalahpahaman itu. Saya sendiri tidak sepenuhnya memahami konsep itu sampai saya mulai melakukan pemodelan Bayesian di Stan, yang mengharuskan Anda untuk menulis asumsi Anda dengan cara ini:

model {
  vector[n_obs] yhat;

  for(i in 1:n_obs) {
    yhat[i] = beta[1] + beta[2] * x1[i] + beta[3] * x2[i];
  }

  y ~ normal(yhat, sigma);
}

Juga, dalam banyak paket statistik dengan GUI (melihat Anda, SPSS), lebih mudah untuk memeriksa apakah distribusi marjinal terdistribusi secara normal (histogram sederhana) daripada memeriksa apakah residu terdistribusi normal (jalankan regresi, simpan residu, jalankan histogram pada residu tersebut).

Dengan demikian, saya pikir kesalahpahaman ini terutama disebabkan oleh instruktur yang mencoba untuk mengurangi detail untuk menjaga siswa dari kebingungan, asli — dan dapat dimengerti — kebingungan di antara orang-orang yang mempelajarinya dengan cara yang benar, dan keduanya diperkuat dengan kemudahan memeriksa normalitas marjinal di sekolah. sebagian besar paket statistik yang mudah digunakan.

— Mark White
sumber

Saya pikir kamu benar. Banyak orang tidak mengerti bagian kondisional. Mereka hanya berpikir normal terdistribusi.

— SmallChess

Saya setuju bahwa ini mungkin 'salah' dari mode di mana kesalahan ini terjadi / menyebar. Namun materi kursus Penn State bagi saya tampaknya bukan karena penyederhanaan yang disengaja ini dan juga karena penulisan notasi yang ceroboh. Ini sedikit seperti catatan (tentu saja) kecil. Atau suka komentar ke stackexchange, penyederhanaan dalam bahasa. Di beberapa tempat mereka menggunakan kata-kata yang benar. (secara pribadi, skema / diagram saya lebih baik daripada kata-kata / formula saya, tetapi itu tidak berarti bahwa apa yang saya tulis, jika salah, tentu merupakan gagasan yang salah)

— Sextus Empiricus

@ MartijnWeterings Setuju — sangat mudah untuk membingungkan seseorang dengan tidak menggunakan bahasa tertentu. Sulit untuk selalu spesifik dengan bahasa Anda dalam sesuatu yang abstrak seperti asumsi statistik, dan banyak orang pintar membuat kesalahan sederhana, yang mengarah pada kesalahpahaman luas seperti ini.

— Mark White

MarkWhite, saya sangat menghargai perhatian Anda langsung pada bagaimana kami mengajar ... Saya pikir itu berbicara dalam cara yang penting untuk kepentingan OP dalam "penyebaran kesalahpahaman" (selain nuansa apa yang ada dan apa yang bukan kesalahpahaman) ).

— Alexis

Analisis regresi sulit bagi pemula karena ada hasil yang berbeda yang tersirat oleh asumsi awal yang berbeda. Asumsi awal yang lebih lemah dapat membenarkan beberapa hasil, tetapi Anda bisa mendapatkan hasil yang lebih kuat ketika Anda menambahkan asumsi yang lebih kuat. Orang-orang yang tidak terbiasa dengan derivasi matematis lengkap dari hasil seringkali dapat salah memahami asumsi yang dibutuhkan untuk suatu hasil, baik dengan menempatkan model mereka terlalu lemah untuk mendapatkan hasil yang diperlukan, atau mengajukan beberapa asumsi yang tidak perlu dengan keyakinan bahwa ini diperlukan untuk suatu hasil. .

Meskipun dimungkinkan untuk menambahkan asumsi yang lebih kuat untuk mendapatkan hasil tambahan, analisis regresi berkaitan dengan distribusi bersyarat dari vektor respons. Jika suatu model melampaui ini maka ia memasuki wilayah analisis multivariat, dan bukan semata-mata (hanya) model regresi. Masalah ini semakin rumit oleh fakta bahwa itu adalah umum untuk merujuk hasil distribusi dalam regresi tanpa selalu berhati-hati untuk menentukan bahwa mereka adalah distribusi bersyarat (diberikan variabel penjelas dalam matriks desain). Dalam kasus di mana model melampaui distribusi bersyarat (dengan mengasumsikan distribusi marjinal untuk vektor penjelas) pengguna harus berhati-hati untuk menentukan perbedaan ini; sayangnya orang tidak selalu berhati-hati dengan ini.

Model regresi linier homoskedastik: Titik awal paling awal yang biasanya digunakan adalah untuk mengasumsikan bentuk model dan dua momen kesalahan pertama tanpa asumsi normalitas sama sekali:

Y = x β + ε E (ε | x) = 0 V (ε | x) \propto I .

$\boldsymbol{Y} = \boldsymbol{x} \boldsymbol{\beta} + \boldsymbol{\varepsilon}\quad \quad \mathbb{E}(\boldsymbol{\varepsilon} | \boldsymbol{x}) = \boldsymbol{0} \quad \quad \mathbb{V}(\boldsymbol{\varepsilon} | \boldsymbol{x}) \propto \boldsymbol{I}.$

Pengaturan ini cukup untuk memungkinkan Anda mendapatkan estimator OLS untuk koefisien, estimator yang tidak bias untuk varians kesalahan, residual, dan momen semua jumlah acak ini (tergantung pada variabel penjelas dalam matriks desain). Itu tidak memungkinkan Anda untuk mendapatkan distribusi bersyarat penuh dari jumlah-jumlah ini, tetapi ia memungkinkan untuk menarik bagi distribusi asimptotik jika besar dan beberapa asumsi tambahan ditempatkan pada perilaku membatasi . Untuk melangkah lebih jauh adalah umum untuk mengasumsikan bentuk distribusi spesifik untuk vektor kesalahan. $n$ $\boldsymbol{x}$

Kesalahan normal: Sebagian besar perawatan model regresi linier homoskedastik mengasumsikan bahwa vektor kesalahan terdistribusi normal, yang dikombinasikan dengan asumsi saat memberikan:

ε | x \sim N (0, σ^{2} I) .

$\boldsymbol{\varepsilon} | \boldsymbol{x} \sim \text{N}(\boldsymbol{0}, \sigma^2 \boldsymbol{I}).$

Asumsi tambahan ini cukup untuk memastikan bahwa penaksir OLS untuk koefisien adalah MLE untuk model, dan itu juga berarti bahwa penaksir koefisien dan residu terdistribusi secara normal dan penaksir untuk varian kesalahan memiliki distribusi chi-squared berskala (semua tergantung pada variabel penjelas dalam matriks desain). Ini juga memastikan bahwa vektor respons terdistribusi normal dengan syarat. Ini memberikan hasil distribusi tergantung pada variabel penjelas dalam analisis, yang memungkinkan pembangunan interval kepercayaan dan tes hipotesis. Jika analis ingin membuat temuan tentang distribusi marginal dari respons, mereka perlu melangkah lebih jauh dan mengasumsikan distribusi untuk variabel penjelas dalam model.

Variabel penjelas bersama-normal: Beberapa perawatan model regresi linier homoscedastic melangkah lebih jauh dari perawatan standar, dan tidak mengkondisikan pada variabel penjelas tetap. (Bisa dibilang ini adalah transisi keluar dari pemodelan regresi dan menjadi analisis multivariat.) Model yang paling umum mengasumsikan bahwa vektor penjelas adalah vektor acak gabungan normal-normal IID. Membiarkan menjadi th vektor jelas (yang th baris dari matriks desain) yang kita miliki: $\boldsymbol{X}_{(i)}$ $i$ $i$

X_{(1)}, . . ., X_{(n)} \sim IID N (μ_{X}, Σ_{X}) .

$\boldsymbol{X}_{(1)}, ..., \boldsymbol{X}_{(n)} \sim \text{IID N}(\boldsymbol{\mu}_X, \boldsymbol{\Sigma}_X).$

Asumsi tambahan ini cukup untuk memastikan bahwa vektor respon terdistribusi secara normal. Ini adalah asumsi yang kuat dan biasanya tidak dikenakan dalam kebanyakan masalah. Sebagaimana dinyatakan, ini mengambil model di luar wilayah pemodelan regresi dan menjadi analisis multivariat.

— Pasang kembali Monica
sumber

Saya merasa sangat memahami cara Anda memperkenalkan asumsi yang lebih kuat satu per satu dan menggambarkan implikasinya.

— ColorStatistics