Apa keuntungan dari regresi linier dibandingkan regresi kuantil?

The regresi linier Model membuat sekelompok asumsi yang regresi kuantil tidak dan, jika asumsi regresi linier terpenuhi, maka saya intuisi (dan beberapa pengalaman yang sangat terbatas) adalah bahwa regresi median akan memberikan hasil yang hampir sama sebagai regresi linier.

Jadi, apa kelebihan yang dimiliki regresi linier? Ini tentu lebih akrab, tetapi selain itu?

regression multiple-regression quantile-regression

— Peter Flom - Pasang kembali Monica
sumber

Untuk 'lebih akrab' saya akan menambahkan 'interpretabilitas' dan 'stabilitas', tetapi bagi saya salah satu keuntungan dari regresi linier adalah apa yang ia katakan kepada Anda tentang mean dan seberapa baik artinya mewakili populasi sampel (residu sangat informatif) . Regresi linier memiliki nilai yang besar ketika asumsi-asumsinya terpenuhi dan nilai yang baik ketika tidak dipenuhi.

— JustGettin Mulai

Saya berpendapat bahwa satu masalah penting telah dibahas dalam dua utas ini: stats.stackexchange.com/questions/153348/… dan stats.stackexchange.com/questions/146077/… - efisiensi, dan, mungkin, bahkan optimalitas di bawah tertentu asumsi

— Christoph Hanck

Sebagai poin lebih lanjut, tetapi minor, orang mungkin bisa menambahkan ketersediaan solusi bentuk eksplisit dan tertutup yang tidak tersedia untuk, katakanlah, LAD, yang dapat membuat teknik seperti itu kurang menarik bagi para praktisi.

— Christoph Hanck

Jawabannya bisa seperti membandingkan kasus sederhana estimasi parameter populasi tunggal, kemudian menunjukkan bahwa kesalahan kuadrat terkecil berkinerja lebih baik dengan kesalahan Gaussian dan residu absolut terkecil (menggunakan asumsi juga) berkinerja lebih baik untuk berbagai jenis kesalahan. Tetapi kemudian, pertanyaan ini adalah tentang model linier yang lebih kompleks dan masalahnya mulai lebih kompleks dan luas. Intuisi dari masalah sederhana (memperkirakan rata-rata / median tunggal) bekerja untuk model yang lebih besar, tetapi dengan berapa banyak harus diselesaikan? Dan bagaimana cara membandingkan, ketahanan terhadap outlier, distribusi, komputasi?

— Sextus Empiricus

Dalam kasus saya, saya telah menemukan regresi kuantil jauh lebih baik untuk menjelaskan kepada orang-orang non-teknis ketika variabel respon condong (misalnya pengeluaran pelanggan) dan pengenalan langkah transformasi / fungsi-fungsi mengaburkan seluruh analisis. Dalam hal itu saya akan menentang pernyataan " regresi median akan memberikan hasil yang hampir sama dengan regresi linier " sebagai sedikit terlalu menyederhanakan; tidak, terutama ketika berhadapan dengan variabel respons yang berpotensi miring.

— usεr11852 mengatakan Reinstate Monic

Jawaban:

Sangat sering dinyatakan bahwa meminimalkan residu kuadrat terkecil lebih disukai daripada meminimalkan residu absolut karena alasan itu lebih sederhana secara komputasi . Tapi, mungkin juga lebih baik karena alasan lain. Yaitu, jika asumsi itu benar (dan ini tidak jarang terjadi) maka ia memberikan solusi yang (rata-rata) lebih akurat.

Kemungkinan maksimum

Regresi kuadrat terkecil dan regresi kuantil (bila dilakukan dengan meminimalkan residu absolut) dapat dilihat sebagai memaksimalkan fungsi kemungkinan untuk kesalahan terdistribusi Gaussian / Laplace, dan dalam hal ini sangat terkait.

Distribusi Gaussian:

$f (x) = \frac{1}{\sqrt{2 π σ^{2}}} e^{- \frac{(x - μ)^{2}}{2 σ^{2}}}$ $f(x) = \frac{1}{\sqrt{2\pi \sigma^2}} e^{-\frac{(x-\mu)^2}{2\sigma^2}}$

dengan kemungkinan log dimaksimalkan ketika meminimalkan jumlah residu kuadrat

$\log L (x) = - \frac{n}{2} \log (2 π) - n \log (σ) - \frac{1}{2 σ^{2}} \underset{sum of squared residuals}{\underset{⏟}{\sum_{i = 1}^{n} (x_{i} - μ)^{2}}}$ $\log \mathcal{L}(x) = -\frac{n}{2} \log (2 \pi) - n \log(\sigma) - \frac{1}{2\sigma^2} \underbrace{\sum_{i=1}^n (x_i-\mu)^2}_{\text{sum of squared residuals}}$
Distribusi Laplace:

$f (x) = \frac{1}{2 b} e^{- \frac{| x - μ |}{b}}$ $f(x) = \frac{1}{2b} e^{-\frac{\vert x-\mu \vert}{b}}$

dengan kemungkinan log dimaksimalkan ketika meminimalkan jumlah residu absolut

$\log L (x) = - n \log (2) - n \log (b) - \frac{1}{b} \underset{sum of absolute residuals}{\underset{⏟}{\sum_{i = 1}^{n} | x_{i} - μ |}}$ $\log \mathcal{L}(x) = -n \log (2) - n \log(b) - \frac{1}{b} \underbrace{\sum_{i=1}^n |x_i-\mu|}_{\text{sum of absolute residuals}}$

^{Note: the Laplace distribution and the sum of absolute residuals relates to the median, but it can be generalized to other quantiles by giving different weights to negative and positive residuals.}

Known error distribution

When we know the error-distribution (when the assumptions are likely true) it makes sense to choose the associated likelihood function. Minimizing that function is more optimal.

Very often the errors are (approximately) normal distributed. In that case using least squares is the best way to find the parameter $\mu$ (which relates to both the mean and the median). It is the best way because it has the lowest sample variance (lowest of all unbiased estimators). Or you can say more strongly: that it is stochastically dominant (see the illustration in this question comparing the distribution of the sample median and the sample mean).

So, when the errors are normal distributed, then the sample mean is a better estimator of the distribution median than the sample median. The least squares regression is a more optimal estimator of the quantiles. It is better than using the least sum of absolute residuals.

Because so many problems deal with normal distributed errors the use of the least squares method is very popular. To work with other type of distributions one can use the Generalized linear model. And, the method of iterative least squares, which can be used to solve GLMs, also works for the Laplace distribution (ie. for absolute deviations), which is equivalent to finding the median (or in the generalized version other quantiles).

Unknown error distribution

Robustness

The median or other quantiles have the advantage that they are very robust regarding the type of distribution. The actual values do not matter much and the quantiles only care about the order. So no matter what the distribution is, minimizing the absolute residuals (which is equivalent to finding the quantiles) is working very well.

The question becomes complex and broad here and it is dependent on what type of knowledge we have or do not have about the distribution function. For instance a distribution may be approximately normal distributed but only with some additional outliers. This can be dealt with by removing the outer values. This removal of the extreme values even works in estimating the location parameter of the Cauchy distribution where the truncated mean can be a better estimator than the median. So not only for the ideal situation when the assumptions hold, but also for some less ideal applications (e.g. additional outliers) there might be good robust methods that still use some form of a sum of squared residuals instead of sum of absolute residuals.

I imagine that regression with truncated residuals might be computationally much more complex. So it may actually be quantile regression which is the type of regression that is performed because of the reason that it is computationally simpler (not simpler than ordinary least squares, but simpler than truncated least squares).

Biased/unbiased

Another issue is biased versus unbiased estimators. In the above I described the maximum likelihood estimate for the mean, ie the least squares solution, as a good or preferable estimator because it often has the lowest variance of all unbiased estimators (when the errors are normal distributed). But, biased estimators may be better (lower expected sum of squared error).

This makes the question again broad and complex. There are many different estimators and many different situations to apply them. The use of an adapted sum of squared residuals loss function often works well to reduce the error (e.g. all kinds of regularization methods), but it may not need to work well for all cases. Intuitively it is not strange to imagine that, since the sum of squared residuals loss function often works well for all unbiased estimators, the optimal biased estimators is probably something close to a sum of squared residuals loss function.

— Sextus Empiricus
sumber

Ketika kita mengetahui distribusi kesalahan, masuk akal untuk memilih fungsi kemungkinan yang terkait. Meminimalkan fungsi itu lebih optimal. Bukan untuk mengatakan ini salah, tetapi mungkin harus memenuhi syarat. Tentu saja, ini berhubungan sekali lagi dengan pertanyaan saya (yang Anda jawab) pada estimator optimal di bawah fungsi kerugian yang berbeda.

— Richard Hardy

Ini adalah cara terbaik karena memiliki varians sampel terendah. Varians umumnya bukan fungsi kerugian yang masuk akal karena mengabaikan bias; mitra yang masuk akal akan diharapkan kesalahan kuadrat (alias mean square error) yang memperhitungkan varians dan bias. Regresi kuadrat terkecil adalah penaksir yang lebih optimal dari kuantil. Median - ya, tapi yang lain? Dan jika ya, lalu mengapa? Bagaimanapun, jawaban Anda adalah jawaban yang sangat bagus!

— Richard Hardy

@ RichardHardy topik ini sangat luas. Memang kesalahan = varians + bias. Saya berasumsi bias sampel rata-rata sama dengan median sampel (atau lebih umum: paling sedikit jumlah kuadrat residu dan paling sedikit jumlah residu absolut memiliki bias yang sama). Ini benar mengingat berbagai distribusi kesalahan (misalnya distribusi kesalahan simetris), tetapi memang pertanyaannya menjadi lebih kompleks untuk kasus lain. (intinya adalah bahwa kesalahan sering terdistribusi normal dan ini membuat regresi kuadrat paling tidak menguntungkan)

— Sextus Empiricus

The same (the complexity of the question) is true when we do not consider the median, but instead some other quantile. In the case of normal distributed errors I believe that the MLE gives the best result for whatever quantile, but I agree that it's intuition. Again the problem is very broad (dependency on the number of samples, type of distribution of errors and certainty about it, etc,).

— Sextus Empiricus

a rusak clock adalah tepat dua kali sehari, saya tidak akan menyebut MLE jam rusak. Tentu, ketika Anda tahu masalahnya dengan baik, maka Anda bisa memperkenalkan beberapa bias pengurangan varians untuk meningkatkan kesalahan keseluruhan. Ini tidak harus pindah ke jenis regresi (kuantil) yang berbeda, Anda juga bisa menaruh selai atau madu pada roti dan mentega kuadrat. Jika Anda ingin membandingkan MLE dengan jam yang rusak maka itu adalah jam yang berdiri diam di waktu yang kami manfaatkan sebaik-baiknya.

— Sextus Empiricus

Regresi linier (LR) bermuara pada optimasi kuadrat terkecil saat menghitung koefisiennya. Ini menyiratkan simetri dalam penyimpangan dari model regresi. Penjelasan yang baik tentang regresi kuantil (QR) ada di https://data.library.virginia.edu/getting-started-with-quantile-regress/ .

Jika asumsi LR (diperlukan untuk kesimpulan: nilai-p, interval kepercayaan, dll.) Dipenuhi, maka prediksi QR dan LR akan serupa. Tetapi jika asumsi sangat dilanggar, kesimpulan LR standar Anda akan salah. Jadi, regresi 0,5 kuantil (median) memberikan keunggulan dibandingkan LR. Ini juga memberikan lebih banyak fleksibilitas dalam memberikan regresi untuk kuantil lain. Setara untuk model linier akan menjadi batas kepercayaan dihitung dari LR (meskipun ini akan salah jika iid sangat dilanggar).

Jadi apa keunggulan LR? Tentu saja lebih mudah untuk menghitung tetapi jika set data Anda berukuran wajar, mungkin tidak terlalu terlihat. Tetapi yang lebih penting, asumsi inferensi LR memberikan informasi yang menurunkan ketidakpastian. Akibatnya, interval kepercayaan LR pada prediksi biasanya akan lebih sempit. Jadi, jika ada dukungan teoritis yang kuat untuk asumsi tersebut, interval kepercayaan yang lebih sempit mungkin menjadi keuntungan.

— George Ostrouchov
sumber

Regresi linier digunakan untuk memperkirakan respon rata-rata bersyarat yang diberikan data, yaitu $E(Y \vert X)$ dimana $Y$ adalah respons dan $X$ adalah datanya. Regresi memberi tahu kita hal itu $E(Y \vert X)= X \beta$ . Ada asumsi tertentu (Anda dapat menemukannya dalam teks statistik apa pun) agar kesimpulan valid. Jika ini dipenuhi maka umumnya penduga standar untuk $\beta$ adalah BIRU (penaksir linier tidak bias terbaik - lihat teorema Gauss-Markov).

Regresi kuantitatif dapat digunakan untuk mengestimasi APAPUN kuantil dari distribusi bersyarat termasuk median. Ini berpotensi memberikan lebih banyak informasi daripada rata-rata tentang distribusi bersyarat. Jika distribusi kondisional tidak simetris atau ekornya mungkin tebal (misalnya analisis risiko), regresi kuantil berguna BAHKAN jika semua asumsi regresi linier terpenuhi.

Tentu saja, secara numerik lebih intensif untuk melakukan estimasi kuantil relatif terhadap regresi linier tetapi pada umumnya jauh lebih kuat (misalnya seperti median lebih kuat daripada rata-rata untuk outlier). Selain itu, sangat tepat bila regresi linier tidak - misalnya untuk data yang disensor. Inferensi mungkin lebih sulit karena estimasi langsung matriks varians-kovarians mungkin sulit atau mahal secara komputasi. Dalam kasus tersebut, seseorang dapat melakukan bootstrap.

— Kruggles
sumber