Untuk kondisi yang tidak normal seseorang kadang-kadang akan menggunakan regresi yang kuat , terutama menggunakan tautan ke metode .
Untuk menyajikan konteks non-normalitas, mungkin membantu untuk meninjau asumsi untuk regresi OLS linier , yaitu:
- Eksogenitas yang lemah . Ini pada dasarnya berarti bahwa variabel prediktor, x , dapat diperlakukan sebagai nilai tetap, bukan variabel acak. Ini berarti, misalnya, bahwa variabel prediktor dianggap bebas kesalahan — yaitu, tidak terkontaminasi dengan kesalahan pengukuran. Asumsi ini adalah salah satu yang paling sering dilanggar dan mengarah ke kesalahan sebagaimana disebutkan berikut daftar asumsi ini.
- Linearitas. Ini berarti bahwa rata-rata dari variabel respon adalah kombinasi linear dari parameter (koefisien regresi) dan variabel prediktor. Perhatikan bahwa asumsi ini jauh lebih tidak membatasi daripada yang terlihat pada awalnya. Karena variabel prediktor diperlakukan sebagai nilai tetap (lihat di atas), linearitas sebenarnya hanyalah pembatasan pada parameter. Variabel prediktor itu sendiri dapat diubah secara sewenang-wenang, dan pada kenyataannya beberapa salinan dari variabel prediktor yang mendasari yang sama dapat ditambahkan, masing-masing variabel ditransformasikan secara berbeda.
- Varians konstan (alias homoscedasticity). Ini berarti bahwa nilai yang berbeda dari variabel respons memiliki varians yang sama dalam kesalahan mereka, terlepas dari nilai variabel prediktor. Dalam praktiknya asumsi ini tidak valid (yaitu kesalahannya heteroscedastic) jika variabel respons dapat bervariasi dalam skala luas. Untuk memeriksa varians kesalahan heterogen, atau ketika pola residu melanggar asumsi model homoseksualitas (kesalahan adalah variabel yang sama di sekitar 'garis paling pas' untuk semua titik x), adalah bijaksana untuk mencari "efek mengipasi" antara kesalahan residual dan nilai yang diprediksi. Ini untuk mengatakan akan ada perubahan sistematis dalam residu absolut atau kuadrat ketika diplot terhadap variabel prediktif. Kesalahan tidak akan didistribusikan secara merata di seluruh garis regresi. Heteroskedastisitas akan menghasilkan rerata dari varian yang dapat dibedakan di sekitar titik untuk mendapatkan varian tunggal yang secara tidak akurat mewakili semua varian garis. Akibatnya, residu muncul berkerumun dan menyebar terpisah pada plot yang diprediksi untuk nilai yang lebih besar dan lebih kecil untuk poin di sepanjang garis regresi linier, dan kesalahan kuadrat rata-rata untuk model akan salah.
- Independensi kesalahan. Ini mengasumsikan bahwa kesalahan dari variabel respon tidak berkorelasi satu sama lain. (Independensi statistik aktual adalah kondisi yang lebih kuat daripada kurangnya korelasi dan seringkali tidak diperlukan, meskipun dapat dieksploitasi jika diketahui tahan. Yang terakhir ini dapat diperiksa dengan analisis kluster dan koreksi untuk interaksi.) Beberapa metode (misalnya digeneralisasi kuadrat terkecil) mampu menangani kesalahan yang berkorelasi, meskipun mereka biasanya membutuhkan lebih banyak data secara signifikan kecuali jika semacam regularisasi digunakan untuk bias model ke arah asumsi kesalahan yang tidak berkorelasi. Regresi linier Bayesian adalah cara umum untuk menangani masalah ini.
Hubungan statistik antara istilah kesalahan dan regressor memainkan peran penting dalam menentukan apakah prosedur estimasi memiliki sifat sampling yang diinginkan seperti tidak bias dan konsisten.
Pengaturan, atau distribusi probabilitas variabel prediktor x memiliki pengaruh besar pada ketepatan estimasi β. Pengambilan sampel dan desain eksperimen adalah subbidang statistik yang sangat maju yang menyediakan panduan untuk mengumpulkan data sedemikian rupa untuk mencapai perkiraan yang tepat dari β.
Seperti yang diilustrasikan oleh jawaban ini , simulasi Student's mendistribusikan kesalahan sumbu dari garis mengarah ke garis regresi OLS dengan interval kepercayaan untuk kemiringan dan mencegat peningkatan ukuran seiring dengan menurunnya derajat kebebasan ( ). Untuk , Student's- adalah distribusi Cauchy dan interval kepercayaan untuk lereng menjadi .tydfdf=1t(−∞,+∞)
Adalah sewenang-wenang untuk memanggil distribusi Cauchy sehubungan dengan residu dalam arti bahwa ketika kesalahan menghasilkan didistribusikan Cauchy, residu OLS dari garis palsu melalui data akan menjadi lebih tidak dapat diandalkan, yaitu, sampah di --- sampah keluar. Dalam kasus tersebut, seseorang dapat menggunakan regresi regresi Theil-Sen . Theil-Sen tentu lebih kuat daripada OLS untuk residu non-normal, misalnya, kesalahan Cauchy didistribusikan tidak akan menurunkan interval kepercayaan dan tidak seperti OLS juga merupakan regresi bivariat, namun dalam kasus bivariat masih bias. Regresi Passing-Bablok bisa lebih bivariat tidak memihak, tetapi tidak berlaku untuk lereng regresi negatif. Ini paling sering digunakan untuk studi perbandingan metode. Orang harus menyebutkan regresi Demingdi sini, tidak seperti regresi Theil-Sen dan Passing-Bablok, ini adalah solusi aktual untuk masalah bivariat, tetapi tidak memiliki kekokohan dari regresi lainnya. Robustness dapat ditingkatkan dengan memotong data untuk memasukkan nilai yang lebih sentral, misalnya, konsensus sampel acak (RANSAC) adalah metode berulang untuk memperkirakan parameter model matematika dari satu set data yang diamati yang berisi pencilan.
Apa itu regresi bivariat? Kurangnya pengujian untuk sifat bivariat masalah adalah penyebab paling sering untuk pengenceran regresi OLS dan telah disajikan dengan baik di tempat lain di situs ini. Konsep bias OLS dalam konteks ini tidak dikenal dengan baik, lihat misalnya Frost dan Thompson seperti yang disampaikan oleh Longford et al. (2001), yang merujuk pembaca ke metode lain, memperluas model regresi untuk mengakui variabilitas dalam variabel , sehingga tidak ada bias muncul . Dengan kata lain, regresi kasus bivariat terkadang tidak dapat diabaikan ketika kedua - danx1xy-nilai didistribusikan secara acak. Kebutuhan untuk regresi bivariat dapat diuji dengan memasang garis regresi OLS ke residu dari regresi OLS data. Kemudian, jika residu OLS memiliki kemiringan yang tidak nol, masalahnya adalah bivariat dan regresi OLS data akan memiliki besarnya kemiringan yang terlalu dangkal, dan intersep yang terlalu besar besarnya untuk mewakili hubungan fungsional antara dan . Dalam kasus tersebut, penaksir linier kesalahan terkecil dari nilai memang masih berasal dari regresi OLS, dan nilai R akan berada pada nilai maksimum yang mungkin, tetapi garis regresi OLS tidak akan mewakili fungsi garis aktual yang terkait yang danxyy2xy variabel acak. Sebagai contoh balasan, ketika, seperti yang terjadi di antara masalah lain dalam rangkaian waktu dengan nilai sama , OLS dari data mentah tidak selalu tidak sesuai, itu mungkin mewakili garis , tetapi masih tunduk pada transformasi variabel, misalnya untuk data jumlah, seseorang akan mengambil akar kuadrat dari jumlah untuk mengubah kesalahan untuk kesalahan terdistribusi Poisson ke kondisi yang lebih normal, dan seseorang masih harus memeriksa kemiringan residual yang tidak nol. xy=f(x)
- Longford, NT (2001). "Korespondensi". Jurnal Masyarakat Statistik Kerajaan, Seri A. 164: 565. doi: 10.1111 / 1467-985x.00219