Membandingkan residu antara regresi OLS dan non-OLS

Misalkan Anda ingin memperkirakan model linier: ( pengamatan respons, dan prediktor) $n$ $p+1$

E (y_{i}) = β_{0} + \sum_{j = 1}^{p} β_{j} x_{i j}

$\mathbb{E}(y_i) = \beta_0 + \sum_{j=1}^p \beta_j x_{ij}$

Salah satu cara untuk melakukan ini adalah melalui solusi OLS, yaitu memilih koefisien sehingga jumlah kesalahan kuadrat minimum:

(β_{0}, β_{1}, \dots, β_{hal})^{T} = \underset{β_{0}, β_{1}, \dots, β_{hal}}{\arg min} \sum_{saya = 1}^{n} {(y_{saya} - β_{0} - \sum_{j = 1}^{hal} β_{j} x_{saya j})}^{2}

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2$

Atau, Anda dapat menggunakan fungsi kerugian lain, seperti jumlah dari penyimpangan absolut, sehingga:

(β_{0}, β_{1}, \dots, β_{hal})^{T} = \underset{β_{0}, β_{1}, \dots, β_{hal}}{\arg min} \sum_{saya = 1}^{n} | y_{saya} - β_{0} - \sum_{j = 1}^{hal} β_{j} x_{saya j} |

$(\beta_0,\beta_1,\cdots,\beta_p)^T = \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right|$

Misalkan Anda telah menemukan parameter untuk dua model, dan ingin memilih model dengan nilai terkecil dari fungsi kerugian. Bagaimana Anda bisa membandingkan nilai minimum yang diperoleh dengan fungsi kerugian secara umum? (Yaitu bukan hanya kasus khusus ini - kita juga bisa mencoba fungsi kerugian berbasis lainnya $L_p$ ) Tampaknya ada perbedaan dalam skala fungsi - satu berurusan dengan kotak sedangkan yang lain tidak.

regression loss-functions

— Comp_Warrior
sumber

Nah, asumsi Markov mari kita tunjukkan bahwa persamaan pertama adalah BIRU, atau penaksir tidak bias linier terbaik . Dalam hal ini "Terbaik" ditentukan dengan memiliki kesalahan standar terkecil dari semua estimator yang mungkin. Apakah itu bukan statistik yang memadai?

— gregmacfarlane

perhatikan bahwa dan

‖ x ‖_{2} \leq ‖ x ‖_{1} \leq \sqrt{n} ‖ x ‖_{2}

$\|x\|_2 \leq \|x\|_1 \leq \sqrt{n}\|x\|_2$

\underset{β_{0}, β_{1}, \dots, β_{hal}}{\arg min} \sqrt{\sum_{saya = 1}^{n} {(y_{saya} - β_{0} - \sum_{j = 1}^{hal} β_{j} x_{saya j})}^{2}} \leq \underset{β_{0}, β_{1}, \dots, β_{hal}}{\arg min} \sum_{saya = 1}^{n} | y_{saya} - β_{0} - \sum_{j = 1}^{hal} β_{j} x_{saya j} | \leq \sqrt{(} n) \underset{β_{0}, β_{1}, \dots, β_{hal}}{\arg min} \sqrt{\sum_{saya = 1}^{n} {(y_{saya} - β_{0} - \sum_{j = 1}^{hal} β_{j} x_{saya j})}^{2}}

$\underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2} \leq \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sum_{i=1}^{n} \left| y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right| \leq \sqrt(n) \underset{\beta_0,\beta_1,\cdots,\beta_p}{\arg \min} \sqrt{\sum_{i=1}^{n} \left( y_i - \beta_0 - \sum_{j=1}^p \beta_j x_{ij} \right)^2}$

— Manuel

@ gmacfarlane Saya ingin mendefinisikan "terbaik" di sini dalam hal nilai minimum dari fungsi kerugian, alih-alih kesalahan standar pada estimasi parameter. (hanya ingin tahu)

— Comp_Warrior

Saya pikir Anda tidak dapat membandingkan kecocokan yang berasal dari 2 fungsi kerugian yang berbeda, karena mereka adalah jawaban untuk pertanyaan yang berbeda. Setelah Anda memutuskan bahwa fungsi kerugian yang diberikan adalah yang sesuai untuk situasi Anda, fit akan mengikuti dari keputusan itu. Anda tidak dapat melipatnya kembali untuk memvalidasi pilihan fungsi kerugian tanpa ini menjadi melingkar. Jika Anda memiliki kriteria lain yang dapat dipahami mencakup kedua fungsi kerugian, Anda dapat menggunakannya, tetapi Anda harus menentukannya terlebih dahulu.

— gung - Reinstate Monica

Perhatikan bahwa jika model untuk ekspektasi itu benar dan ukuran sampel cukup besar sehingga kedua perkiraan efektif pada nilai populasi, maka pertanyaannya akan secara efektif dikonversi menjadi "Bagaimana saya membandingkan deviasi rata-rata dengan deviasi standar"? Di bawah asumsi distribusi yang diberikan Anda kemudian dapat membandingkan ukuran yang diharapkan, tetapi tentu saja dalam sampel kecil perkiraannya sendiri berbeda.

— Glen_b -Reinstate Monica

(Mengubah komentar saya menjadi jawaban.)

Saya pikir Anda tidak dapat membandingkan kecocokan yang berasal dari fungsi kerugian yang berbeda, karena mereka adalah jawaban untuk pertanyaan yang berbeda. Setelah Anda memutuskan bahwa fungsi kerugian yang diberikan adalah yang sesuai untuk situasi Anda, fit akan mengikuti dari keputusan itu. Anda tidak dapat melipatnya kembali untuk memvalidasi pilihan fungsi kerugian tanpa ini menjadi melingkar. Jika Anda memiliki kriteria lain yang dapat dipahami oleh kedua fungsi kerugian, Anda bisa menggunakannya, tetapi Anda harus menentukannya terlebih dahulu.

— gung - Pasang kembali Monica
sumber