Dalam notasi saya akan menggunakan, p akan menjadi jumlah variabel desain (termasuk istilah konstan), n jumlah observasi dengan n≥2p+1(Jika kondisi terakhir ini tidak terpenuhi, paket tidak akan mengembalikan kecocokan tetapi kesalahan, jadi saya menganggapnya terpenuhi). Saya akan menyatakan dengan vektor koefisien yang diestimasi oleh FLTS ( ) dan koefisien yang diestimasi oleh MM ( ). Saya juga akan menulis:β^FLTSltsReg
β^MMlmrob
r2i(β^)=(yi−x⊤iβ^)2
(ini adalah residu kuadrat, bukan yang standar!)
The rlm
Fungsi cocok sebuah 'M' estimasi regresi dan, seperti usulan @Frank Harrell dibuat di komentar untuk pertanyaan Anda, tidak kuat untuk outlier pada ruang desain. Regresi ordinal memiliki titik rincian (proporsi data Anda yang perlu diganti oleh pencilan untuk menarik koefisien yang dipasang ke nilai arbitrer) pada dasarnya berarti bahwa satu pencilan tunggal (terlepas dari !) Cukup untuk membuat kecocokan tanpa makna . Untuk perkiraan regresi M (misal regresi Huber M) titik gangguan pada dasarnya adalah . Ini agak lebih tinggi tetapi dalam praktiknya masih mendekati 0 (karena sering akan besar). Satu-satunya kesimpulan yang bisa ditarik dari1/nn1/(p+1)prlm
menemukan kecocokan yang berbeda dari dua metode lainnya adalah bahwa itu telah diombang-ambingkan oleh outlier desain dan bahwa harus ada lebih dari dari ini dalam set data Anda.p+1
Sebaliknya, dua algoritma lainnya jauh lebih kuat: titik pemecahannya tepat di bawah dan yang lebih penting, tidak menyusut karena semakin besar. Saat memasang model linier menggunakan metode yang kuat, Anda mengasumsikan bahwa setidaknya pengamatan dalam data Anda tidak terkontaminasi. Tugas kedua algoritma ini adalah untuk menemukan orang-orang pengamatan dan cocok mereka juga mungkin. Lebih tepatnya, jika kita menyatakan:1/2ph=⌊(n+p+1)/2⌋+1
HFLTSHMM={i:r2i(β^FLTS)≤qh/n(r2i(β^FLTS))}={i:r2i(β^MM)≤qh/n(r2i(β^MM))}
(di mana adalah quantile dari vektor )qh/n(r2i(β^MM))h/nr2i(β^MM)
lalu ( ) mencoba menyesuaikan pengamatan dengan indeks dalam ( ).β^MMβ^FLTSHMMHFLTS
Fakta bahwa ada perbedaan besar antara dan menunjukkan bahwa kedua algoritma tidak mengidentifikasi set pengamatan yang sama dengan outlier. Ini berarti bahwa setidaknya satu dari mereka terpengaruh oleh outlier. Dalam hal ini, menggunakan (disesuaikan) atau salah satu statistik dari salah satu dari dua cocok untuk memutuskan mana yang akan digunakan, meskipun intuitif, adalah ide yang mengerikan : cocok terkontaminasi biasanya memiliki residu yang lebih kecil daripada yang bersih (tetapi karena pengetahuan tentang inilah alasan mengapa seseorang menggunakan statistik yang kuat sejak awal, saya berasumsi bahwa OP sangat menyadari fakta ini dan bahwa saya tidak perlu memperluas ini).β^FLTSβ^MMR2
Dua pasangan yang kuat memberikan hasil yang bertentangan dan pertanyaannya adalah mana yang benar? Salah satu cara untuk mengatasi ini adalah dengan mempertimbangkan set:
H+=HMM∩HFLTS
karena , . Lebih lanjut, jika salah satu dari atau bebas dari outlier, demikian juga . Solusi yang saya usulkan memanfaatkan fakta ini. Menghitung:h≥[n/2]#{H+}≥pHMMHFLTSH+
D(H+,β^FLTS,β^MM)=∑i∈H+(r2i(β^FLTS)−r2i(β^MM))
Misalnya, jika , maka,
cocok dengan pengamatan yang baik lebih baik daripada dan jadi saya akan mempercayai lebih. Dan sebaliknya.D(H+,β^FLTS,β^MM)<0β^FLTSβ^MMβ^FLTS