Apa yang dimaksud dengan asumsi prosedur statistik?
Saya bukan ahli statistik dan jadi ini mungkin salah, tapi saya pikir kata "asumsi" sering digunakan secara tidak resmi dan dapat merujuk ke berbagai hal. Bagi saya, "asumsi" pada dasarnya adalah sesuatu yang hanya dapat dihasilkan oleh hasil teoretis (teorema).
Ketika orang berbicara tentang asumsi regresi linier ( lihat di sini untuk diskusi mendalam), mereka biasanya merujuk pada teorema Gauss-Markov yang mengatakan bahwa berdasarkan asumsi kesalahan tidak berkorelasi, sama-varians, nol-rata-rata, rata-rata nol, estimasi OLS adalah BIRU , yaitu tidak bias dan memiliki varian minimum. Di luar konteks teorema Gauss-Markov, tidak jelas bagi saya apa arti "asumsi regresi".
Demikian pula, asumsi uji-t, katakanlah, satu sampel mengacu pada asumsi di mana statistik- didistribusikan- t dan karenanya kesimpulannya valid. Hal ini tidak disebut "teorema", tetapi merupakan hasil matematika yang jelas: jika n sampel terdistribusi normal, maka t -statistic akan mengikuti Student t -Distribusi dengan n - 1 derajat kebebasan.ttnttn - 1
Asumsi teknik regresi yang dihukum
Pertimbangkan sekarang setiap teknik regresi yang diatur: regresi ridge, laso, jaring elastis, regresi komponen utama, regresi kuadrat terkecil parsial, dll. Inti dari metode ini adalah untuk membuat estimasi parameter regresi yang bias , dan berharap dapat mengurangi yang diharapkan kerugian dengan mengeksploitasi trade-off bias-varians.
β^
β^
Tetapi bagaimana dengan hasil matematika bahwa regresi ridge selalu mengalahkan OLS?
λβλ
Hasil ini sebenarnya tidak memerlukan asumsi dan selalu benar, tetapi akan aneh untuk mengklaim bahwa regresi ridge tidak memiliki asumsi.
Oke, tapi bagaimana saya tahu apakah saya bisa menerapkan regresi ridge atau tidak?
Saya akan mengatakan bahwa bahkan jika kita tidak dapat berbicara tentang asumsi, kita dapat berbicara tentang aturan praktis . Telah diketahui bahwa regresi ridge cenderung paling berguna dalam kasus regresi berganda dengan prediktor berkorelasi. Sudah diketahui bahwa ia cenderung mengungguli OLS, seringkali dengan margin yang besar. Itu akan cenderung mengungguli bahkan dalam kasus heteroskedastisitas, kesalahan berkorelasi, atau apa pun. Jadi aturan praktis yang sederhana mengatakan bahwa jika Anda memiliki data multikolinier, regresi ridge dan validasi silang adalah ide yang bagus.
Mungkin ada aturan praktis lainnya yang berguna dan trik perdagangan (seperti misalnya apa yang harus dilakukan dengan pencilan kotor). Tapi itu bukan asumsi.
halhal