memahami nilai-p dalam regresi linier berganda

Mengenai nilai p dari analisis regresi linier berganda, pengantar dari situs web Minitab ditunjukkan di bawah ini.

Nilai p untuk setiap istilah menguji hipotesis nol bahwa koefisiennya sama dengan nol (tidak berpengaruh). Nilai p yang rendah (<0,05) menunjukkan bahwa Anda dapat menolak hipotesis nol. Dengan kata lain, prediktor yang memiliki nilai p rendah cenderung menjadi tambahan yang berarti bagi model Anda karena perubahan dalam nilai prediktor terkait dengan perubahan dalam variabel respons.

Sebagai contoh, saya memiliki model MLR resultan sebagai . dan put out ditampilkan di bawah ini. Maka a dapat dihitung menggunakan persamaan ini. $y=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+4.5424{{X}_{4}}+14.48$ $y$

            Estimate      SE        tStat       pValue  
               ________    ______    _________    _________

(Intercept)      14.48     5.0127       2.8886    0.0097836
x1             0.46753     1.2824      0.36458      0.71967
x2             -0.2668     3.3352    -0.079995      0.93712
x3              1.6193     9.0581      0.17877      0.86011
x4              4.5424     2.8565       1.5902       0.1292

$X_{4}$ $y_{2}=0.46753{{X}_{1}}-0.2668{{X}_{2}}+1.6193{{X}_{3}}+0{{X}_{4}}+14.48$ $y$ $y_{2}$ $X_{4}$

Adakah yang bisa membantu dalam pemahaman yang benar? Terimakasih banyak!

multiple-regression p-value

— pengguna2230101
sumber

dapatkah Anda menunjukkan output dari regresi rutin?

— Aksakal

Uraian Anda tentang perhitungan nilai-p adalah tidak standar. Menurut Anda mengapa itu harus dihitung seperti yang Anda gambarkan? nilai p dalam output dihitung dari matriks parameter Var-Cov. Jika Anda ingin menjalankan tes pembatasan, seperti Wald, maka itu bukan cara Anda menggambarkan. Anda harus memperkirakan ulang model dengan 3 variabel, mendapatkan kemungkinan loglikel, dll.

— Aksakal

Menurut pengantar itu, Anda hanya memiliki satu variabel "signifikan" - "intersep" -, karena hanya nilai-p yang kecil. Untuk melampaui praktik naif dan menyesatkan dalam kutipan, Anda perlu belajar lebih banyak tentang regresi berganda. Untuk melihat apa yang dapat dipelajari dalam hal ini, pertimbangkan menjelajahi utas yang relevan di situs kami .

— whuber

Periksa jawaban atas dua pertanyaan ini: - stats.stackexchange.com/questions/5135/… dan - stats.stackexchange.com/questions/126179/... Mereka membantu saya memahami bagaimana nilai p dihitung, harap Anda akan menemukannya membantu juga.

— Giacomo

Jawaban:

Ini salah karena beberapa alasan:

Model "tanpa" X4 tidak harus memiliki estimasi koefisien yang sama untuk nilai lainnya. Pasangkan model yang diperkecil dan lihat sendiri.
$Y$
Uji statistik yang dilakukan untuk signifikansi statistik dari koefisien adalah uji-satu sampel. Ini membingungkan karena kami tidak memiliki "sampel" dari beberapa koefisien untuk X4, tetapi kami memiliki perkiraan sifat distribusi sampel tersebut menggunakan teorema batas pusat. Kesalahan rata-rata dan standar menggambarkan lokasi dan bentuk distribusi yang membatasi tersebut. Jika Anda mengambil kolom "Est" dan membaginya dengan "SE" dan bandingkan dengan distribusi normal standar, ini memberi Anda nilai p pada kolom ke-4.
Poin keempat: kritik terhadap halaman bantuan minitab. File bantuan seperti itu tidak bisa, dalam satu paragraf, meringkas tahun pelatihan statistik, jadi saya tidak perlu bersaing dengan semuanya. Tetapi, untuk mengatakan bahwa "prediktor" adalah "kontribusi penting" tidak jelas dan mungkin salah. Dasar pemikiran untuk memilih variabel mana yang akan dimasukkan dalam model multivariat adalah halus dan bergantung pada penalaran ilmiah dan bukan inferensi statistik.

— AdamO
sumber

Interpretasi awal Anda dari nilai-p tampak benar, yaitu bahwa hanya intersep yang memiliki koefisien yang sangat berbeda dari 0. Anda akan melihat bahwa estimasi koefisien untuk x4 masih cukup tinggi, tetapi ada cukup banyak kesalahan sehingga tidak signifikan berbeda dengan 0.

Uji t berpasangan Anda antara y1 dan y2 menunjukkan bahwa model-model tersebut berbeda satu sama lain. Itu yang diharapkan, dalam satu model Anda memasukkan koefisien besar tapi tidak tepat yang memberikan kontribusi cukup banyak untuk model Anda. Tidak ada alasan untuk berpikir bahwa nilai-p dari model-model ini berbeda satu sama lain harus sama dengan nilai p dari koefisien x4 yang berbeda dari 0.

— Wang Nuklir
sumber