regresi berganda dan beberapa perbandingan

10

Katakanlah saya cocok dengan regresi berganda p variabel penjelas. Uji-t akan memungkinkan saya untuk memeriksa apakah ada satu yang signifikan ( ). Saya dapat melakukan uji F parsial untuk memeriksa apakah beberapa bagian dari mereka signifikan ( ). $H_0: \beta_i = 0$ $H_0: \beta_i=\beta_j=...=\beta_k=0$

Yang sering saya lihat adalah seseorang mendapat nilai 5 dari 5 uji-t (dengan asumsi mereka memiliki 5 kovariat) dan hanya menyimpan nilai-nilai p <0,05. Tampaknya agak salah karena memang harus ada beberapa perbandingan perbandingan bukan? Benarkah adil mengatakan sesuatu seperti dan penting tetapi , dan tidak? $\beta_1$ $\beta_2$ $\beta_3$ $\beta_4$ $\beta_5$

Pada catatan terkait, katakan saya menjalankan 2 regresi pada 2 model terpisah (hasil berbeda). Apakah perlu ada pemeriksaan perbandingan berganda untuk parameter signifikan antara kedua hasil?

Sunting: Untuk membedakan dari pertanyaan yang serupa, apakah ada interpretasi lain terhadap nilai-p selain: "B_i signifikan, ketika menyesuaikan untuk semua kovariat lainnya"? Tampaknya interpretasi ini tidak memungkinkan saya untuk melihat setiap B_i dan menjatuhkan yang kurang dari 0,5 (yang mirip dengan posting lainnya).

Tampak bagi saya bahwa cara yang pasti untuk menguji apakah B_i dan Y memiliki hubungan adalah untuk mendapatkan koefisien korelasi p-nilai untuk setiap kovariat dan kemudian melakukan multcomp (meskipun itu pasti akan kehilangan sinyal).

Akhirnya, katakan saya menghitung korelasi antara B1 / Y1, B2 / Y1 dan B3 / Y1 (dengan demikian tiga nilai-p). Tidak terkait, saya juga melakukan korelasi antara T1 / Y2, T2 / Y2, T3 / Y2. Saya mengasumsikan penyesuaian Bonferroni yang benar akan menjadi 6 untuk semua 6 tes bersama-sama (daripada 3 untuk kelompok pertama dan 3 untuk kelompok kedua - dan dengan demikian mendapatkan 2 nilai semi-disesuaikan semi-disesuaikan).

multiple-regression multiple-comparisons

— pengguna1357015
sumber

1

Ini terlihat seperti duplikat (pertanyaan ini) [ stats.stackexchange.com/questions/3200/… jika tidak, tolong katakan mengapa tidak.

— Peter Flom - Reinstate Monica

Hai, Ini mirip tapi tidak persis sama. Mungkin pertanyaan yang lebih baik adalah, ketika seseorang mendapatkan daftar nilai-p, adalah satu-satunya penafsiran yang mungkin berikut: "Mengontrol semua parameter lainnya, variabel ini di / signifikan". Bagaimana Anda melihat mereka semua.

— user1357015

Jika Anda ingin mengedit pertanyaan Anda, itu bagus, tetapi mungkin lebih baik melakukannya di pertanyaan itu sendiri, sehingga orang melihatnya terlebih dahulu. Tetapi saya tidak menuntut apa yang "Bagaimana Anda memandang dipikirkan mereka semua" artinya.

— Peter Flom - Reinstate Monica

10

Kamu benar. Masalah beberapa perbandingan ada di mana-mana, tetapi, karena cara itu biasanya diajarkan, orang hanya berpikir itu berkaitan dengan membandingkan banyak kelompok terhadap satu sama lain melalui sejumlah besar -tests. Pada kenyataannya, ada banyak contoh di mana masalah beberapa perbandingan ada, tetapi di mana itu tidak terlihat seperti banyak perbandingan berpasangan; misalnya, jika Anda memiliki banyak variabel kontinu dan Anda bertanya-tanya apakah ada yang berkorelasi, Anda akan memiliki beberapa masalah perbandingan (lihat di sini: Lihat dan Anda akan menemukan korelasi ). $t$

Contoh lain adalah yang Anda ajukan. Jika Anda menjalankan regresi berganda dengan 20 variabel, dan Anda menggunakan sebagai ambang Anda, Anda akan mengharapkan salah satu variabel Anda menjadi 'signifikan' secara kebetulan saja, bahkan jika semua nol benar. Masalah beberapa perbandingan hanya berasal dari matematika menjalankan banyak analisis. Jika semua hipotesis nol adalah benar dan variabel-variabelnya benar-benar tidak berkorelasi, probabilitas untuk tidak secara palsu menolak setiap null sejati adalah (misalnya, dengan , ini adalah ). $\alpha=.05$ $1-(1-\alpha)^p$ $p=5$ $.23$

Strategi pertama untuk memitigasi hal ini adalah dengan melakukan uji simultan terhadap model Anda. Jika Anda menggunakan regresi OLS, sebagian besar perangkat lunak akan memberi Anda uji global sebagai bagian default dari output Anda. Jika Anda menjalankan model linier umum, sebagian besar perangkat lunak akan memberi Anda tes rasio kemungkinan global yang analog. Tes ini akan memberi Anda perlindungan terhadap inflasi kesalahan tipe I karena masalah beberapa perbandingan (lih., Jawaban saya di sini: Signifikansi koefisien dalam regresi linier: t-test signifikan vs F-statistik tidak signifikan ). Kasus serupa adalah ketika Anda memiliki variabel kategori yang diwakili dengan beberapa kode dummy; Anda tidak ingin menafsirkan $F$ $t$ -menguji, tetapi akan menjatuhkan semua kode dummy dan melakukan tes model bersarang sebagai gantinya.

Strategi lain yang mungkin adalah dengan menggunakan prosedur penyesuaian alfa, seperti koreksi Bonferroni. Anda harus menyadari bahwa melakukan hal ini akan mengurangi kekuatan Anda serta mengurangi tingkat kesalahan tipe I keluarga Anda. Apakah pengorbanan ini bermanfaat atau tidak, Anda harus membuat penilaian. (FWIW, saya biasanya tidak menggunakan koreksi alfa dalam regresi berganda.)

Mengenai masalah menggunakan nilai- untuk melakukan pemilihan model, saya pikir ini adalah ide yang sangat buruk. Saya tidak akan pindah dari model dengan 5 variabel ke satu dengan hanya 2 karena yang lain 'tidak signifikan'. Ketika orang melakukan ini, mereka bias model mereka. Ini dapat membantu Anda membaca jawaban saya di sini: algoritma untuk pemilihan model otomatis untuk memahami ini dengan lebih baik. $p$

Mengenai pembaruan Anda, saya tidak akan menyarankan Anda menilai korelasi univariat terlebih dahulu untuk memutuskan variabel mana yang akan digunakan dalam model regresi berganda akhir. Melakukan hal ini akan menimbulkan masalah dengan endogenitas kecuali variabel-variabelnya tidak saling berkorelasi satu sama lain. Saya membahas masalah ini dalam jawaban saya di sini: Memperkirakan alih-alih $b_1x_1+b_2x_2$ $b_1x_1+b_2x_2+b_3x_3$ .

Sehubungan dengan pertanyaan tentang bagaimana menangani analisis dengan variabel dependen yang berbeda, apakah Anda ingin menggunakan semacam penyesuaian didasarkan pada bagaimana Anda melihat analisis relatif satu sama lain. Gagasan tradisional adalah untuk menentukan apakah mereka secara bermakna dianggap sebagai 'keluarga'. Ini dibahas di sini: Apa yang mungkin menjadi definisi yang jelas dan praktis untuk "keluarga hipotesis"? Anda mungkin juga ingin membaca utas ini: Metode untuk memprediksi beberapa variabel dependen .

— gung - Pasang kembali Monica
sumber

Terima kasih untuk ini. Itu yang saya butuhkan. Mengenai komentar edogeneity Anda. Itu masuk akal, tetapi tampaknya jika saya melakukan koreksi Bonferroni konservatif pada nilai-p korelasi, bahkan jika ada endegoneitas, koreksi bonferroni harus menjelaskannya bukan?

— user1357015

Koreksi Bonferroni tidak terkait dengan endogenitas. Jika kovariat Anda sama sekali berkorelasi dengan satu sama lain, korelasi XY univariat akan menjadi estimasi bias dari hubungan tersebut. Anda harus cocok dengan model yang Anda inginkan & berhenti di sana. Secara umum, tidak ada kebutuhan nyata untuk melangkah lebih jauh. Jika Anda perlu membuat model prediksi yang benar, Anda harus menggunakan validasi silang atau teknik lain yang sesuai untuk itu.

— gung - Reinstate Monica

0

Pada tingkat praktis, saya pikir orang perlu juga mempertimbangkan apakah Betas mencerminkan tingkat variabel kategori (mis. Boneka). Dalam keadaan ini masuk akal untuk tertarik mengetahui apakah Beta yang diberikan berbeda dibandingkan dengan Beta referensi (bermakna). Tetapi bahkan sebelum melakukan perbandingan berpasangan, orang perlu mengetahui apakah secara keseluruhan tingkat variabel kategorikal itu penting (menggunakan uji F bersama atau uji rasio kemungkinan). Melakukan ini memiliki keuntungan menggunakan lebih sedikit df

— Thomas Speidel
sumber