Kamu benar. Masalah beberapa perbandingan ada di mana-mana, tetapi, karena cara itu biasanya diajarkan, orang hanya berpikir itu berkaitan dengan membandingkan banyak kelompok terhadap satu sama lain melalui sejumlah besar -tests. Pada kenyataannya, ada banyak contoh di mana masalah beberapa perbandingan ada, tetapi di mana itu tidak terlihat seperti banyak perbandingan berpasangan; misalnya, jika Anda memiliki banyak variabel kontinu dan Anda bertanya-tanya apakah ada yang berkorelasi, Anda akan memiliki beberapa masalah perbandingan (lihat di sini: Lihat dan Anda akan menemukan korelasi ). t
Contoh lain adalah yang Anda ajukan. Jika Anda menjalankan regresi berganda dengan 20 variabel, dan Anda menggunakan sebagai ambang Anda, Anda akan mengharapkan salah satu variabel Anda menjadi 'signifikan' secara kebetulan saja, bahkan jika semua nol benar. Masalah beberapa perbandingan hanya berasal dari matematika menjalankan banyak analisis. Jika semua hipotesis nol adalah benar dan variabel-variabelnya benar-benar tidak berkorelasi, probabilitas untuk tidak secara palsu menolak setiap null sejati adalah (misalnya, dengan , ini adalah ). α = .051 - ( 1 - α ) p p = 5 .231 - ( 1 - α )halp = 5.23
Strategi pertama untuk memitigasi hal ini adalah dengan melakukan uji simultan terhadap model Anda. Jika Anda menggunakan regresi OLS, sebagian besar perangkat lunak akan memberi Anda uji global sebagai bagian default dari output Anda. Jika Anda menjalankan model linier umum, sebagian besar perangkat lunak akan memberi Anda tes rasio kemungkinan global yang analog. Tes ini akan memberi Anda perlindungan terhadap inflasi kesalahan tipe I karena masalah beberapa perbandingan (lih., Jawaban saya di sini: Signifikansi koefisien dalam regresi linier: t-test signifikan vs F-statistik tidak signifikan ). Kasus serupa adalah ketika Anda memiliki variabel kategori yang diwakili dengan beberapa kode dummy; Anda tidak ingin menafsirkanFtt-menguji, tetapi akan menjatuhkan semua kode dummy dan melakukan tes model bersarang sebagai gantinya.
Strategi lain yang mungkin adalah dengan menggunakan prosedur penyesuaian alfa, seperti koreksi Bonferroni. Anda harus menyadari bahwa melakukan hal ini akan mengurangi kekuatan Anda serta mengurangi tingkat kesalahan tipe I keluarga Anda. Apakah pengorbanan ini bermanfaat atau tidak, Anda harus membuat penilaian. (FWIW, saya biasanya tidak menggunakan koreksi alfa dalam regresi berganda.)
Mengenai masalah menggunakan nilai- untuk melakukan pemilihan model, saya pikir ini adalah ide yang sangat buruk. Saya tidak akan pindah dari model dengan 5 variabel ke satu dengan hanya 2 karena yang lain 'tidak signifikan'. Ketika orang melakukan ini, mereka bias model mereka. Ini dapat membantu Anda membaca jawaban saya di sini: algoritma untuk pemilihan model otomatis untuk memahami ini dengan lebih baik. hal
Mengenai pembaruan Anda, saya tidak akan menyarankan Anda menilai korelasi univariat terlebih dahulu untuk memutuskan variabel mana yang akan digunakan dalam model regresi berganda akhir. Melakukan hal ini akan menimbulkan masalah dengan endogenitas kecuali variabel-variabelnya tidak saling berkorelasi satu sama lain. Saya membahas masalah ini dalam jawaban saya di sini: Memperkirakan alih-alihb1x1+ b2x2b1x1+ b2x2+ b3x3 .
Sehubungan dengan pertanyaan tentang bagaimana menangani analisis dengan variabel dependen yang berbeda, apakah Anda ingin menggunakan semacam penyesuaian didasarkan pada bagaimana Anda melihat analisis relatif satu sama lain. Gagasan tradisional adalah untuk menentukan apakah mereka secara bermakna dianggap sebagai 'keluarga'. Ini dibahas di sini: Apa yang mungkin menjadi definisi yang jelas dan praktis untuk "keluarga hipotesis"? Anda mungkin juga ingin membaca utas ini: Metode untuk memprediksi beberapa variabel dependen .