Jumlah minimum pengamatan untuk regresi linier berganda


12

Saya melakukan regresi linier berganda. Saya memiliki 21 pengamatan dan 5 variabel. Tujuan saya hanya menemukan hubungan antar variabel

  1. Apakah data saya cukup untuk melakukan regresi berganda?
  2. Hasil uji-t mengungkapkan 3 variabel saya tidak signifikan. Apakah saya perlu melakukan regresi lagi dengan variabel signifikan (atau regresi pertama saya cukup untuk mendapatkan kesimpulan)? Matriks korelasi saya adalah sebagai berikut

           var 1   var 2    var 3   var 4   var 5     Y
    var 1   1.0     0.0       0.0   -0.1    -0.3    -0.2
    var 2   0.0     1.0       0.4    0.3    -0.4    -0.4
    var 3   0.0     0.4       1.0    0.7    -0.7    -0.6
    var 4  -0.1     0.3       0.7    1.0    -0.7    -0.9
    var 5  -0.3    -0.4      -0.7   -0.7    1.0      0.8
    Y      -0.2    -0.4      -0.6   -0.9    0.8      1.0
    

var 1 dan var 2 adalah variabel kontinu dan var 3 sampai 5 adalah variabel kategori dan y adalah variabel dependen saya.

Seharusnya disebutkan variabel penting yang telah dipertimbangkan dalam literatur sebagai faktor yang paling berpengaruh pada variabel dependen saya tidak juga di antara variabel regresi saya karena keterbatasan data saya. Apakah masih masuk akal untuk melakukan regresi tanpa variabel penting ini?

inilah interval kepercayaan diri saya

    Varibales   Regression Coefficient  Lower 95% C.L.  Upper 95% C.L.
    Intercept   53.61                       38.46        68.76
    var 1       -0.39                      -0.97         0.19
    var 2       -0.01                      -0.03         0.01
    var 3        5.28                      -2.28         12.84
    var 4       -27.65                     -37.04       -18.26
    **var 5      11.52                      0.90         22.15**

Jawaban:


17

Aturan umum (berdasarkan pada hal-hal dalam buku Frank Harrell, Regresi Modeling Strategies ) adalah bahwa jika Anda berharap dapat mendeteksi efek ukuran wajar dengan kekuatan yang masuk akal , Anda perlu 10-20 pengamatan per parameter (kovariat) diperkirakan. Harrell membahas banyak opsi untuk "pengurangan dimensi" (menurunkan jumlah kovariat Anda ke ukuran yang lebih masuk akal), seperti PCA, tetapi yang paling penting adalah bahwa untuk memiliki kepercayaan terhadap hasil, pengurangan dimensi harus dilakukan tanpa melihat variabel respons . Melakukan regresi lagi hanya dengan variabel signifikan, seperti yang Anda sarankan di atas, dalam hampir setiap kasus adalah ide yang buruk.

Namun, karena Anda terjebak dengan kumpulan data dan seperangkat kovariat yang Anda minati, saya tidak berpikir bahwa menjalankan regresi berganda cara ini pada dasarnya salah. Saya pikir hal terbaik adalah menerima hasil sebagaimana adanya, dari model penuh (jangan lupa untuk melihat perkiraan titik dan interval kepercayaan untuk melihat apakah efek signifikan diperkirakan "besar" di beberapa akal sehat, dan apakah efek tidak signifikan sebenarnya diperkirakan lebih kecil dari efek signifikan atau tidak).

Seperti apakah masuk akal untuk melakukan analisis tanpa prediksi yang bidang Anda anggap penting: Saya tidak tahu. Tergantung inferensi apa yang ingin Anda buat berdasarkan model. Dalam arti sempit, model regresi masih terdefinisi dengan baik ("apa efek marginal dari para prediktor ini terhadap respons ini?"), Tetapi seseorang di bidang Anda mungkin mengatakan bahwa analisis itu tidak masuk akal. Akan sedikit membantu jika Anda tahu bahwa prediktor yang Anda miliki tidak berkorelasi dengan prediktor terkenal (apa pun itu), atau bahwa prediktor terkenal itu konstan atau hampir konstan untuk data Anda: maka setidaknya Anda bisa mengatakan bahwa sesuatu selain dari peramal terkenal memang memiliki efek pada respons.


Terima kasih atas komentarnya, tetapi saya tidak mengerti apa gunanya memeriksa interval kepercayaan?
naik

Karena Ben menjawab untuk Frank, saya akan menjawab untuk Ben dan dia dapat mengoreksi saya jika dia memikirkan hal lain. Ben menyarankan hanya menggunakan model lengkap. Maka setidaknya Anda tahu bahwa Anda belum meninggalkan variabel penting dari himpunan 5. Masalah overfitting mungkin merusak prediksi tetapi setidaknya Anda memiliki interval kepercayaan untuk parameter dan Anda bisa mendapatkan interval kepercayaan untuk prediksi. Saya pikir ini akan bekerja dengan baik jika Anda memiliki masalah collinearity dan interval kepercayaan pada parameter memberi tahu Anda apakah nilai parameternya bisa 0.
Michael R. Chernick

Jika model masih hilang variabel penting prediksi mungkin tidak baik dan penilaian akurasi prediksi berdasarkan data yang diberikan mungkin salah. Khawatir tentang kesalahan spesifikasi model dan selalu memeriksa residu. Frank Harrell adalah anggota aktif situs ini. Jadi saya harap pertanyaan ini menarik perhatiannya dan kemudian kita dapat mendengar langsung darinya.
Michael R. Chernick

Anda selalu dapat kehilangan variabel penting, dan Anda tidak pernah bisa benar-benar tahu ... Saya menyarankan melihat interval kepercayaan karena hanya bertanya apakah suatu variabel signifikan pada atau tidak kehilangan banyak informasi. Satu skenario adalah bahwa semua parameter Anda memiliki sekitar perkiraan efek yang sama, tetapi ketidakpastiannya bervariasi sehingga beberapa signifikan dan yang lainnya tidak. Anda pasti tidak ingin menyimpulkan dalam hal ini bahwa "variabel A dan B adalah penting, variabel C, D, dan E tidak". CI akan memberi Anda informasi ini. p<0.05
Ben Bolker

Dari diskusi saya pikir karena kurangnya pengamatan yang cukup dan tidak adanya variabel independen yang paling penting dalam set data saya, saya harus mendapatkan kesimpulan: 1-Variabel signifikan bukan variabel yang telah lulus uji-t. Yang signifikan adalah yang lulus uji-t dan interval kepercayaannya tidak termasuk 0. 2-Normalitas residual harus diperiksa. 3-Matriks korelasi harus diperiksa.
Naik

2

Jawaban untuk pertanyaan umum adalah bahwa itu tergantung dari banyak faktor dengan yang utama adalah (1) jumlah kovariat (2) varians dari estimasi dan residu. Dengan sampel kecil Anda tidak memiliki banyak kekuatan untuk mendeteksi perbedaan dari 0. Jadi saya akan melihat varians estimasi dari parameter regresi. Dari pengalaman saya dengan regresi 21 pengamatan dengan 5 variabel tidak cukup data untuk menyingkirkan variabel. Jadi saya tidak akan terlalu cepat untuk membuang variabel atau terlalu terpikat dengan yang terlihat signifikan. Jawaban terbaik adalah menunggu sampai Anda memiliki lebih banyak data. Terkadang itu mudah diucapkan tetapi sulit dilakukan. Saya akan melihat regresi bertahap, maju dan mundur hanya untuk melihat variabel apa yang dipilih. Jika kovariat sangat berkorelasi ini dapat menunjukkan set variabel yang sangat berbeda yang dipilih. Bootstrap prosedur pemilihan model yang akan mengungkapkan sensitivitas pemilihan variabel terhadap perubahan data. Anda harus menghitung matriks korelasi untuk kovariat. Mungkin Frank Harrell akan ikut campur dalam hal ini. Dia benar-benar ahli dalam pemilihan variabel. Saya pikir dia setidaknya akan setuju dengan saya bahwa Anda tidak harus memilih model akhir hanya berdasarkan 21 poin data ini.


Terima kasih atas saran Anda. Saya menambahkan matriks korelasi saya. Apakah menurut Anda dengan matriks korelasi ini melakukan regresi masuk akal? Hanya menekankan bahwa saya tidak dapat mengumpulkan lebih banyak data dan saya juga tidak ingin memodelkan atau memprediksi. Hanya saya ingin mencari hubungan yang mungkin antara variabel independen dan variabel dependen.
naik

Matriks korelasi ada di sana untuk memberi Anda beberapa gagasan tentang kolinearitas. Perkiraan mungkin akan memiliki varians yang besar dan signifikansi statistik seharusnya tidak menjadi fokus. Ypu dapat melihat diagnostik regresi untuk collinearity. Itu mungkin bisa membantu. Tetapi saya akan merekomendasikan melihat berbagai model subset untuk melihat bagaimana perubahan pas dan kombinasi variabel mana yang tampak baik dan buruk. Saya benar-benar berpikir bootstrap data akan menunjukkan kepada Anda sesuatu tentang stabilitas pilihan prediktor.
Michael R. Chernick

1
Tapi tidak ada yang bisa menggantikan kekurangan data. Saya pikir Anda hanya ingin melihat apakah ada satu atau dua variabel yang tampaknya berdiri di atas bahu di atas yang lain. Tetapi Anda mungkin menemukan sesuatu.
Michael R. Chernick

xx2x3x4
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.