Pertama-tama, saya menyadari beberapa regresi tidak benar-benar memberikan kesimpulan "kausal" tentang data. Biarkan saya jelaskan kasus saya saat ini:
Saya memiliki empat variabel independen yang saya harap (tetapi tidak yakin) terlibat dalam mengemudikan hal yang saya ukur. Saya ingin menggunakan regresi berganda untuk melihat seberapa besar masing-masing variabel berkontribusi terhadap variabel dependen saya, dan melakukannya. Seharusnya, variabel "Nomor empat" memengaruhi ukuran hasil saya dengan sangat kuat (berat beta mendekati 0,7).
Namun, saya sudah diberitahu ini tidak cukup, karena beberapa variabel "independen" saya mungkin sebenarnya berkorelasi satu sama lain. Dalam hal ini, saya bisa berpikir "Variabel empat" mendorong variabel dependen saya, ketika benar-benar baik tiga dan empat dapat berkontribusi sama. Tampaknya ini benar, tetapi karena saya baru dalam hal ini, saya tidak yakin.
Bagaimana saya bisa menghindari masalah ini secara sistemik di masa depan? Prosedur spesifik apa yang akan Anda rekomendasikan ketika menggunakan regresi berganda untuk memastikan bahwa data "independen" Anda belum mengandung korelasi tersembunyi?
Sunting: Data itu sendiri adalah serangkaian model jaringan (grafik) dari keadaan neurologis tertentu. Saya mengukur "koefisien pengelompokan" yang menggambarkan topologi masing-masing jaringan secara keseluruhan (variabel dependen di sini), dan kemudian melihat apakah konektivitas individu dari empat node dalam jaringan 100+ yang lebih besar mendorong nilai-nilai pengelompokan global (empat independen) variabel). Namun, simpul-simpul ini adalah bagian dari jaringan, jadi menurut definisi, mungkin saja mereka berkorelasi sampai batas tertentu.