Saat ini saya sedang berusaha menerapkan metode yang digunakan dalam sebuah makalah populer berjudul "I Just Ran Two Million Regressions". Ide dasar di balik itu adalah bahwa ada kasus-kasus tertentu di mana tidak jelas kontrol apa yang harus dimasukkan dalam model. Satu hal yang dapat Anda lakukan dalam kasus seperti itu adalah menggambar kontrol secara acak, menjalankan jutaan regresi berbeda, dan kemudian melihat bagaimana variabel minat Anda bereaksi. Jika umumnya memiliki masuk yang sama di semua spesifikasi maka kita dapat menganggapnya lebih kuat daripada variabel yang tandanya selalu berubah.
Sebagian besar kertas sangat jelas. Namun, makalah ini menimbang semua regresi berbeda dengan cara berikut: Kemungkinan terintegrasi dari spesifikasi yang diberikan dibagi dengan jumlah semua kemungkinan terintegrasi untuk semua spesifikasi.
Masalah yang saya alami adalah bahwa saya tidak yakin bagaimana kemungkinan terintegrasi terkait dengan regresi OLS yang ingin saya jalankan (dalam Stata). Topik Googling seperti "stata integrated likelihood" telah menemui jalan buntu karena saya terus mengalami hal-hal seperti regresi logistik efek campuran. Saya mengakui bahwa model ini terlalu rumit untuk saya pahami.
Pekerjaan saya saat ini adalah bahwa ada skema pembobotan yang berbeda yang digunakan dalam literatur yang saya mengerti. Sebagai contoh, adalah mungkin untuk menimbang setiap regresi berdasarkan indeks rasio kemungkinan. Bahkan ada paket R yang menggunakan lri sebagai bobot. Tentu saja, saya juga ingin menerapkan yang asli.
Ada saran?
Tautan Kertas: http://down.cenet.org.cn/upfile/34/2009112141315178.pdf