Saya seorang mahasiswa ekonomi dengan beberapa pengalaman dengan ekonometrik dan R. Saya ingin tahu apakah pernah ada situasi di mana kita harus memasukkan variabel dalam regresi meskipun tidak signifikan secara statistik?
Saya seorang mahasiswa ekonomi dengan beberapa pengalaman dengan ekonometrik dan R. Saya ingin tahu apakah pernah ada situasi di mana kita harus memasukkan variabel dalam regresi meskipun tidak signifikan secara statistik?
Jawaban:
Iya nih!
Koefisien yang secara statistik tidak dapat dibedakan dari nol tidak menyiratkan bahwa koefisien sebenarnya adalah nol, bahwa koefisien tersebut tidak relevan. Bahwa suatu efek tidak lulus beberapa cutoff sewenang-wenang untuk signifikansi statistik tidak menyiratkan seseorang tidak boleh mencoba untuk mengendalikannya.
Secara umum, masalah yang dihadapi dan desain penelitian Anda harus memandu apa yang harus dimasukkan sebagai regressor.
Dan jangan tidak mengambil ini sebagai daftar yang lengkap. Tidak sulit menghasilkan banyak lagi ...
Situasi di mana ini sering terjadi adalah regresi dengan efek tetap .
Katakanlah Anda memiliki data panel dan ingin memperkirakan dalam model:
Memperkirakan model ini dengan kuadrat terkecil biasa di mana diperlakukan sebagai efek tetap setara dengan menjalankan kuadrat terkecil biasa dengan variabel indikator untuk setiap individu . aku
Pokoknya, intinya adalah bahwa variabel (yaitu koefisien pada variabel indikator) sering kali diestimasi dengan buruk. Setiap efek tetap individual sering tidak signifikan secara statistik. Tetapi Anda masih memasukkan semua variabel indikator dalam regresi jika Anda memperhitungkan efek tetap.u i
(Perhatikan lebih lanjut bahwa sebagian besar paket statistik bahkan tidak akan memberi Anda kesalahan standar untuk efek tetap individual ketika Anda menggunakan metode bawaan. Anda tidak terlalu peduli tentang signifikansi efek tetap individu. Anda mungkin benar-benar peduli tentang signifikansi kolektifnya) .)
Jika Anda menyesuaikan polinomial derajat ke beberapa kurva, Anda hampir selalu menyertakan istilah polinomial orde rendah.
Misalnya, jika Anda memasang polinomial pesanan kedua, Anda akan menjalankan:
Biasanya akan sangat aneh untuk memaksa dan sebaliknya menjalankan y i = b 0 + b 2 x 2 i + ϵ i
tetapi siswa mekanika Newton akan dapat membayangkan pengecualian.
Katakanlah Anda memperkirakan model AR (p) Anda juga akan memasukkan istilah pesanan lebih rendah. Misalnya untuk AR (2) Anda akan menjalankan:
Dan akan aneh untuk dijalankan:
Seperti @NickCox menyebutkan, istilah dan juga cenderung sama. Untuk lebih lanjut tentang itu, lihat misalnya makalah ini .dosa
Anda ingin memasukkan variabel sisi kanan ketika ada alasan teoritis yang baik untuk melakukannya.
Dan seperti yang dibahas oleh jawaban lain di sini dan di seluruh StackExchange, pemilihan variabel langkah-bijaksana dapat menciptakan banyak masalah statistik.
Penting juga untuk membedakan antara:
Dalam kasus terakhir, masalah untuk memperdebatkan koefisien tidak masalah. Ini mungkin hanya diukur dengan buruk.
Ya ada. Setiap variabel yang dapat berkorelasi dengan variabel respons Anda dengan cara yang bermakna, bahkan pada tingkat yang tidak signifikan secara statistik, dapat mengacaukan regresi Anda jika tidak dimasukkan. Ini dikenal sebagai spesifikasi kurang tinggi, dan mengarah ke perkiraan parameter yang tidak seakurat yang seharusnya.
https://onlinecourses.science.psu.edu/stat501/node/328
Dari atas:
Model regresi tidak ditentukan secara spesifik (hasil 2) jika persamaan regresi hilang satu atau lebih variabel prediktor penting. Situasi ini mungkin merupakan skenario terburuk, karena model yang kurang spesifik menghasilkan koefisien regresi yang bias dan prediksi tanggapan yang bias. Artinya, dalam menggunakan model, kita akan secara konsisten meremehkan atau melebih-lebihkan kemiringan populasi dan rata-rata populasi. Untuk membuat masalah yang sudah buruk menjadi lebih buruk, rata-rata kesalahan kuadrat MSE cenderung melebih-lebihkan σ², sehingga menghasilkan interval kepercayaan yang lebih luas dari yang seharusnya.
Biasanya Anda tidak memasukkan atau mengecualikan variabel untuk regresi linier karena signifikansinya. Anda memasukkan mereka karena Anda menganggap bahwa variabel yang dipilih adalah prediktor (baik) dari kriteria regresi. Dengan kata lain, pemilihan prediktor didasarkan pada teori.
Kepentingan statistik dalam regresi linier dapat berarti dua hal (yang saya tahu):
Alasan yang valid untuk mengecualikan prediktor tidak signifikan adalah bahwa Anda mencari subset prediktor terkecil yang menjelaskan varians kriteria atau sebagian besar. Jika Anda telah menemukannya, periksa teori Anda.
Dalam ekonometrik ini terjadi kiri dan kanan. Misalnya, jika Anda menggunakan boneka musiman triwulanan Q2, Q3, dan Q4, sering terjadi bahwa sebagai sebuah kelompok mereka signifikan, tetapi beberapa dari mereka tidak signifikan secara individual. Dalam hal ini Anda biasanya menyimpan semuanya.
UPDATE: Contoh umum lainnya adalah peramalan. Ekonometrika biasanya diajarkan dari perspektif inferensi di departemen ekonomi. Dalam perspektif inferensi, banyak perhatian ada pada nilai-p dan signifikansi, karena Anda mencoba memahami apa yang menyebabkan apa dan seterusnya. Dalam peramalan, tidak banyak penekanan pada hal-hal ini, karena yang Anda pedulikan adalah seberapa baik model dapat memperkirakan variabel yang diminati.
Ini mirip dengan aplikasi pembelajaran mesin, btw, yang sedang membuat jalan mereka ke ekonomi baru-baru ini. Anda dapat memiliki model dengan semua variabel signifikan yang tidak diramalkan dengan baik. Dalam ML sering dikaitkan dengan apa yang disebut "pas". Jelas ada sedikit penggunaan model seperti itu dalam peramalan.
Anda mengajukan dua pertanyaan berbeda:
Sunting: ini benar tentang pos asli, tetapi mungkin tidak lagi benar setelah diedit.
Mengenai Q1, saya pikir itu di perbatasan menjadi terlalu luas. Ada banyak kemungkinan jawaban, beberapa sudah disediakan. Satu contoh lagi adalah ketika membuat model untuk perkiraan (lihat sumber yang dikutip di bawah ini untuk penjelasan).
Mengenai Q2, signifikansi statistik bukan kriteria suara untuk membangun model. Rob J. Hyndman menulis yang berikut dalam posting blognya "Tes statistik untuk pemilihan variabel" :
Signifikansi statistik biasanya tidak menjadi dasar yang baik untuk menentukan apakah suatu variabel harus dimasukkan dalam suatu model, terlepas dari kenyataan bahwa banyak orang yang seharusnya tahu lebih baik menggunakannya untuk tujuan ini. <...> Tes statistik dirancang untuk menguji hipotesis, bukan variabel terpilih.
Perhatikan juga bahwa Anda sering dapat menemukan beberapa variabel yang signifikan secara statistik murni secara kebetulan (kesempatan dikendalikan oleh pilihan Anda pada tingkat signifikansi). Pengamatan bahwa suatu variabel signifikan secara statistik tidak cukup untuk menyimpulkan bahwa variabel termasuk dalam model.
Saya akan menambahkan "ya" lainnya. Saya selalu diajari - dan saya sudah mencoba menyampaikannya - bahwa pertimbangan utama dalam pilihan kovariat adalah pengetahuan domain, bukan statistik. Dalam biostatistik, misalnya, jika saya memodelkan beberapa hasil kesehatan pada individu, maka tidak peduli apa yang dikatakan regresi, Anda akan memerlukan beberapa argumen yang bagus bagi saya untuk tidak memasukkan usia, ras, dan jenis kelamin dalam model.
Itu juga tergantung pada tujuan model Anda. Jika tujuannya adalah untuk mendapatkan pemahaman yang lebih baik tentang faktor-faktor apa yang paling terkait dengan hasil Anda, maka membangun model pelit memiliki beberapa kebajikan. Jika Anda peduli tentang prediksi, dan tidak terlalu banyak memahami, maka menghilangkan kovariat mungkin menjadi masalah yang lebih kecil.
(Terakhir, jika Anda berencana menggunakan statistik untuk pemilihan variabel, lihat apa yang dikatakan Frank Harrell tentang masalah ini - http://www.stata.com/support/faqs/statistics/stepwise-regress-problems/ , dan bukunya Regresi Modeling Strategies . Secara singkat, pada saat Anda telah menggunakan strategi berbasis statistik stepwise atau serupa untuk memilih prediktor terbaik, maka setiap tes "apakah ini prediktor yang baik?" sangat bias - tentu saja mereka ' adalah prediktor yang baik, Anda telah memilihnya atas dasar itu, dan nilai p untuk prediktor tersebut sangat rendah.)
Satu-satunya hal yang benar-benar dikatakan oleh hasil "tidak signifikan secara statistik" adalah bahwa, pada tingkat kesalahan Tipe I yang dipilih, kita bahkan tidak dapat mengatakan apakah efek dari regresi terhadap variabel dependen adalah positif atau negatif (lihat posting ini).
Jadi, jika kita menyimpan regresi ini, setiap diskusi tentang efeknya sendiri pada variabel dependen tidak memiliki bukti statistik untuk mendukungnya.
Tetapi kegagalan estimasi ini tidak mengatakan bahwa regressor tidak termasuk dalam hubungan struktural, itu hanya mengatakan bahwa dengan set data spesifik kami tidak dapat menentukan dengan pasti tanda koefisiennya.
Jadi pada prinsipnya, jika ada argumen teoretis yang mendukung keberadaannya, maka regressor harus dijaga.
Jawaban lain di sini memberikan model / situasi spesifik yang menyimpan regressor tersebut dalam spesifikasi, misalnya jawaban yang menyebutkan model data panel efek tetap.
Anda dapat memasukkan variabel minat tertentu jika itu adalah fokus penelitian, bahkan jika tidak signifikan secara statistik. Juga, dalam biostatistik, signifikansi klinis seringkali berbeda dari signifikansi statistik.