Masalah dalam menghitung, menafsirkan regsubsets, dan pertanyaan umum tentang prosedur pemilihan model

Saya ingin memilih model menggunakan regsubsets(). Saya memiliki kerangka data yang disebut olympiadaten (data diunggah: http://www.sendspace.com/file/8e27d0 ). Saya pertama-tama melampirkan kerangka data ini dan kemudian mulai menganalisis, kode saya adalah:

attach(olympiadaten)

library(leaps)
a<-regsubsets(Gesamt ~ CommunistSocialist + CountrySize + GNI + Lifeexp + 
              Schoolyears + ExpMilitary + Mortality +
PopPoverty + PopTotal + ExpEdu + ExpHealth, data=olympiadaten, nbest=2)
summary(a)
plot(a,scale="adjr2")


summary(lm(Gesamt~ExpHealth))

tangkapan layar plot:

Masalahnya adalah sekarang, bahwa saya ingin mencocokkan model terbaik lagi "secara manual" dan melihatnya, tetapi nilai R yang disesuaikan kuadrat tidak sama dengan dalam output regsubsets? Ini juga merupakan kasus untuk model lain, misalnya ketika saya melakukan model paling sederhana dalam grafik:

summary(lm(Gesamt~ExpHealth))

Grafik mengatakan, seharusnya memiliki R kuadrat yang disesuaikan sekitar 0,14, tetapi ketika saya melihat output, saya mendapatkan nilai 0,06435.

Ini adalah output dari summary(lm(Gesamt~ExpHealth)):

Call:
lm(formula = Gesamt ~ ExpHealth)

Residuals:
    Min      1Q  Median      3Q     Max 
-18.686  -9.856  -4.496   1.434  81.980 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)  
(Intercept)  -3.0681     6.1683  -0.497   0.6203  
ExpHealth     1.9903     0.7805   2.550   0.0127 *
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 18.71 on 79 degrees of freedom
  (4 observations deleted due to missingness)
Multiple R-squared: 0.07605,    Adjusted R-squared: 0.06435 
F-statistic: 6.502 on 1 and 79 DF,  p-value: 0.01271

Saya tidak tahu apa yang mungkin saya lakukan salah, bantuan apa pun akan dihargai.

Dan yang tak kalah pentingnya, beberapa pertanyaan lagi:

Apa perbedaan antara memilih model oleh AIC dan oleh adj. R kuadrat?
Keduanya mengukur kecocokan dan mengenali jumlah variabel, jadi bukan model terbaik yang dipilih oleh AIC juga model dengan adj tertinggi. r kuadrat?
$2^12$
Jadi, apakah regsubsets()perintah menghitung masing-masing model dan menunjukkan dua terbaik ( nbest=2) dari masing-masing ukuran?
Jika demikian, apakah saya benar-benar mendapatkan model 'terbaik'?
Dan ketika saya melakukan AIC menggunakan seleksi mundur (dimulai dengan model yang berisi semua variabel), apakah ini juga berakhir dengan model yang sama yang regsubsets()mengatakan yang terbaik?

r multiple-regression model-selection

— pengguna1690846
sumber

R^{2}

$R^2$

R^{2}

$R^2$

@ mark999 Komentar Anda bagus dan sepertinya memberikan jawaban yang tepat. Anda harus mengubahnya menjadi jawaban.

— Michael R. Chernick

Terima kasih @MichaelChernick tapi saya lebih suka membiarkannya sebagai komentar.

— mark999

@ user1690846 Saya sarankan melihat jawaban Peter Flom untuk stats.stackexchange.com/questions/8303/…

— mark999

@ mark999 pertama-tama terima kasih atas jawaban, tapi mengapa ini metode yang buruk? Dan apakah memilih dengan AIC lebih baik? Jadi haruskah saya cocok dengan model dengan menggunakan na.omit (olympiadaten)? Jika ada yang punya jawaban untuk pertanyaan lain, jawaban lebih lanjut akan sangat dihargai, terima kasih

— user1690846

Jawaban:

Untuk memajukan gagasan tentang penggunaan semua himpunan bagian atau perangkat himpunan himpunan bagian terbaik untuk menemukan model pemasangan "Terbaik", Buku "Bagaimana Berbohong dengan Statistik" oleh Darrell Huff mengisahkan tentang Readers Digest yang menerbitkan perbandingan bahan kimia dalam asap rokok. Maksud artikel mereka adalah untuk menunjukkan bahwa tidak ada perbedaan nyata antara merek-merek yang berbeda, tetapi satu merek paling rendah di beberapa bahan kimia (tetapi sedikit sekali perbedaannya tidak berarti) dan merek memulai kampanye iklan besar berdasarkan menjadi "terendah" atau "terbaik" menurut Readers Digest.

Semua subset atau regresi subset terbaik adalah serupa, pesan sebenarnya dari grafik yang Anda tunjukkan bukan "di sini adalah yang terbaik" tetapi sebenarnya tidak ada satu model terbaik. Dari tampilan statistik (menggunakan r-squared yang disesuaikan) sebagian besar model Anda hampir sama (beberapa di bagian bawah lebih rendah daripada yang di atas, tetapi sisanya semua serupa). Keinginan Anda untuk menemukan model "Terbaik" dari tabel itu seperti perusahaan rokok yang mengatakan bahwa produk mereka adalah yang terbaik ketika tujuannya adalah untuk menunjukkan bahwa mereka semua serupa.

Ini adalah sesuatu untuk dicoba, hapus satu titik secara acak dari dataset dan jalankan kembali analisisnya, apakah Anda mendapatkan model "Terbaik" yang sama? atau apakah itu berubah? ulangi beberapa kali menghapus titik yang berbeda setiap kali untuk melihat bagaimana perubahan model "Terbaik". Apakah Anda benar-benar nyaman mengklaim model adalah "Terbaik" ketika perubahan kecil dalam data memberikan "Terbaik" yang berbeda? Juga lihat seberapa jauh perbedaan koefisien antara model yang berbeda, bagaimana Anda menginterpretasikan perubahan itu?

$x_1$ $x_2$ $x_1$ $x_1$ $x_2$ membutuhkan 5 menit dan Sphygmomanometer. Apakah benar-benar sepadan dengan waktu ekstra, biaya, dan risiko untuk mendapatkan tambahan 0,01 dalam adjuster r-squared, atau apakah model yang lebih baik adalah model yang lebih cepat, lebih murah, lebih aman? Apa yang masuk akal dari sudut pandang sains? Dalam contoh Anda di atas, apakah Anda benar-benar berpikir bahwa meningkatkan pengeluaran untuk militer akan meningkatkan kinerja olimpiade? atau apakah ini kasus variabel yang bertindak sebagai pengganti untuk variabel pengeluaran lain yang akan memiliki pengaruh lebih langsung?

Hal-hal lain yang perlu dipertimbangkan termasuk mengambil beberapa model yang baik dan menggabungkannya (Model Averaging), atau daripada meminta masing-masing variabel menjadi semua atau semua menambahkan beberapa bentuk penalti (Ridge regresi, LASSO, elasticnet, ...).

— Greg Snow
sumber

Jawaban yang bagus! Sorotan untuk "Lebih baik untuk memahami pertanyaan dan ilmu di balik data dan menggunakan informasi itu untuk membantu memutuskan model" Terbaik "" dan semua paragraf berikut.

— Andre Silva

$^2$

Saya benar-benar tidak tahu apa yang Anda maksud dengan model terbaik. Setiap kriteria pada dasarnya memberikan definisi yang berbeda tentang yang terbaik. Anda dapat memanggil model terbaik dalam hal informasi, entropi, kompleksitas stokastik, variasi persentase yang dijelaskan (disesuaikan) dan banyak lagi. Jika Anda berurusan dengan crtierion tertentu dan maknanya dengan terbaik menangkap minimum sebenarnya untuk mengatakan AIC atas semua model yang mungkin maka itu hanya dapat dijamin dengan melihat semua model (yaitu semua pilihan subset untuk variabel). Prosedur step-up, step-down dan step-wise tidak selalu menemukan model terbaik dalam arti suatu crtierion tertentu. Dengan regresi bertahap, Anda bahkan bisa mendapatkan jawaban yang berbeda dengan memulai model yang berbeda. Saya yakin Frank Harrell akan banyak bicara tentang ini.

Untuk mempelajari lebih lanjut, ada beberapa buku bagus tentang pemilihan model / subset yang tersedia dan saya telah merujuk beberapa di sini pada posting lain. Juga monografi Lacey Gunter dengan Springer dalam seri SpringerBrief mereka akan segera keluar. Saya adalah rekan penulis dalam buku itu.

— Michael R. Chernick
sumber