Dalam statistik kami melakukan regresi linier, yang paling awal dari mereka. Secara umum, kita tahu bahwa semakin tinggi semakin baik, tetapi apakah pernah ada skenario di mana tinggi akan menjadi model yang tidak berguna?
Dalam statistik kami melakukan regresi linier, yang paling awal dari mereka. Secara umum, kita tahu bahwa semakin tinggi semakin baik, tetapi apakah pernah ada skenario di mana tinggi akan menjadi model yang tidak berguna?
Jawaban:
Iya nih. Kriteria untuk mengevaluasi model statistik tergantung pada masalah tertentu di tangan dan tidak beberapa fungsi mekanis dari atau signifikansi statistik (meskipun mereka peduli). Pertanyaan yang relevan adalah, "apakah model membantu Anda memahami data?"
Cara paling sederhana untuk mendapatkan tinggi adalah dengan melakukan beberapa tindakan yang setara dengan melakukan regresi sepatu kanan di sepatu kiri. Katakan ukuran sepatu kanan Anda, dan saya bisa memprediksi ukuran sepatu kiri Anda dengan sangat akurat. Besar R 2 ! Apa model statistik yang hebat! Kecuali itu artinya buang air diddly. Anda bisa mendapatkan R 2 yang bagus dengan meletakkan variabel yang sama di sisi kiri dan kanan regresi, tetapi regresi R 2 yang besar ini hampir pasti tidak akan berguna.
Ada kasus-kasus lain di mana memasukkan variabel di sisi kanan secara konseptual adalah hal yang salah untuk dilakukan (bahkan jika memunculkan ). Katakanlah Anda mencoba memperkirakan apakah beberapa kelompok minoritas didiskriminasi dan kecil kemungkinannya mendapatkan pekerjaan. Anda tidak boleh mengendalikan apakah perusahaan membalas panggilan setelah lamaran kerja karena lebih kecil kemungkinannya menanggapi lamaran pekerjaan minoritas mungkin menjadi saluran melalui mana diskriminasi terjadi! Menambahkan kontrol yang salah dapat membuat regresi Anda menjadi tidak berarti.
Anda selalu dapat meningkatkan dengan menambahkan lebih banyak regressor! Saya dapat terus menambahkan regressor ke sisi kanan sampai saya mendapatkan R 2 apa pun yang saya suka. Untuk memprediksi penghasilan tenaga kerja, saya bisa menambahkan kontrol pendidikan, kontrol usia, efek tetap seperempat, efek tetap kode pos, efek tetap pekerjaan, efek tetap perusahaan, efek tetap keluarga, efek permanen hewan peliharaan, panjang rambut dll ... di beberapa titik kontrol berhenti masuk akal tetapi R 2 terus naik. Menambahkan segala sesuatu sebagai regresi dikenal sebagai regresi "kitchen sink". Anda bisa mendapatkan R 2 tinggi tetapi mungkin secara berlebihan menyesuaikan data: model Anda memprediksi dengan sempurna sampel yang digunakan untuk memperkirakan model (memiliki R tinggi ) tetapi model yang diperkirakan gagal dengan buruk pada data baru.
Gagasan yang sama dapat muncul dalam pemasangan kurva polinomial. Berikan saya data acak, dan saya mungkin bisa mendapatkan dengan memasang polinomial 200 derajat. Namun pada data baru, polinomial yang diperkirakan akan gagal berfungsi karena overfitting. Sekali lagi, R 2 tinggi untuk model estimasi tetapi model estimasi tidak berguna.
Point (3-4) sebabnya kami telah disesuaikan , yang menyediakan beberapa hukuman untuk menambahkan lebih banyak regressors, tetapi disesuaikan R 2 dapat biasanya masih bisa dijus oleh overfitting data. Ini juga memiliki fitur luar biasa tidak masuk akal yang bisa menjadi negatif.
Saya juga bisa memberikan contoh di mana rendah baik-baik saja (misalnya memperkirakan beta dalam model penentuan harga aset) tetapi posting ini sudah cukup lama. Ringkasnya, pertanyaan keseluruhannya haruslah seperti, "mengetahui apa yang saya ketahui tentang masalah dan tentang statistik, apakah model ini membantu saya memahami / menjelaskan data?" R 2 dapat menjadi alat untuk membantu menjawab pertanyaan ini, tetapi tidak sesederhana model dengan R 2 yang lebih tinggi selalu lebih baik.
"Tinggi adalah lebih baik" adalah aturan praktis yang buruk untuk R-square.
Don Morrison menulis beberapa artikel terkenal beberapa tahun yang lalu yang menunjukkan bahwa R-square mendekati nol masih bisa ditindaklanjuti dan menguntungkan, tergantung pada industrinya. Misalnya, dalam pemasaran langsung yang memperkirakan respons terhadap pengiriman berlangganan majalah ke 10 juta rumah tangga, R-kuadrat dalam digit tunggal rendah dapat menghasilkan kampanye yang menguntungkan (berdasarkan ROI) jika pengiriman didasarkan pada 2 atau 3 desil respons teratas. kemungkinan.
Sosiolog lain (yang namanya luput dari saya) melakukan segmentasi R-kuadrat berdasarkan tipe data yang mencatat bahwa penelitian survei awal, R-kuadrat dalam kisaran 10-20% adalah norma, sedangkan untuk data bisnis, R-kuadrat dalam kisaran 40-60% itu yang diharapkan. Mereka kemudian berkomentar bahwa R-square 80-90% atau lebih besar kemungkinan melanggar asumsi regresi mendasar. Namun, penulis ini tidak memiliki pengalaman dengan bauran pemasaran, data deret waktu atau model yang berisi set lengkap fitur "kausal" (misalnya, 4 "Ps" klasik dari harga, promosi, tempat dan produk) yang dapat dan akan menghasilkan R- kotak mendekati 100%.
Yang mengatakan, bahkan masuk akal, pembandingan aturan praktis seperti ini tidak terlalu membantu ketika berhadapan dengan buta huruf secara teknis yang pertanyaan pertama tentang model prediksi akan selalu, "Apa R-square?"
Jawaban lain menawarkan penjelasan teoretis yang bagus tentang banyak cara nilai-nilai R-squared dapat diperbaiki / dipalsukan / menyesatkan / dll. Berikut ini adalah demonstrasi langsung yang selalu menempel pada saya, diberi kode r
:
y <- rnorm(10)
x <- sapply(rep(10,8),rnorm)
summary(lm(y~x))
Ini dapat memberikan nilai R-squared> 0,90. Tambahkan cukup banyak regressor dan bahkan nilai acak dapat "memprediksi" nilai acak.
set.seed(1)
dan set.seed(2)
.