Penafian: Ini untuk proyek pekerjaan rumah.
Saya mencoba untuk datang dengan model terbaik untuk harga berlian, tergantung pada beberapa variabel dan saya tampaknya memiliki model yang cukup bagus sejauh ini. Namun saya telah mengalami dua variabel yang jelas collinear:
>with(diamonds, cor(data.frame(Table, Depth, Carat.Weight)))
Table Depth Carat.Weight
Table 1.00000000 -0.41035485 0.05237998
Depth -0.41035485 1.00000000 0.01779489
Carat.Weight 0.05237998 0.01779489 1.00000000
Tabel dan Kedalaman saling bergantung, tetapi saya masih ingin memasukkannya ke dalam model prediksi saya. Saya melakukan penelitian pada berlian dan menemukan bahwa Table and Depth adalah panjang di bagian atas dan jarak dari ujung ke ujung berlian. Karena harga berlian ini tampaknya terkait dengan kecantikan dan kecantikan tampaknya terkait dengan proporsi, saya akan memasukkan rasio mereka, katakanlah , untuk memprediksi harga. Apakah prosedur standar ini untuk menangani variabel collinear? Jika tidak, apa itu?
Sunting: Ini adalah plot Kedalaman ~ Tabel: