Misalkan kita diberi satu set data formulir dan . Kami diberi tugas untuk memprediksi berdasarkan nilai . Kami memperkirakan dua regresi di mana: ( y , x 1 , x 2 , ⋯ , x n - 1 ) y x y
Kami juga memperkirakan regresi yang memprediksi nilai berdasarkan nilai , yaitu: ( x 1 , ⋯ , x n - 1 ) x n = f 3 ( x 1 , ⋯ , x n - 1 )
Misalkan sekarang kita diberi nilai , maka kita akan memiliki dua metode berbeda untuk memprediksi :y
Yang mana yang lebih baik secara umum?
Saya menduga bahwa persamaan pertama akan lebih baik karena menggunakan informasi dari dua bentuk titik data sedangkan persamaan kedua menggunakan informasi dari hanya titik data yang memiliki nilai prediktor . Pelatihan statistik saya terbatas dan karenanya saya ingin mencari nasihat profesional.
Juga, secara umum, apa pendekatan terbaik terhadap data yang memiliki informasi yang tidak lengkap? Dengan kata lain, bagaimana kita bisa mengekstrak informasi paling dari data yang tidak memiliki nilai-nilai dalam semua dimensi?