Sebagian besar jawaban telah membantu memperjelas pemodelan apa untuk penjelasan dan pemodelan untuk prediksi dan mengapa mereka berbeda. Sejauh ini yang tidak jelas adalah bagaimana mereka berbeda. Jadi, saya pikir saya akan menawarkan contoh yang mungkin berguna.
Misalkan kita diinteretkan dalam memodelkan IPK Perguruan Tinggi sebagai fungsi persiapan akademik. Sebagai langkah persiapan akademik, kami memiliki:
- Skor Tes Aptitude;
- IPK HS; dan
- Jumlah Tes AP yang lulus.
Strategi untuk Prediksi
Jika tujuannya adalah prediksi, saya dapat menggunakan semua variabel ini secara bersamaan dalam model linier dan perhatian utama saya adalah akurasi prediksi. Mana pun dari variabel terbukti paling berguna untuk memprediksi IPK Perguruan Tinggi akan dimasukkan dalam model akhir.
Strategi untuk Penjelasan
Jika tujuannya adalah penjelasan, saya mungkin lebih peduli tentang pengurangan data dan berpikir dengan hati-hati tentang korelasi antara variabel independen. Perhatian utama saya adalah menafsirkan koefisien.
Contoh
Dalam masalah multivariat tipikal dengan prediktor berkorelasi, tidak jarang untuk mengamati koefisien regresi yang "tidak terduga". Dengan adanya keterkaitan antar variabel independen, tidak akan mengejutkan untuk melihat koefisien parsial untuk beberapa variabel yang tidak dalam arah yang sama dengan hubungan urutan nol mereka dan yang mungkin tampak kontra intuitif dan sulit untuk dijelaskan.
Misalnya, anggap model menyarankan bahwa (dengan Skor Tes Aptitude dan Jumlah Tes AP Berhasil Dipertimbangkan) IPK SMA lebih tinggi dikaitkan dengan IPK Perguruan Tinggi yang lebih rendah . Ini bukan masalah untuk prediksi, tetapi itu menimbulkan masalah untuk model penjelasan di mana hubungan seperti itu sulit untuk ditafsirkan . Model ini mungkin memberikan yang terbaik dari prediksi sampel tetapi tidak banyak membantu kita memahami hubungan antara persiapan akademik dan IPK Perguruan Tinggi.
Sebaliknya, strategi penjelas mungkin mencari beberapa bentuk pengurangan variabel, seperti komponen utama, analisis faktor, atau SEM untuk:
- fokus pada variabel yang merupakan ukuran terbaik "kinerja akademik" dan model IPK Perguruan Tinggi pada satu variabel; atau
- gunakan skor faktor / variabel laten yang berasal dari kombinasi tiga ukuran persiapan akademik daripada variabel asli.
Strategi seperti ini mungkin mengurangi kekuatan prediksi model, tetapi mereka dapat menghasilkan pemahaman yang lebih baik tentang bagaimana Persiapan Akademik terkait dengan IPK Perguruan Tinggi.