Saya memiliki pemikiran naif bahwa regresi linier hanya cocok ketika seseorang menduga ada hubungan fungsional linier antara variabel penjelas dan variabel respons. Tetapi tidak banyak aplikasi dunia nyata yang tampaknya memenuhi kriteria ini.
Ini bukan pemahaman yang benar tentang apa yang "linear" dalam "regresi linier".
Bukan hubungan antara dan x yang diasumsikan berbentuk linear (meskipun semua contoh dasar cenderung menyesatkan Anda).yx
"Linier" mengacu pada model yang linier dalam parameter, dan hubungan non-linear antara dan beberapa x dapat dimodelkan seperti itu.yx
Ada contoh dengan prediktor tunggal di sini , tetapi model kurvilinear lebih sering dipasang sebagai regresi berganda, di mana beberapa fungsi prediktor (variabel x, variabel independen) dapat terjadi dalam regresi, dan ini memungkinkan banyak fleksibilitas. Ini termasuk regresi polinomial, misalnya. Lihat beberapa diskusi dan contoh di sini .
Namun, jika kita membiarkan fakta bahwa prediktor dapat ditransformasikan agar sesuai dengan hubungan melengkung, linearitas dalam parameter juga sesuai dengan linearitas dalam prediktor yang ditransformasikan.
Selain itu, banyak masalah yang mendekati linier (setidaknya pada kisaran nilai yang dipertimbangkan), atau sangat bising sehingga kelengkungan ringan tidak dapat dilihat, dan berbagai model sederhana untuk peningkatan atau penurunan hubungan mungkin dilakukan - dan dalam hal ini pilihan linier mungkin memadai dan paling sederhana untuk disesuaikan dan dipahami.
Apa aspek proyek yang akan dipikirkan oleh ahli statistik berpengalaman jika mereka berada di posisi saya, mencari pertanyaan + data yang cocok untuk regresi linier.
Satu-satunya waktu saya mungkin mencari masalah untuk menerapkan regresi adalah ketika saya mencoba untuk menemukan contoh yang baik untuk mengajar. Ketika sebenarnya dalam posisi melakukan pekerjaan statistik (daripada menjelaskan atau mengajarnya), saya memilih metodologi yang sesuai dengan pertanyaan yang menarik (dan karakteristik data), daripada memilih data yang sesuai dengan metode tersebut.
Bayangkan tukang kayu, misalnya. Tukang kayu tidak mengambil spokeshave dan berkata "apa yang bisa saya gunakan ini ?". Sebaliknya, tukang kayu memiliki masalah untuk dipecahkan, dan dalam mempertimbangkan karakteristik masalah ("apa yang saya coba buat?" Dan "jenis kayu apa yang saya gunakan?" Dan seterusnya ...) alat tertentu mungkin lebih relevan daripada yang lain. Terkadang alat yang tersedia dapat membatasi atau memandu pilihan (jika Anda tidak memiliki spokeshave, Anda mungkin harus puas dengan sesuatu yang lain ... atau Anda mungkin harus membeli spokeshave).
Namun, mari kita asumsikan bahwa Anda memiliki ahli statistik saku yang membantu Anda dan Anda sedang mencari masalah yang cocok untuk regresi linier. Kemudian mereka mungkin menyarankan Anda mempertimbangkan berbagai asumsi regresi dan kapan itu penting. Saya akan menyebutkan beberapa hal.
E( y| g( x ) )g( x )gx∗= xE( y| x∗) = a + b x ∗
Jika Anda dapat menggunakan regresi berganda bahkan itu bukan masalah utama, karena orang dapat menggunakan (misalnya) splines regresi kubik agar sesuai dengan hubungan yang cukup umum.
Saya sarankan Anda menghindari data dari waktu ke waktu kecuali jika Anda memahami masalah dengan regresi palsu; tetap dengan masalah cross-sectional.
xx
x
Jika Anda tertarik pada pengujian hipotesis, interval kepercayaan atau interval prediksi, maka lebih dari asumsi regresi biasa mungkin penting (tetapi ada alternatif yang tidak membuat asumsi tersebut, dan dalam beberapa kasus, setidaknya beberapa asumsi mungkin tidak menjadi sangat penting).
Jadi satu hal yang setidaknya harus diperhatikan adalah asumsi apa yang dibuat untuk menurunkan prosedur inferensial yang Anda gunakan dan seberapa penting mereka dalam masalah khusus Anda (sebagai contoh, ketika melakukan tes hipotesis biasa, normalitas adalah asumsi, tetapi dalam sampel besar asumsi itu mungkin tidak penting; di sisi lain, asumsi varians konstan mungkin lebih menjadi masalah).
Ada sejumlah posting yang membahas asumsi regresi, dan beberapa posting yang membahas kapan mereka perlu dibuat sama sekali, dan seberapa banyak mereka mungkin penting, dan bahkan urutan untuk mempertimbangkannya.