Saya sedikit bingung jika variabel independen (juga disebut prediktor atau fitur) dalam model statistik, misalnya dalam regresi linier , apakah variabel acak?Y = β 0 + β 1 X
Saya sedikit bingung jika variabel independen (juga disebut prediktor atau fitur) dalam model statistik, misalnya dalam regresi linier , apakah variabel acak?Y = β 0 + β 1 X
Jawaban:
Ada dua formulasi umum regresi linier. Untuk fokus pada konsep, saya akan sedikit abstrak mereka. Deskripsi matematis sedikit lebih terlibat daripada deskripsi bahasa Inggris, jadi mari kita mulai dengan yang terakhir:
Regresi linier adalah model di mana respons diasumsikan acak dengan distribusi yang ditentukan oleh regressor melalui peta linear dan, mungkin, oleh parameter lain .
Dalam kebanyakan kasus, set distribusi yang mungkin adalah kumpulan lokasi dengan parameter dan dan memberikan parameter . Contoh pola dasar adalah regresi biasa di mana himpunan distribusi adalah keluarga Normal dan adalah fungsi linier dari para regressor.
Karena saya belum menggambarkan ini secara matematis, ini masih menjadi pertanyaan terbuka seperti apa objek matematika , , , dan merujuk - dan saya percaya itu adalah masalah utama di utas ini. Meskipun seseorang dapat membuat berbagai pilihan (setara), sebagian besar akan setara dengan, atau kasus khusus, dari uraian berikut.
Koreksi yang diperbaiki. Para regressor direpresentasikan sebagai vektor nyata . The respon adalah variabel acak (di mana diberkahi dengan bidang sigma dan probabilitas). The Model adalah fungsi (atau, jika Anda suka, satu set fungsi parameter dengan ). adalah submanifold topologi dimensi terbatas (biasanya terdiferensiasi kedua) (atau submanifold-dengan-batas) dimensi dari ruang distribusi probabilitas. Y : Ω → R Ω f : R × Θ → M d R → M d Θ M d d f Θ ⊂ R d - 1 Y f ( β ( X ) , θ ) β ∈ R p ∗ θ ∈ Θ Y ∼ f ( β ( X ) , θ ) .biasanya dianggap berkelanjutan (atau cukup terdiferensiasi). adalah "parameter gangguan." Seharusnya distribusi adalah untuk beberapa vektor ganda ("koefisien regresi") dan tidak diketahui . Kita dapat menulis
Pengoreksi acak. The regressors dan respon adalah dimensi vektor-dihargai variabel acak . Model adalah jenis objek yang sama seperti sebelumnya, tetapi sekarang ia memberikan probabilitas bersyarat
Deskripsi matematis tidak berguna tanpa resep yang memberitahukan bagaimana itu dimaksudkan untuk diterapkan pada data. Dalam kasus regresi tetap kami menganggap sebagai ditentukan oleh eksperimen. Jadi mungkin membantu untuk melihat sebagai produk diberkahi dengan aljabar produk sigma. Eksperimen menentukan dan alam menentukan (beberapa tidak diketahui, abstrak) . Dalam kasus regresi acak, alam menentukan , komponen- dari variabel acak menentukan (yang "diamati"), dan kami sekarang memiliki pasangan yang dipesan persis seperti dalam kasus regresi tetap.
Contoh pola dasar dari regresi linier berganda (yang akan saya ungkapkan menggunakan notasi standar untuk objek daripada yang lebih umum ini) adalah bahwa
Ketika - dalam mode whatsoever-- diperkirakan sebagai β dan σ sebagai σ , nilai β ( x ) adalah nilai prediksi dari Y yang berhubungan dengan x --whether x dikendalikan oleh eksperimen (kasus 1 ) atau hanya diamati (kasus 2). Jika kita salah menetapkan nilai (kasus 1) atau mengamati realisasi (kasus 2) x dari X , maka respon Y yang terkait dengan X adalah variabel acak yang distribusi N ( , yang tidak diketahui tetapidiperkirakanmenjadi .
Pertama-tama, @whuber memberikan jawaban yang sangat bagus. Saya akan memberikan pandangan berbeda, mungkin lebih sederhana dalam beberapa hal, juga dengan referensi ke teks.
dapat acak atau tetap dalam formulasi regresi. Ini tergantung pada masalah Anda. Untuk apa yang disebut studi observasional itu harus acak, dan untuk eksperimen biasanya diperbaiki.
Contoh satu. Saya sedang mempelajari dampak paparan radiasi elektron pada kekerasan bagian logam. Jadi, saya mengambil beberapa sampel dari bagian logam dan memaparkan berbagai tingkat radiasi. Level eksposur saya adalah X, dan itu tetap , karena saya setel ke level yang saya pilih. Saya sepenuhnya mengontrol kondisi percobaan, atau setidaknya mencoba. Saya dapat melakukan hal yang sama dengan parameter lain, seperti suhu dan kelembaban.
Contoh dua. Anda sedang mempelajari dampak ekonomi pada frekuensi terjadinya penipuan dalam aplikasi kartu kredit. Jadi, Anda mundur dari peristiwa penipuan yang dihitung berdasarkan PDB. Anda tidak mengontrol PDB, Anda tidak dapat mengatur ke level yang diinginkan. Selain itu, Anda mungkin ingin melihat regresi multivariat, sehingga Anda memiliki variabel lain seperti pengangguran, dan sekarang Anda memiliki kombinasi nilai dalam X, yang Anda amati , tetapi tidak mengontrol. Dalam hal ini X adalah acak .
Contoh tiga. Anda sedang mempelajari kemanjuran pestisida baru di lapangan, yaitu tidak dalam kondisi lab, tetapi di pertanian eksperimental yang sebenarnya. Dalam hal ini Anda dapat mengontrol sesuatu, misalnya Anda dapat mengontrol jumlah pestisida yang harus dimasukkan. Namun, Anda tidak mengontrol semuanya, mis. Cuaca atau kondisi tanah. Ok, Anda bisa mengendalikan tanah sampai batas tertentu, tetapi tidak sepenuhnya. Ini adalah kasus di antaranya, di mana beberapa kondisi diamati dan beberapa kondisi dikontrol . Ada seluruh bidang studi yang disebut desain eksperimental yang benar-benar fokus pada kasus ketiga ini, di mana penelitian pertanian adalah salah satu aplikasi terbesarnya.
Ini dia bagian matematika dari sebuah jawaban. Ada serangkaian asumsi yang biasanya disajikan ketika mempelajari regresi linier, yang disebut kondisi Gauss-Markov. Mereka sangat teoretis dan tidak ada yang mau membuktikan bahwa mereka memegang pengaturan praktis apa pun. Namun, mereka sangat berguna dalam memahami keterbatasan metode ordinary least square (OLS).
Jadi, serangkaian asumsi berbeda untuk acak dan tetap X, yang kira - kira sesuai dengan penelitian observasional vs eksperimental. Secara kasar, karena seperti yang saya tunjukkan pada contoh ketiga, terkadang kita benar-benar berada di antara yang ekstrem. Saya menemukan bagian teorema "Gauss-Markov" dalam Encyclopedia of Research Design oleh Salkind adalah tempat yang baik untuk memulai, itu tersedia di Google Buku.
Asumsi yang berbeda dari desain tetap adalah sebagai berikut untuk model regresi biasa :
vs asumsi yang sama dalam desain acak:
Seperti yang Anda lihat, perbedaannya adalah pada pengkondisian asumsi pada matriks desain untuk desain acak. Pengkondisian membuat asumsi yang lebih kuat ini. Sebagai contoh, kami tidak hanya mengatakan, seperti dalam desain tetap, bahwa kesalahan memiliki nol rata-rata; dalam desain acak kami juga mengatakan mereka tidak bergantung pada X, kovariat.
Dalam statistik, variabel acak adalah kuantitas yang bervariasi secara acak dalam beberapa cara. Anda dapat menemukan diskusi yang baik di utas CV yang luar biasa ini: Apa yang dimaksud dengan "variabel acak"?
Dalam model regresi, variabel prediktor (variabel-X, variabel penjelas, kovariat, dll.) Diasumsikan telah diperbaiki dan diketahui . Mereka tidak dianggap acak. Semua keacakan dalam model diasumsikan dalam istilah kesalahan. Pertimbangkan model regresi linier sederhana sebagai diformulasikan secara standar:
Tidak yakin apakah saya mengerti pertanyaannya, tetapi jika Anda hanya bertanya, "haruskah variabel independen selalu menjadi variabel acak", maka jawabannya adalah tidak.
Variabel independen adalah variabel yang dihipotesiskan untuk dikorelasikan dengan variabel dependen. Anda kemudian menguji apakah ini kasusnya melalui pemodelan (mungkin analisis regresi).
Ada banyak komplikasi dan "jika, tetapi tetapi dan" di sini, jadi saya sarankan untuk mendapatkan salinan buku ekonometrik dasar atau statistik yang mencakup analisis regresi dan membacanya dengan seksama, atau mendapatkan catatan kelas dari statistik dasar / ekonometrika tentu saja online jika memungkinkan.