25

Saya sedikit bingung jika variabel independen (juga disebut prediktor atau fitur) dalam model statistik, misalnya dalam regresi linier , apakah variabel acak? $X$ $Y=\beta_0+\beta_1 X$

— l7ll7
sumber

12

Model linear bersyarat pada , maka apakah itu acak atau tidak seharusnya tidak menjadi masalah.

X

$X$

— Xi'an

4

Lihat ini . Pertanyaan bagus, BTW.

— Antoni Parellada

@ Xi'an, dalam desain tetap asumsi model linier tidak dikondisikan pada , lihat jawaban saya. Jadi, itu sangat penting. Itulah alasan mengapa eksperimen jauh lebih mudah diinterpretasikan daripada hasil studi observasional

X

$X$

— Aksakal

19

Ada dua formulasi umum regresi linier. Untuk fokus pada konsep, saya akan sedikit abstrak mereka. Deskripsi matematis sedikit lebih terlibat daripada deskripsi bahasa Inggris, jadi mari kita mulai dengan yang terakhir:

Regresi linier adalah model di mana respons diasumsikan acak dengan distribusi yang ditentukan oleh regressor melalui peta linear dan, mungkin, oleh parameter lain . $Y$ $X$ $\beta(X)$ $\theta$

Dalam kebanyakan kasus, set distribusi yang mungkin adalah kumpulan lokasi dengan parameter dan dan memberikan parameter . Contoh pola dasar adalah regresi biasa di mana himpunan distribusi adalah keluarga Normal dan adalah fungsi linier dari para regressor. $\alpha$ $\theta$ $\beta(X)$ $\alpha$ $\mathcal{N}(\mu, \sigma)$ $\mu=\beta(X)$

Karena saya belum menggambarkan ini secara matematis, ini masih menjadi pertanyaan terbuka seperti apa objek matematika , , , dan merujuk - dan saya percaya itu adalah masalah utama di utas ini. Meskipun seseorang dapat membuat berbagai pilihan (setara), sebagian besar akan setara dengan, atau kasus khusus, dari uraian berikut. $X$ $Y$ $\beta$ $\theta$

Koreksi yang diperbaiki. Para regressor direpresentasikan sebagai vektor nyata . The respon adalah variabel acak (di mana diberkahi dengan bidang sigma dan probabilitas). The Model adalah fungsi (atau, jika Anda suka, satu set fungsi parameter dengan ). adalah submanifold topologi dimensi terbatas (biasanya terdiferensiasi kedua) (atau submanifold-dengan-batas) dimensi dari ruang distribusi probabilitas. $X\in\mathbb{R}^p$ $Y:\Omega\to\mathbb{R}$ $\Omega$ $f:\mathbb{R}\times\Theta\to M^d$ $\mathbb{R}\to M^d$ $\Theta$ $M^d$ $d$ $f$ biasanya dianggap berkelanjutan (atau cukup terdiferensiasi). adalah "parameter gangguan." Seharusnya distribusi adalah untuk beberapa vektor ganda ("koefisien regresi") dan tidak diketahui . Kita dapat menulis $\Theta\subset\mathbb{R}^{d-1}$ $Y$ $f(\beta(X), \theta)$ $\beta\in\mathbb{R}^{p*}$ $\theta\in\Theta$
$Y \sim f (β (X), θ) .$ $Y \sim f(\beta(X), \theta).$
Pengoreksi acak. The regressors dan respon adalah $p+1$ dimensi vektor-dihargai variabel acak $Z = (X,Y): \Omega^\prime \to \mathbb{R}^p \times \mathbb{R}$ . Model $f$ adalah jenis objek yang sama seperti sebelumnya, tetapi sekarang ia memberikan probabilitas bersyarat
$Y | X \sim f (β (X), θ) .$ $Y|X \sim f(\beta(X), \theta).$

Deskripsi matematis tidak berguna tanpa resep yang memberitahukan bagaimana itu dimaksudkan untuk diterapkan pada data. Dalam kasus regresi tetap kami menganggap $X$ sebagai ditentukan oleh eksperimen. Jadi mungkin membantu untuk melihat $\Omega$ sebagai produk $\mathbb{R}^p\times \Omega^\prime$ diberkahi dengan aljabar produk sigma. Eksperimen menentukan $X$ dan alam menentukan (beberapa tidak diketahui, abstrak) $\omega\in\Omega^\prime$ . Dalam kasus regresi acak, alam menentukan $\omega\in\Omega^\prime$ , komponen- $X$ dari variabel acak $\pi_X(Z(\omega))$ menentukan $X$ (yang "diamati"), dan kami sekarang memiliki pasangan yang dipesan $(X(\omega), \omega)) \in \Omega$ persis seperti dalam kasus regresi tetap.

Contoh pola dasar dari regresi linier berganda (yang akan saya ungkapkan menggunakan notasi standar untuk objek daripada yang lebih umum ini) adalah bahwa

f (β (X), σ) = N (β (x), σ)

$f(\beta(X), \sigma)=\mathcal{N}(\beta(x), \sigma)$ untuk beberapa konstanta

σ \in Θ = R^{+}

$\sigma \in \Theta = \mathbb{R}^{+}$ . Sebagai

x

$x$ bervariasi sepanjang

R^{p}

$\mathbb{R}^p$ , citra differentiably jejak keluar subset satu dimensi - sebuah kurva --Dalam manifold dua dimensi dari distribusi normal.

Ketika - dalam mode whatsoever-- $\beta$ diperkirakan sebagai dan sebagai , nilai adalah nilai prediksi dari yang berhubungan dengan --whether dikendalikan oleh eksperimen (kasus 1 ) atau hanya diamati (kasus 2). Jika kita salah menetapkan nilai (kasus 1) atau mengamati realisasi (kasus 2) dari , maka respon yang terkait dengan adalah variabel acak yang distribusi $\hat\beta$ $\sigma$ $\hat\sigma$ $\hat\beta(x)$ $Y$ $x$ $x$ $x$ $X$ $Y$ $X$ $\mathcal{N}(\beta(x), \sigma)$ , yang tidak diketahui tetapidiperkirakanmenjadi $\mathcal{N}(\hat\beta(x), \hat\sigma)$ .

— whuber
sumber

Izinkan saya menyebutkan, bahwa ini adalah jawaban yang fantastis (tetapi mungkin tidak untuk semua orang).

— l7ll7

2

PS Apakah Anda tahu ada buku, di mana pertanyaan mendasar ini dijelaskan setepat yang Anda lakukan di sini? Sebagai ahli matematika, semua buku yang saya temukan mencerminkan jawaban-jawaban lain di sini, yang jauh kurang tepat dari sudut pandang matematika. (Ini tidak membuat mereka buruk, tentu saja, hanya saja buku-buku itu bukan untuk saya - saya akan menyukai buku yang lebih tepat, seperti jawaban ini.)

— l7ll7

Dalam kalimat pertama paragraf terakhir, tidak

nilai prediksi untuk

(realisasi dari variabel acak

), bukan nilai prediksi untuk

? Atau harus saya salah paham bahasa Anda, dan "nilai prediksi untuk

" berarti "nilai prediksi ketika

adalah himpunan (diamati) nilai

?"

\hat{β} (x)

$\hat{\beta}(x)$

y

$y$

Y

$Y$

x

$x$

x

$x$

x

$x$

X

$X$

— Chad

1

@Chad Terima kasih telah menunjukkan bahasa yang mendua. Saya telah mengedit kalimat itu untuk mengklarifikasi makna, yang konsisten dengan pemahaman Anda.

— Whuber

7

Pertama-tama, @whuber memberikan jawaban yang sangat bagus. Saya akan memberikan pandangan berbeda, mungkin lebih sederhana dalam beberapa hal, juga dengan referensi ke teks.

MOTIVASI

dapat acak atau tetap dalam formulasi regresi. Ini tergantung pada masalah Anda. Untuk apa yang disebut studi observasional itu harus acak, dan untuk eksperimen biasanya diperbaiki. $X$

Contoh satu. Saya sedang mempelajari dampak paparan radiasi elektron pada kekerasan bagian logam. Jadi, saya mengambil beberapa sampel dari bagian logam dan memaparkan berbagai tingkat radiasi. Level eksposur saya adalah X, dan itu tetap , karena saya setel ke level yang saya pilih. Saya sepenuhnya mengontrol kondisi percobaan, atau setidaknya mencoba. Saya dapat melakukan hal yang sama dengan parameter lain, seperti suhu dan kelembaban.

Contoh dua. Anda sedang mempelajari dampak ekonomi pada frekuensi terjadinya penipuan dalam aplikasi kartu kredit. Jadi, Anda mundur dari peristiwa penipuan yang dihitung berdasarkan PDB. Anda tidak mengontrol PDB, Anda tidak dapat mengatur ke level yang diinginkan. Selain itu, Anda mungkin ingin melihat regresi multivariat, sehingga Anda memiliki variabel lain seperti pengangguran, dan sekarang Anda memiliki kombinasi nilai dalam X, yang Anda amati , tetapi tidak mengontrol. Dalam hal ini X adalah acak .

Contoh tiga. Anda sedang mempelajari kemanjuran pestisida baru di lapangan, yaitu tidak dalam kondisi lab, tetapi di pertanian eksperimental yang sebenarnya. Dalam hal ini Anda dapat mengontrol sesuatu, misalnya Anda dapat mengontrol jumlah pestisida yang harus dimasukkan. Namun, Anda tidak mengontrol semuanya, mis. Cuaca atau kondisi tanah. Ok, Anda bisa mengendalikan tanah sampai batas tertentu, tetapi tidak sepenuhnya. Ini adalah kasus di antaranya, di mana beberapa kondisi diamati dan beberapa kondisi dikontrol . Ada seluruh bidang studi yang disebut desain eksperimental yang benar-benar fokus pada kasus ketiga ini, di mana penelitian pertanian adalah salah satu aplikasi terbesarnya.

MATI

Ini dia bagian matematika dari sebuah jawaban. Ada serangkaian asumsi yang biasanya disajikan ketika mempelajari regresi linier, yang disebut kondisi Gauss-Markov. Mereka sangat teoretis dan tidak ada yang mau membuktikan bahwa mereka memegang pengaturan praktis apa pun. Namun, mereka sangat berguna dalam memahami keterbatasan metode ordinary least square (OLS).

Jadi, serangkaian asumsi berbeda untuk acak dan tetap X, yang kira - kira sesuai dengan penelitian observasional vs eksperimental. Secara kasar, karena seperti yang saya tunjukkan pada contoh ketiga, terkadang kita benar-benar berada di antara yang ekstrem. Saya menemukan bagian teorema "Gauss-Markov" dalam Encyclopedia of Research Design oleh Salkind adalah tempat yang baik untuk memulai, itu tersedia di Google Buku.

Asumsi yang berbeda dari desain tetap adalah sebagai berikut untuk model regresi biasa : $Y=X\beta+\varepsilon$

$E[\varepsilon]=0$
Homoscedasticity, $E[\varepsilon^2]=\sigma^2$
Tidak ada korelasi serial, $E[\varepsilon_i,\varepsilon_j]=0$

vs asumsi yang sama dalam desain acak:

$E[\varepsilon|X]=0$
Homoscedasticity, $E[\varepsilon^2|X]=\sigma^2$
Tidak ada korelasi serial, $E[\varepsilon_i,\varepsilon_j|X]=0$

Seperti yang Anda lihat, perbedaannya adalah pada pengkondisian asumsi pada matriks desain untuk desain acak. Pengkondisian membuat asumsi yang lebih kuat ini. Sebagai contoh, kami tidak hanya mengatakan, seperti dalam desain tetap, bahwa kesalahan memiliki nol rata-rata; dalam desain acak kami juga mengatakan mereka tidak bergantung pada X, kovariat.

— Aksakal
sumber

2

Dalam statistik, variabel acak adalah kuantitas yang bervariasi secara acak dalam beberapa cara. Anda dapat menemukan diskusi yang baik di utas CV yang luar biasa ini: Apa yang dimaksud dengan "variabel acak"?

Dalam model regresi, variabel prediktor (variabel-X, variabel penjelas, kovariat, dll.) Diasumsikan telah diperbaiki dan diketahui . Mereka tidak dianggap acak. Semua keacakan dalam model diasumsikan dalam istilah kesalahan. Pertimbangkan model regresi linier sederhana sebagai diformulasikan secara standar:

Y = β_{0} + β_{1} X + ε where ε \sim N (0, σ^{2})

$Y = \beta_0 + \beta_1 X + \varepsilon \\ \text{where } \varepsilon\sim\mathcal N(0, \sigma^2)$

ε

$\varepsilon$

Y

$Y$

X

$X$

— gung - Reinstate Monica
sumber

X

$X$

X

$X$

ε

$\varepsilon$

PS Saya melihat semua penjelasan dari tautan tersebut dan tidak ada yang sangat mencerahkan: Mengapa? Karena tidak ada yang membuat hubungan antara variabel acak sebagai probabilis memahaminya vs bagaimana ahli statistik memahaminya. Jadi beberapa jawaban menyatakan kembali standar, definisi teori probabilitas yang tepat, sementara yang lain menyatakan kembali (belum jelas bagi saya) definisi statistik yang kabur. Tetapi tidak ada yang benar-benar menjelaskan hubungan antara dua konsep ini. (Satu-satunya pengecualian adalah jawaban model tiket-dalam-kotak-panjang, yang mungkin menunjukkan beberapa janji, tetapi meskipun demikian [...]

— l7ll7

perbedaannya tidak diperjelas dengan cukup jelas untuk menerangi; Saya harus merenungkan jawaban khusus ini untuk melihat apakah ada nilai untuk itu)

— l7ll7

X

$X$

Tidak, cara berpikir variabel non-acak tentang hal itu tidak berhasil, karena dua alasan: Satu, seperti yang saya katakan dalam komentar di atas, tidak ada yang namanya "variabel" dalam matematika, dan dua, bahkan jika itu adalah , maka penambahan dalam kasus itu tidak didefinisikan, seperti yang saya katakan dalam komentar di atas.

— l7ll7

1

Tidak yakin apakah saya mengerti pertanyaannya, tetapi jika Anda hanya bertanya, "haruskah variabel independen selalu menjadi variabel acak", maka jawabannya adalah tidak.

Variabel independen adalah variabel yang dihipotesiskan untuk dikorelasikan dengan variabel dependen. Anda kemudian menguji apakah ini kasusnya melalui pemodelan (mungkin analisis regresi).

Ada banyak komplikasi dan "jika, tetapi tetapi dan" di sini, jadi saya sarankan untuk mendapatkan salinan buku ekonometrik dasar atau statistik yang mencakup analisis regresi dan membacanya dengan seksama, atau mendapatkan catatan kelas dari statistik dasar / ekonometrika tentu saja online jika memungkinkan.

— Statsanalyst
sumber

X

$X$

X

$X$

Y

$Y$

X

$X$

Y

$Y$

X

$X$

x \mapsto x

$x\mapsto x$

x

$x$

x

$x$

X

$X$

Kedengarannya seolah-olah Anda memiliki pemahaman matematika yang jauh lebih besar daripada saya. Saya hanya memberi Anda jawaban ekonometrik / statistik sarjana universitas standar. Saya bertanya-tanya apakah mungkin Anda terlalu banyak berpikir, setidaknya dari perspektif analisis praktis. Mengenai kutipan dari buku itu, interpretasi saya tentang itu adalah bahwa x dan y spesifik yang dia maksud adalah acak - tetapi itu tidak berarti bahwa x atau y adalah acak.

— Statsanalyst

misalnya variabel dependen dalam model untuk tren pemungutan suara dalam politik Inggris mungkin adalah jumlah suara yang diterima oleh kandidat Konservatif di setiap konstituensi (Naik ke Kanada, Distrik ke Amerika), dan variabel independen mungkin harga rumah rata-rata (proxy untuk kekayaan / penghasilan di Inggris). Tidak satu pun dari ini adalah variabel "acak" seperti yang saya mengerti, tetapi ini akan menjadi hal yang masuk akal untuk dimodelkan.

— Statsanalyst

Ok, itu bagus untuk mengetahui jawaban seperti apa yang dapat saya harapkan / adalah standar di departemen ekonometrika / statistik dan saya sangat menghargai umpan balik itu (saya akan sangat senang lagi, tapi saya tidak bisa karena saya sudah melakukannya). Masalah dengan matematika adalah "sekali kamu menjadi hitam kamu tidak akan pernah kembali": Pelatihan selama setahun dalam presisi matematika akan menimbulkan perasaan gelisah jika ada sesuatu yang tidak sejernih kristal sampai seseorang mencapai kejelasan [...]

— l7ll7

Variabel bebas = variabel acak?

MOTIVASI

MATI