Bagaimana tepatnya satu "kontrol untuk variabel lain"?

141

Inilah artikel yang memotivasi pertanyaan ini: Apakah ketidaksabaran membuat kita gemuk?

Saya menyukai artikel ini, dan itu dengan baik menunjukkan konsep "mengendalikan variabel-variabel lain" (IQ, karier, pendapatan, usia, dll) untuk mengisolasi hubungan yang sebenarnya antara hanya 2 variabel yang dipertanyakan.

Bisakah Anda menjelaskan kepada saya bagaimana Anda sebenarnya mengontrol variabel pada set data yang khas?

Misalnya, jika Anda memiliki 2 orang dengan tingkat ketidaksabaran dan BMI yang sama, tetapi pendapatannya berbeda, bagaimana Anda memperlakukan data ini? Apakah Anda mengelompokkannya ke dalam beberapa subkelompok yang memiliki pendapatan, kesabaran, dan BMI yang serupa? Tetapi, pada akhirnya ada lusinan variabel yang harus dikontrol (IQ, karier, pendapatan, usia, dll.) Bagaimana kemudian Anda menjumlahkan 100 subkelompok (berpotensi) ini? Sebenarnya, saya merasa pendekatan ini menggonggong pohon yang salah, sekarang saya sudah mengucapkannya secara lisan.

Terima kasih telah menjelaskan sesuatu yang ingin saya sampaikan selama beberapa tahun sekarang ...!

— JackOfAll
sumber

3

Epi & Bernd, Terima kasih banyak untuk mencoba menjawab ini. Sayangnya, jawaban-jawaban ini merupakan lompatan besar dari pertanyaan saya, dan berada di atas kepala saya. Mungkin karena saya tidak punya pengalaman dengan R, dan hanya dasar Statistik 101 dasar. Sama seperti umpan balik untuk pengajaran Anda, setelah Anda mengambil abstrak dari BMI, usia, ketidaksabaran, dll untuk "kovariat" dan lain-lain, Anda benar-benar kehilangan saya. Otomatis menghasilkan data semu juga tidak membantu dalam mengklarifikasi konsep. Bahkan, itu membuatnya lebih buruk. Sulit untuk belajar tentang data dummy tanpa makna yang melekat, kecuali Anda sudah tahu prinsip yang dijelaskan (yaitu: Guru tahu saya

— JackOfAll

7

Terima kasih telah mengajukan pertanyaan yang sangat mendasar ini, @JackOfAll - situs tidak akan lengkap tanpa pertanyaan di sepanjang baris ini - Saya 'disukai' yang ini. Jawabannya di sini sangat membantu saya dan tampaknya banyak yang lain berdasarkan jumlah upvote. Jika, setelah merenungkan ini, Anda telah menemukan jawaban membantu diri Anda (atau jawaban atas setiap pertanyaan Anda), saya mendorong Anda untuk menggunakan upvotes Anda dan untuk menerima jawaban jika Anda merasa definitif. Ini dapat dilakukan dengan mengklik kurva lonceng menunjuk ke atas di samping jawaban dan tanda centang, masing-masing.

— Makro

4

Ini bukan jawaban yang lengkap atau apa pun, tetapi saya pikir itu bermanfaat untuk membaca "Ayo Masukkan Sampah-Regresi Sampah dan Sampah-Sampah di Tempat Mereka Miliknya" oleh Chris Achen. (Tautan PDF: http://qssi.psu.edu/files/Achen_GarbageCan.pdf ) Ini berlaku untuk pendekatan Bayesian dan Frequentist secara setara. Hanya memasukkan istilah ke dalam pengaturan Anda tidak cukup untuk "mengontrol" efek, tetapi sayangnya inilah yang lolos untuk kontrol dalam banyak literatur.

— ely

9

Anda bertanya " bagaimana perangkat lunak komputer mengontrol semua variabel pada saat yang sama secara matematis ". Anda juga mengatakan "Saya butuh jawaban yang tidak melibatkan rumus". Saya tidak melihat bagaimana mungkin untuk melakukan keduanya secara bersamaan. Setidaknya bukan tanpa risiko serius meninggalkan Anda dengan intuisi yang cacat.

— Glen_b

2

Saya terkejut pertanyaan ini belum mendapat perhatian lebih. Saya setuju dengan komentar OP bahwa pertanyaan lain di situs ini tidak persis membahas masalah spesifik yang diangkat di sini. @Jen, jawaban yang sangat singkat untuk pertanyaan (kedua) Anda adalah bahwa banyak kovariat benar-benar dipisahkan secara bersamaan dan tidak berulang seperti yang Anda gambarkan. Sekarang saya akan memikirkan seperti apa jawaban yang lebih detail dan intuitif untuk pertanyaan-pertanyaan ini.

— Jake Westfall

124

Ada banyak cara untuk mengontrol variabel.

Yang paling mudah, dan yang Anda hasilkan, adalah dengan stratifikasi data Anda sehingga Anda memiliki sub-kelompok dengan karakteristik yang sama - kemudian ada metode untuk menyatukan hasil-hasil tersebut bersama-sama untuk mendapatkan "jawaban" tunggal. Ini berfungsi jika Anda memiliki sejumlah kecil variabel yang ingin Anda kontrol, tetapi karena Anda sudah benar menemukan, ini dengan cepat berantakan ketika Anda membagi data Anda menjadi potongan yang lebih kecil dan lebih kecil.

Pendekatan yang lebih umum adalah memasukkan variabel yang ingin Anda kontrol dalam model regresi. Misalnya, jika Anda memiliki model regresi yang dapat secara konseptual digambarkan sebagai:

BMI = Impatience + Race + Gender + Socioeconomic Status + IQ

Perkiraan yang akan Anda dapatkan untuk Ketidaksabaran akan menjadi efek dari Ketidaksabaran dalam level kovariat lainnya - regresi memungkinkan Anda untuk secara mendasar memuluskan tempat-tempat di mana Anda tidak memiliki banyak data (masalah dengan pendekatan stratifikasi), meskipun ini harus dilakukan dengan hati-hati.

Ada cara yang lebih canggih untuk mengendalikan variabel lain, tetapi kemungkinannya adalah ketika seseorang mengatakan "dikendalikan untuk variabel lain", itu berarti mereka dimasukkan dalam model regresi.

Baiklah, Anda sudah meminta contoh yang bisa Anda kerjakan, untuk melihat bagaimana hasilnya. Saya akan memandu Anda melalui langkah demi langkah. Yang Anda butuhkan hanyalah salinan R yang terinstal.

Pertama, kita perlu beberapa data. Potong dan rekatkan potongan kode berikut ke dalam R. Perlu diingat ini adalah contoh yang dibuat-buat yang saya buat saat itu juga, tetapi ini menunjukkan prosesnya.

covariate <- sample(0:1, 100, replace=TRUE)
exposure  <- runif(100,0,1)+(0.3*covariate)
outcome   <- 2.0+(0.5*exposure)+(0.25*covariate)

Itu data Anda. Perhatikan bahwa kita sudah tahu hubungan antara hasil, paparan, dan kovariat - itulah poin dari banyak studi simulasi (yang ini adalah contoh yang sangat mendasar. Anda mulai dengan struktur yang Anda tahu, dan Anda memastikan metode Anda dapat memberi Anda jawaban yang tepat.

Nah, ke model regresi. Ketikkan yang berikut ini:

lm(outcome~exposure)

Apakah Anda mendapatkan Intercept = 2.0 dan eksposur = 0.6766? Atau sesuatu yang dekat dengannya, mengingat akan ada beberapa variasi acak dalam data? Bagus - jawaban ini salah. Kami tahu itu salah. Kenapa itu salah? Kami gagal mengontrol variabel yang memengaruhi hasil dan paparan. Ini adalah variabel biner, buat apa saja sesuka Anda - gender, perokok / bukan perokok, dll.

Sekarang jalankan model ini:

lm(outcome~exposure+covariate)

Kali ini Anda harus mendapatkan koefisien Intercept = 2.00, paparan = 0,50 dan kovariat 0,25. Seperti yang kita ketahui, ini adalah jawaban yang tepat. Anda sudah mengendalikan variabel lainnya.

Sekarang, apa yang terjadi ketika kita tidak tahu apakah kita sudah mengurus semua variabel yang kita butuhkan (kita tidak pernah benar-benar melakukannya)? Ini disebut residu perancu , dan ini menjadi perhatian dalam sebagian besar penelitian observasional - bahwa kita telah mengendalikan secara tidak sempurna, dan jawaban kita, meskipun mendekati kanan, tidak tepat. Apakah itu membantu lebih banyak?

— Fomite
sumber

Terima kasih. Adakah yang tahu contoh sederhana berdasarkan contoh regresi online atau dalam buku teks yang bisa saya selesaikan?

— JackOfAll

@JackOfAll Kemungkinan ada ratusan contoh seperti itu - bidang / jenis pertanyaan apa yang Anda minati, dan paket perangkat lunak apa yang dapat Anda gunakan?

— Fomite

Nah, semua contoh akademis / dibuat-buat tidak masalah bagi saya. Saya memiliki Excel, yang dapat melakukan regresi multi-variabel, benar? Atau apakah saya perlu sesuatu seperti R untuk melakukan ini?

— JackOfAll

10

+1 Untuk menjawab ini tanpa negatif yang akan saya gunakan. :) Dalam bahasa khas, mengendalikan variabel lain berarti penulis melemparkannya ke dalam regresi. Itu tidak benar-benar berarti apa yang mereka pikirkan artinya jika mereka belum memvalidasi bahwa variabel relatif independen dan bahwa seluruh struktur model (biasanya beberapa jenis GLM) cukup beralasan. Singkatnya, pandangan saya adalah bahwa setiap kali seseorang menggunakan frasa ini, itu berarti mereka memiliki sedikit petunjuk tentang statistik, dan seseorang harus menghitung ulang hasilnya menggunakan metode stratifikasi yang Anda tawarkan.

— Iterator

7

@SibbsGambling Anda akan mencatat bahwa si penanya asli meminta contoh yang sederhana.

— Fomite

57

pengantar

Saya suka jawaban @ EpiGrad (+1) tetapi biarkan saya mengambil perspektif yang berbeda. Dalam berikut ini saya merujuk pada dokumen PDF ini: "Analisis Regresi Berganda: Estimasi" , yang memiliki bagian tentang "A 'Partialling Out' Interpretation of Multiple Regression" (p. 83f.). Sayangnya, saya tidak tahu siapa penulis bab ini dan saya akan menyebutnya sebagai REGCHAPTER. Penjelasan serupa dapat ditemukan dalam Kohler / Kreuter (2009) "Analisis Data Menggunakan Stata" , bab 8.2.3 "Apa yang dimaksud dengan 'terkendali'?".

Saya akan menggunakan contoh @ EpiGrad untuk menjelaskan pendekatan ini. Kode R dan hasilnya dapat ditemukan di Lampiran.

Juga harus dicatat bahwa "mengendalikan variabel lain" hanya masuk akal ketika variabel penjelas berkorelasi sedang (collinearity). Dalam contoh di atas, korelasi Product-Moment antara exposuredan covariateadalah 0,50, yaitu,
```
> cor(covariate, exposure)
[1] 0.5036915
```
Residu

Saya berasumsi bahwa Anda memiliki pemahaman dasar tentang konsep residu dalam analisis regresi. Berikut adalah penjelasan Wikipedia : "Jika seseorang menjalankan regresi pada beberapa data, maka penyimpangan pengamatan variabel dependen dari fungsi pas adalah residual".
Apa artinya 'terkendali'?

Mengendalikan variabel covariate, efek (berat regresi) dari exposurepada outcomedapat digambarkan sebagai berikut (saya ceroboh dan melewatkan sebagian besar indeks dan semua topi, silakan merujuk ke teks yang disebutkan di atas untuk penjelasan yang tepat):

$\newcommand{\resid}{{\rm resid}}\newcommand{\covariate}{{\rm covariate}}$
$β_{1} = \frac{\sum {r e s i d}_{i 1} \cdot y_{i}}{\sum {r e s i d}_{i 1}^{2}}$

$\resid_{i1}$ adalah residual ketika kita mundur exposurepada covariate, yaitu,

$e x p o s u r e = c o n s t . + β_{c o v a r i a t e} \cdot c o v a r i a t e + r e s i d$

"Residual [..] adalah bagian dari yang tidak berkorelasi dengan . [...] Dengan demikian, mengukur hubungan sampel antara dan setelah telah sebagian "(REGCHAPTER 84). "Berpisah" berarti "dikontrol untuk". $x_{i1}$ $x_{i2}$ $\hat{\beta}_1$ $y$ $x_1$ $x_2$

Saya akan menunjukkan ide ini menggunakan data contoh @ EpiGrad. Pertama, saya akan mundur exposurepada covariate. Karena saya hanya tertarik dengan residu lmEC.resid, saya menghilangkan hasilnya.
```
summary(lmEC <- lm(exposure ~ covariate))
lmEC.resid   <- residuals(lmEC)
```
Langkah selanjutnya adalah melakukan regresi outcomepada residu ini ( lmEC.resid):
```
[output omitted]

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

[output omitted]
```
Seperti yang Anda lihat, bobot regresi untuk lmEC.resid(lihat kolom Perkirakan, ) dalam regresi sederhana ini sama dengan bobot regresi berganda untuk , yang juga (lihat jawaban @ EpiGrad atau output R) di bawah). $\beta_{lmEC.resid}=0.50$ covariate $0.50$

Lampiran

Kode R

set.seed(1)
covariate <- sample(0:1, 100, replace=TRUE)
exposure <- runif(100,0,1)+(0.3*covariate)
outcome <- 2.0+(0.5*exposure)+(0.25*covariate)

## Simple regression analysis
summary(lm(outcome ~ exposure))

## Multiple regression analysis
summary(lm(outcome ~ exposure + covariate))

## Correlation between covariate and exposure
cor(covariate, exposure)

## "Partialling-out" approach
## Regress exposure on covariate
summary(lmEC <- lm(exposure ~ covariate))
## Save residuals
lmEC.resid <- residuals(lmEC)
## Regress outcome on residuals
summary(lm(outcome ~ lmEC.resid))

## Check formula
sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))

R Output

> set.seed(1)
> covariate <- sample(0:1, 100, replace=TRUE)
> exposure <- runif(100,0,1)+(0.3*covariate)
> outcome <- 2.0+(0.5*exposure)+(0.25*covariate)
> 
> ## Simple regression analysis
> summary(lm(outcome ~ exposure))

Call:
lm(formula = outcome ~ exposure)

Residuals:
      Min        1Q    Median        3Q       Max 
-0.183265 -0.090531  0.001628  0.085434  0.187535 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  1.98702    0.02549   77.96   <2e-16 ***
exposure     0.70103    0.03483   20.13   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.109 on 98 degrees of freedom
Multiple R-squared: 0.8052,     Adjusted R-squared: 0.8032 
F-statistic: 405.1 on 1 and 98 DF,  p-value: < 2.2e-16 

> 
> ## Multiple regression analysis
> summary(lm(outcome ~ exposure + covariate))

Call:
lm(formula = outcome ~ exposure + covariate)

Residuals:
       Min         1Q     Median         3Q        Max 
-7.765e-16 -7.450e-18  4.630e-18  1.553e-17  4.895e-16 

Coefficients:
             Estimate Std. Error   t value Pr(>|t|)    
(Intercept) 2.000e+00  2.221e-17 9.006e+16   <2e-16 ***
exposure    5.000e-01  3.508e-17 1.425e+16   <2e-16 ***
covariate   2.500e-01  2.198e-17 1.138e+16   <2e-16 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 9.485e-17 on 97 degrees of freedom
Multiple R-squared:     1,      Adjusted R-squared:     1 
F-statistic: 3.322e+32 on 2 and 97 DF,  p-value: < 2.2e-16 

> 
> ## Correlation between covariate and exposure
> cor(covariate, exposure)
[1] 0.5036915
> 
> ## "Partialling-out" approach
> ## Regress exposure on covariate
> summary(lmEC <- lm(exposure ~ covariate))

Call:
lm(formula = exposure ~ covariate)

Residuals:
     Min       1Q   Median       3Q      Max 
-0.49695 -0.24113  0.00857  0.21629  0.46715 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  0.51003    0.03787  13.468  < 2e-16 ***
covariate    0.31550    0.05466   5.772  9.2e-08 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2731 on 98 degrees of freedom
Multiple R-squared: 0.2537,     Adjusted R-squared: 0.2461 
F-statistic: 33.32 on 1 and 98 DF,  p-value: 9.198e-08 

> ## Save residuals
> lmEC.resid <- residuals(lmEC)
> ## Regress outcome on residuals
> summary(lm(outcome ~ lmEC.resid))

Call:
lm(formula = outcome ~ lmEC.resid)

Residuals:
    Min      1Q  Median      3Q     Max 
-0.1957 -0.1957 -0.1957  0.2120  0.2120 

Coefficients:
            Estimate Std. Error t value Pr(>|t|)    
(Intercept)  2.45074    0.02058 119.095  < 2e-16 ***
lmEC.resid   0.50000    0.07612   6.569 2.45e-09 ***
---
Signif. codes:  0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 

Residual standard error: 0.2058 on 98 degrees of freedom
Multiple R-squared: 0.3057,     Adjusted R-squared: 0.2986 
F-statistic: 43.15 on 1 and 98 DF,  p-value: 2.45e-09 

> 
> ## Check formula
> sum(lmEC.resid*outcome)/(sum(lmEC.resid^2))
[1] 0.5
>

— Bernd Weiss
sumber

5

Bab itu terlihat seperti Baby Wooldridge (alias Pengantar Ekonometrika: Pendekatan Modern oleh Jeffrey M. Wooldridge)

— Dimitriy V. Masterov

2

Saya mungkin salah paham tentang sesuatu, tetapi mengapa Anda tidak perlu melakukan regresi hasil pada kovariat juga dan akhirnya mengembalikan residu hasil pada residu eksposur?

— hlinee

@linee benar. Bisakah Anda menjelaskan mengapa Anda tidak melakukan ini?

— Parseltongue

41

Tentu saja beberapa matematika akan terlibat, tetapi tidak banyak: Euclid akan memahaminya dengan baik. Yang benar-benar perlu Anda ketahui adalah cara menambahkan dan mengubah skala vektor. Meskipun ini berjalan dengan nama "aljabar linier" saat ini, Anda hanya perlu memvisualisasikannya dalam dua dimensi. Ini memungkinkan kita untuk menghindari mesin matriks aljabar linier dan fokus pada konsep.

Kisah Geometris

Pada gambar pertama, adalah jumlah dari dan . (Vektor diskalakan oleh faktor numerik ; huruf Yunani (alpha), (beta), dan (gamma) akan merujuk pada faktor skala numerik tersebut.) $y$ $y_{\cdot 1}$ $\alpha x_1$ $x_1$ $\alpha$ $\alpha$ $\beta$ $\gamma$

Gambar 1

Angka ini sebenarnya dimulai dengan vektor asli (ditampilkan sebagai garis padat) dan . "Kecocokan" kuadrat terkecil dari ke ditemukan dengan mengambil kelipatan yang paling mendekati pada bidang gambar. Begitulah ditemukan. Mengambil pertandingan ini jauh dari kiri , yang sisa dari terhadap . (Titik " " akan secara konsisten menunjukkan vektor mana yang telah "cocok," "diambil," atau "dikendalikan.") $x_1$ $y$ $y$ $x_1$ $x_1$ $y$ $\alpha$ $y$ $y_{\cdot 1}$ $y$ $x_1$ $\cdot$

Kami dapat mencocokkan vektor lain dengan . Berikut adalah gambar di mana disesuaikan untuk , mengungkapkan sebagai kelipatan dari ditambah sisa nya : $x_1$ $x_2$ $x_1$ $\beta$ $x_1$ $x_{2\cdot 1}$

Gambar 2

(Tidak masalah bahwa bidang yang berisi dan dapat berbeda dari bidang yang berisi dan : kedua angka ini diperoleh secara independen satu sama lain. Yang dijamin memiliki kesamaan adalah vektor .) Demikian pula, angka apa pun vektor dapat dicocokkan dengan . $x_1$ $x_2$ $x_1$ $y$ $x_1$ $x_3, x_4, \ldots$ $x_1$

Sekarang perhatikan bidang yang mengandung dua residu dan . Saya akan mengarahkan gambar untuk membuat horisontal, sama seperti saya mengarahkan gambar sebelumnya untuk membuat horizontal, karena kali ini akan memainkan peran pencocokan: $y_{\cdot 1}$ $x_{2 \cdot 1}$ $x_{2\cdot 1}$ $x_1$ $x_{2\cdot 1}$

Gambar 3

Perhatikan bahwa dalam masing-masing dari tiga kasus, residu adalah tegak lurus terhadap pertandingan. (Jika tidak, kami dapat menyesuaikan kecocokan untuk membuatnya lebih dekat dengan , , atau .) $y$ $x_2$ $y_{\cdot 1}$

Gagasan utamanya adalah pada saat kita sampai ke angka terakhir, kedua vektor yang terlibat ( dan ) sudah tegak lurus terhadap , berdasarkan konstruksi. Jadi setiap penyesuaian selanjutnya pada melibatkan perubahan yang semuanya tegak lurus terhadap . Akibatnya, kecocokan baru dan sisa tetap tegak lurus dengan . $x_{2\cdot 1}$ $y_{\cdot 1}$ $x_1$ $y_{\cdot 1}$ $x_1$ $\gamma x_{2\cdot 1}$ $y_{\cdot 12}$ $x_1$

(Jika vektor lain terlibat, kami akan melanjutkan dengan cara yang sama untuk mencocokkan residualnya to .) $x_{3\cdot 1}, x_{4\cdot 1}, \ldots$ $x_2$

Ada satu hal penting lagi yang harus dikemukakan. Konstruksi ini telah menghasilkan sisa yang tegak lurus terhadap dan . Ini berarti bahwa adalah juga sisa di ruang (tiga dimensi alam Euclidean) membentang oleh dan . Yaitu, proses dua langkah pencocokan dan pengambilan residu ini harus menemukan lokasi dalam bidang yang paling dekat dengan . Karena dalam uraian geometris ini, tidak masalah yang mana dari dan lebih dulu, kami menyimpulkan itu $y_{\cdot 12}$ $x_1$ $x_2$ $y_{\cdot 12}$ $x_1, x_2,$ $y$ $x_1, x_2$ $y$ $x_1$ $x_2$ jika proses dilakukan dalam urutan lain, dimulai dengan sebagai pencocokan dan kemudian menggunakan , hasilnya akan sama. $x_2$ $x_1$

(Jika ada vektor tambahan, kami akan melanjutkan proses "take a matcher" ini sampai masing-masing vektor itu berubah menjadi matcher. Dalam setiap kasus operasi akan sama seperti yang ditunjukkan di sini dan akan selalu terjadi dalam pesawat .)

Aplikasi untuk Regresi Berganda

Proses geometrik ini memiliki interpretasi regresi berganda langsung, karena kolom angka bertindak persis seperti vektor geometrik. Mereka memiliki semua sifat yang kami butuhkan dari vektor (secara aksiomatis) dan karenanya dapat dipikirkan dan dimanipulasi dengan cara yang sama dengan akurasi dan ketelitian matematika yang sempurna. Dalam regresi berganda pengaturan dengan variabel , , dan , tujuannya adalah untuk menemukan kombinasi dan ( dll ) yang paling mendekati . Secara geometris, semua kombinasi dan ( dll $X_1$ $X_2, \ldots$ $Y$ $X_1$ $X_2$ $Y$ $X_1$ $X_2$ ) sesuai dengan poin dalam ruang . Menyesuaikan koefisien regresi berganda tidak lebih dari proyeksi vektor ("matching"). Argumen geometris telah menunjukkan hal itu $X_1, X_2, \ldots$

Pencocokan dapat dilakukan secara berurutan dan
Urutan pencocokan dilakukan tidak masalah.

Proses "mengeluarkan" korek api dengan mengganti semua vektor lain dengan residu mereka sering disebut sebagai "mengendalikan" korek api. Seperti yang kita lihat dalam gambar, setelah korek api dikendalikan, semua perhitungan selanjutnya melakukan penyesuaian yang tegak lurus terhadap korek tersebut. Jika Anda suka, Anda mungkin berpikir "mengendalikan" sebagai "akuntansi (dalam arti paling tidak sama) untuk kontribusi / pengaruh / efek / asosiasi pencocokan pada semua variabel lainnya."

Referensi

Anda dapat melihat semua ini beraksi dengan data dan kode yang berfungsi dalam jawabannya di https://stats.stackexchange.com/a/46508 . Jawaban itu mungkin lebih menarik bagi orang-orang yang lebih suka aritmatika daripada gambar pesawat. (Meskipun demikian, aritmatika untuk menyesuaikan koefisien sebagai korek api dibawa secara langsung). Bahasa yang cocok adalah dari Fred Mosteller dan John Tukey.

— whuber
sumber

1

Lebih banyak ilustrasi di sepanjang baris ini dapat ditemukan dalam buku Wicken "The Geometry of Multivariate Statistics" (1994). Beberapa contoh ada dalam jawaban ini .

— caracal

2

@Caracal Terima kasih atas referensi. Saya awalnya membayangkan sebuah jawaban yang menggunakan diagram seperti yang ada dalam jawaban Anda - yang membuat suplemen yang bagus untuk jawaban saya di sini - tetapi setelah membuat mereka merasa bahwa angka pseudo-3D mungkin terlalu rumit dan ambigu untuk sepenuhnya cocok. Saya senang menemukan bahwa argumen dapat dikurangi sepenuhnya menjadi operasi vektor paling sederhana di pesawat. Mungkin juga perlu menunjukkan bahwa pemusatan awal data tidak diperlukan, karena itu ditangani dengan memasukkan vektor konstanta bukan nol di antara .

x_{i}

$x_i$

— whuber

1

Saya suka jawaban ini karena itu memberi jauh lebih banyak intuisi daripada aljabar. BTW, tidak yakin apakah Anda memeriksa saluran youtube orang ini . Saya sangat menikmatinya

— Haitao Du

3

Sejauh ini ada diskusi yang sangat baik tentang penyesuaian kovariat sebagai cara "mengendalikan variabel lain". Tapi saya pikir itu hanya sebagian dari cerita. Faktanya, ada banyak (lain) desain, model, dan strategi pembelajaran berbasis mesin untuk mengatasi dampak dari sejumlah variabel pengganggu yang mungkin. Ini adalah survei singkat tentang beberapa topik (non-penyesuaian) yang paling penting. Sementara penyesuaian adalah cara yang paling banyak digunakan untuk "mengendalikan" variabel-variabel lain, saya pikir ahli statistik yang baik harus memiliki pemahaman tentang apa yang dilakukannya (dan tidak dilakukan) dalam konteks proses dan prosedur lain.

Sesuai:

Pencocokan adalah metode merancang analisis berpasangan di mana pengamatan dikelompokkan ke dalam kumpulan 2 orang yang serupa dalam aspek terpentingnya. Misalnya, Anda dapat mengambil sampel dua orang yang sesuai dengan pendidikan, pendapatan, masa kerja profesional, usia, status perkawinan, (dll.) Tetapi yang tidak konsisten dalam hal ketidaksabaran mereka. Untuk pemaparan biner, uji berpasangan-t sederhana sudah cukup untuk menguji perbedaan rata-rata dalam pengendalian BMI mereka untuk semua fitur yang cocok. Jika Anda memodelkan paparan kontinu, ukuran analog akan menjadi model regresi melalui asal untuk perbedaan. Lihat Carlin 2005

E [Y_{1} - Y_{2}] = β_{0} (X_{1} - X_{2})

$E[Y_1 - Y_2] = \beta_0 (X_1 - X_2)$

Bobot

Pembobotan adalah analisis univariat lain yang memodelkan hubungan antara prediktor kontinu atau biner dan hasil sehingga distribusi level eksposur homogen antar kelompok. Hasil ini biasanya dilaporkan sebagai standar seperti kematian standar usia untuk dua negara atau beberapa rumah sakit. Standardisasi tidak langsung menghitung distribusi hasil yang diharapkan dari tingkat yang diperoleh dalam populasi "kontrol" atau "sehat" yang diproyeksikan ke distribusi strata dalam populasi referensi. Standarisasi langsung berlaku sebaliknya. Metode-metode ini biasanya digunakan untuk hasil biner. Bobot skor kecenderungan $X$ $Y$ akun dari probabilitas paparan biner dan kontrol untuk variabel-variabel dalam hal itu. Ini mirip dengan standardisasi langsung untuk eksposur. Lihat Rothman, Modern Epidemiology edisi ke-3.

Pengacakan dan Kuasir Pengacakan

Ini adalah titik yang halus, tetapi jika Anda benar-benar dapat mengacak orang ke kondisi eksperimental tertentu, maka dampak dari variabel lain dikurangi. Ini adalah kondisi yang jauh lebih kuat, karena Anda bahkan tidak perlu tahu apa variabel-variabel lain itu. Dalam pengertian itu, Anda telah "mengendalikan" pengaruh mereka. Ini tidak mungkin dalam penelitian observasional, tetapi ternyata metode skor kecenderungan membuat ukuran probabilistik sederhana untuk paparan yang memungkinkan seseorang untuk menimbang, menyesuaikan, atau mencocokkan peserta sehingga mereka dapat dianalisis dengan cara yang sama seperti studi acak-kuasi. . Lihat Rosenbaum, Rubin 1983 .

Mikrosimulasi

Cara lain untuk mensimulasikan data yang mungkin diperoleh dari studi acak adalah dengan melakukan mikrosimulasi. Di sini, orang benar-benar dapat mengalihkan perhatian mereka ke model seperti pembelajaran mesin yang lebih besar dan lebih canggih. Suatu istilah yang Judea Pearl ciptakan yang saya sukai adalah " Model Oracle ": jaringan kompleks yang mampu menghasilkan prediksi dan perkiraan untuk sejumlah fitur dan hasil. Ternyata seseorang dapat "melipat" informasi model oracle tersebut untuk mensimulasikan hasil dalam kohort seimbang orang yang mewakili kohort acak, seimbang dalam distribusi "variabel kontrol" mereka, dan menggunakan uji rutin t-test sederhana untuk menilai besarnya dan presisi perbedaan yang mungkin terjadi. Lihat Rutter, Zaslavsky, dan Feuer 2012

Penyesuaian, pembobotan, dan penyesuaian kovariat dalam model regresi semuanya memperkirakan asosiasi yang sama, dan dengan demikian semuanya dapat diklaim sebagai cara "mengendalikan" variabel-variabel lainnya .

— AdamO
sumber

Benar-benar di atas kepalaku.

— JackOfAll

Ini adalah jawaban untuk pertanyaan yang diajukan, diskusi yang baik sejauh ini agak sepihak demi penyesuaian dalam model multivariat.

— AdamO

Model multivarian, pencocokan, dll. Semua adalah teknik yang valid, tetapi kapan seorang peneliti biasanya menggunakan satu teknik di atas yang lain?

— mnmn

-1

Perangkat lunak tidak benar-benar mengontrol variabel. Jika Anda terbiasa dengan notasi matriks regresi , maka Anda mungkin ingat bahwa solusi kuadrat terkecil adalah . Jadi, perangkat lunak mengevaluasi ekspresi ini secara numerik menggunakan metode aljabar linear komputasi. $Y=X\beta+\varepsilon$ $b=(X^TX)^{-1}X^TY$

— Aksakal
sumber

4

Terima kasih telah mengambil kesempatan untuk menawarkan informasi ini. Untuk jawaban untuk menjawab kebutuhan yang diberikan dalam pertanyaan, kita perlu mengetahui arti kata prima dalam ungkapan kedua dan arti ungkapan kedua. Saya mengerti bahwa kemiringan adalah perubahan pada satu sumbu atas perubahan pada yang lain. Ingat, notasi adalah bahasa khusus yang awalnya dibuat dan dipelajari menggunakan kosa kata non notasi. Menjangkau orang-orang yang tidak tahu bahasa itu membutuhkan menggunakan kata-kata lain dan itu adalah tantangan yang berkelanjutan untuk membawa pengetahuan lintas disiplin.

— Jen

2

Setelah Anda masuk ke regresi multivarian, tidak ada cara untuk melanjutkan tanpa aljabar linier. Tautan Wiki memiliki semua deskripsi variabel. Di sini, saya dapat mengatakan bahwa menunjukkan transpos matriksAnda harus belajar bagaimana matriks desain dibangun. Terlalu lama untuk menjelaskannya di sini. Baca Wiki yang saya posting, ia memiliki banyak informasi. Kecuali, Anda mengerti aljabar linier, Anda tidak akan bisa menjawab pertanyaan Anda dengan cara yang bermakna, saya khawatir.

X^{'}

$X'$

X

$X$

— Aksakal