Mempelajari konsep statistik melalui latihan analisis data


18

Saya menemukan bahwa latihan analisis data sederhana sering dapat membantu untuk menggambarkan dan mengklarifikasi konsep statistik. Latihan analisis data apa yang Anda gunakan untuk mengajarkan konsep statistik?

Jawaban:


9

Karena saya harus menjelaskan metode pemilihan variabel cukup sering, bukan dalam konteks pengajaran, tetapi untuk non-statistik meminta bantuan dengan penelitian mereka, saya suka contoh sederhana ini yang menggambarkan mengapa pemilihan variabel tunggal tidak selalu merupakan ide yang baik.

Jika Anda memiliki dataset ini:

y      X1     x2
1       1      1
1       0      0
0       1      0
0       0      1

Tidak butuh waktu lama untuk menyadari bahwa X1 dan X2 secara individual sama sekali tidak informatif untuk y (ketika keduanya sama, y ​​'pasti' menjadi 1 - Saya mengabaikan masalah ukuran sampel di sini, anggap saja keempat pengamatan ini untuk menjadi seluruh alam semesta). Namun, kombinasi kedua variabel tersebut sepenuhnya informatif. Dengan demikian, lebih mudah bagi orang untuk memahami mengapa itu bukan ide yang baik untuk (misalnya) hanya memeriksa nilai p untuk model dengan masing-masing variabel individu sebagai regressor.

Dalam pengalaman saya, ini benar-benar menyampaikan pesan.


5

Koefisien Regresi Berganda dan Kehilangan Tanda yang Diharapkan

Salah satu ilustrasi favorit saya tentang konsep statistik melalui latihan analisis data adalah dekonstruksi dari regresi berganda menjadi beberapa regresi bivariat.

Tujuan

  • Untuk memperjelas arti koefisien regresi di hadapan beberapa prediktor.
  • Untuk mengilustrasikan mengapa tidak tepat untuk "mengharapkan" koefisien regresi berganda untuk memiliki tanda tertentu berdasarkan hubungan bivariatnya dengan Y ketika prediktor berkorelasi.

Konsep

Koefisien regresi dalam model regresi berganda mewakili hubungan antara a) bagian dari variabel prediktor yang diberikan (x1) yang tidak terkait dengan semua variabel prediktor lainnya (x2 ... xN) dalam model; dan 2) bagian dari variabel respon (Y) yang tidak terkait dengan semua variabel prediktor lainnya (x2 ... xN) dalam model. Ketika ada korelasi antara prediktor, tanda-tanda yang terkait dengan koefisien prediktor mewakili hubungan antara residu tersebut.

Olahraga

  1. Hasilkan beberapa data acak untuk dua prediktor (x1, x2) dan respons (y).
  2. Kembalikan y pada x2 dan simpan residunya.
  3. Regress x1 pada x2 dan simpan residunya.
  4. Regress residual langkah 2 (r1) pada residual langkah 3 (r2).

Koefisien untuk langkah 4 untuk r2 akan menjadi koefisien x1 untuk model regresi berganda dengan x1 dan x2. Anda bisa melakukan hal yang sama untuk x2 dengan memisahkan x1 untuk y dan x2.

Berikut beberapa kode R untuk latihan ini.

set.seed(3338)
x1 <- rnorm(100)
x2 <- rnorm(100)
y <- 0 + 2*x1 + 5*x2 + rnorm(100)
lm(y ~ x1 + x2)  # Multiple regression Model
ry1 <- residuals(  lm( y ~ x2)  )  # The part of y not related to x2
rx1 <- residuals(  lm(x1 ~ x2)  ) # The part of x1 not related to x2
lm( ry1  ~ rx1) 
ry2 <- residuals(  lm( y ~ x1)  ) # The part of y not related to x1
rx2 <- residuals(  lm(x2 ~ x1)  ) # The part of x2 not related to x1
lm( ry2 ~ rx2)

Berikut ini adalah keluaran dan hasil yang relevan.

Call:
lm(formula = y ~ x1 + x2)

Coefficients:

(Intercept)           ***x1***           ***x2***  
   -0.02410      ***1.89527***      ***5.07549*** 

Call:
lm(formula = ry1 ~ rx1)

Coefficients:

(Intercept)          ***rx1***  
 -2.854e-17    ***1.895e+00*** 

Call:
lm(formula = ry2 ~ rx2)

Coefficients:

(Intercept)          ***rx2***  
  3.406e-17    ***5.075e+00*** 
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.