Pertanyaan itu menyarankan perbandingan tiga model terkait. Untuk membuat perbandingan menjadi jelas, misalkan menjadi variabel dependen, misalkan X ∈ { 1 , 2 , 3 } menjadi kode komunitas saat ini, dan tentukan X 1 dan X 2 sebagai indikator komunitas 1 dan 2, masing-masing. (Ini berarti bahwa X 1 = 1 untuk komunitas 1 dan X 1 = 0 untuk komunitas 2 dan 3; X 2 = 1 untuk komunitas 2 dan X 2 = 0YX∈{1,2,3}X1X2X1=1X1=0X2=1X2=0 untuk komunitas 1 dan 3.)
Analisis saat ini dapat berupa salah satu dari yang berikut:
Y=α+βX+ε(first model)
atau
Y=α+β1X1+β2X2+ε(second model).
Dalam kedua kasus mewakili satu set variabel acak independen yang terdistribusi secara identik dengan nol harapan. Model kedua kemungkinan adalah yang dimaksudkan, tetapi model pertama adalah yang akan sesuai dengan pengkodean yang dijelaskan dalam pertanyaan.ε
Output dari regresi OLS adalah seperangkat parameter yang dipasang (ditunjukkan dengan "topi" pada simbol-simbol mereka) bersama dengan perkiraan varians umum dari kesalahan. Pada model pertama ada satu t-test untuk membandingkan β ke 0 . Dalam model kedua ada dua uji-t: satu untuk membandingkan ^ β 1 hingga 0 dan yang lain untuk membandingkan ^ β 2 hingga 0 . Karena pertanyaan hanya melaporkan satu uji-t, mari kita mulai dengan memeriksa model pertama.β^0β1^0β2^0
β^0YE[α+βX+ε]α+βX
X=1α+β
X=2α+2β
X=3α+3β
Secara khusus, model pertama memaksa efek komunitas berada dalam perkembangan aritmatika. Jika pengkodean komunitas dimaksudkan hanya sebagai cara sewenang-wenang untuk membedakan antara komunitas, pembatasan bawaan ini juga sewenang-wenang dan kemungkinan salah.
Penting untuk melakukan analisis terperinci yang sama dengan prediksi model kedua:
X1=1X2=0Yα+β1
Y(community 1)=α+β1+ε.
X1=0X2=1Yα+β2
Y(community 2)=α+β2+ε.
X1=X2=0Yα
Y(community 3)=α+ε.
Yβ1=0β2=0β2−β1(α+β2)−(α+β1)β2−β1
Sekarang kita dapat menilai efek dari tiga regresi terpisah. Mereka akan menjadi
Y(community 1)=α1+ε1,
Y(community 2)=α2+ε2,
Y(community 3)=α3+ε3.
α1α+β1α2α+β2α3αε1ε2ε3tetapi tidak ada yang diasumsikan tentang hubungan statistik di antara regresi yang terpisah. Oleh karena itu, regresi terpisah memungkinkan fleksibilitas tambahan:
Fleksibilitas tambahan ini berarti bahwa hasil uji-t untuk parameter kemungkinan akan berbeda antara model kedua dan ketiga. (Namun, seharusnya tidak menghasilkan estimasi parameter yang berbeda.)
Untuk melihat apakah diperlukan regresi terpisah , lakukan hal berikut:
Pas dengan model kedua. Plot residu terhadap komunitas, misalnya sebagai satu set plot kotak berdampingan atau trio histogram atau bahkan sebagai tiga plot probabilitas. Cari bukti bentuk distribusi yang berbeda dan terutama varian yang sangat berbeda. Jika bukti itu tidak ada, model kedua harus ok. Jika ada, diperlukan regresi terpisah.
Ketika model multivariat - yaitu, mereka memasukkan faktor-faktor lain - analisis yang serupa mungkin dilakukan, dengan kesimpulan yang serupa (tetapi lebih rumit). Secara umum, melakukan regresi terpisah sama saja dengan memasukkan semua kemungkinan interaksi dua arah dengan variabel komunitas (diberi kode seperti pada model kedua, bukan yang pertama) dan memungkinkan distribusi kesalahan yang berbeda untuk setiap komunitas.