Apa itu matriks kontras?


46

Apa sebenarnya matriks kontras (istilah, yang berkaitan dengan analisis dengan prediktor kategoris) dan bagaimana tepatnya matriks kontras ditentukan? Yaitu apa kolom, apa baris, apa kendala pada matriks itu dan apa arti angka dalam kolom jdan baris i? Saya mencoba melihat ke dalam dokumen dan web tetapi tampaknya semua orang menggunakannya namun tidak ada pembelotan di mana pun. Saya bisa mundur merancang kontras yang telah ditentukan sebelumnya, tapi saya pikir definisi harus tersedia tanpa itu.

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1
> contr.sum(4)
  [,1] [,2] [,3]
1    1    0    0
2    0    1    0
3    0    0    1
4   -1   -1   -1
> contr.helmert(4)
  [,1] [,2] [,3]
1   -1   -1   -1
2    1   -1   -1
3    0    2   -1
4    0    0    3
> contr.SAS(4)
  1 2 3
1 1 0 0
2 0 1 0
3 0 0 1
4 0 0 0

"Contrast matrix" digunakan untuk merepresentasikan IV kategori (faktor) dalam pemodelan. Secara khusus, ini digunakan untuk mengkode ulang faktor menjadi satu set "variabel kontras" (variabel dummy hanya menjadi contoh). Setiap jenis variabel kontras memiliki matriks kontras yang sesuai. Lihat misalnya pertanyaan terkait saya sendiri , belum dijawab.
ttnphns

5
@ttnphns Maaf, tetapi Anda tetap melakukan apa yang dilakukan semua dokumen dan web: Anda menjelaskan apa yang digunakan untuk matriks kontras, tanpa menjawab pertanyaan apa itu matriks kontras. Ini adalah tujuan dari suatu definisi .
Penasaran

3
Tentu saja itu terkait, tetapi memperoleh "apa itu" dari "apa yang dibutuhkan untuk" adalah pekerjaan seorang detektif, yang seharusnya tidak diperlukan. Itu rekayasa terbalik. Segala sesuatu harus didokumentasikan.
Penasaran

2
ats.ucla.edu/stat/r/library/contrast_coding.htm adalah Rsumber daya yang berorientasi pada metode pengkodean.
whuber

1
@Curious, hanya untuk memberi tahu Anda: Saya memberikan 100 hadiah kepada ttnphns, tetapi saya akan memulai hadiah lain (atau meminta orang lain untuk melakukannya) untuk memberikan penghargaan kepada Gus_est juga. Saya juga telah menulis jawaban saya sendiri, kalau-kalau Anda lebih suka yang lebih pendek :-)
amoeba mengatakan Reinstate Monica

Jawaban:


31

Dalam jawaban yang bagus, @Gus_est, melakukan penjelasan matematis tentang esensi dari matriks koefisien kontras L (dinotasikan dengan huruf C ). adalah rumus dasar untuk menguji hipotesis dalam pemodelan linear umum univariat (di mana adalah parameter dan adalah fungsi yang dapat diperkirakan mewakili hipotesis nol), dan jawaban itu menunjukkan beberapa formula yang diperlukan yang digunakan dalam program ANOVA modern.b kLb=kbk

Jawaban saya ditata sangat berbeda. Ini untuk seorang analis data yang melihat dirinya lebih sebagai "insinyur" daripada "ahli matematika", jadi jawabannya adalah akun "praktis" atau "didaktik" dan akan fokus untuk menjawab hanya topik (1) apa yang dilakukan koefisien kontras berarti dan (2) bagaimana mereka dapat membantu untuk melakukan ANOVA melalui program regresi linier .

ANOVA sebagai regresi dengan variabel dummy: memperkenalkan kontras .

Mari kita bayangkan ANOVA dengan variabel dependen Y dan faktor kategori A memiliki 3 level (kelompok). Mari kita melirik ANOVA dari sudut pandang regresi linier, yaitu - dengan mengubah faktor menjadi seperangkat variabel biner dummy (alias indicator aka treatment alias one-hot ). Ini adalah perangkat X independen kami . (Mungkin semua orang telah mendengar bahwa adalah mungkin untuk melakukan ANOVA dengan cara ini - sebagai regresi linier dengan prediktor dummy.)

Karena salah satu dari tiga kelompok itu berlebihan, hanya dua variabel dummy yang akan memasuki model linier. Mari kita tunjuk Group3 untuk menjadi berlebihan, atau referensi. Prediktor tiruan yang merupakan X adalah contoh variabel kontras , yaitu variabel elementer yang mewakili kategori faktor. X sendiri sering disebut design matrix. Kita sekarang dapat memasukkan dataset dalam program regresi linier berganda yang akan memusatkan data dan menemukan koefisien regresi (parameter) , di mana " + "menunjuk pseudoinverse.b=(XX)1Xy=X+y

Pass yang ekivalen bukan untuk melakukan pemusatan melainkan menambahkan suku konstanta dari model sebagai kolom pertama 1 s di X , kemudian memperkirakan koefisien dengan cara yang sama seperti di atas . Sejauh ini bagus.b=(XX)1Xy=X+y

Mari kita mendefinisikan matriks C menjadi agregasi (summarization) dari variabel independen desain matriks X . Ini hanya menunjukkan kita skema pengkodean diamati ada, - yang kontras coding matriks (= dasar matriks): .C=aggrX

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1     0     0

Kolum adalah variabel (kolom) X - variabel kontras dasar A1 A2, dummy dalam contoh ini, dan baris adalah semua grup / level faktor. Begitu juga matriks coding C kami untuk indikator atau skema pengkodean kontras tiruan.

Sekarang, disebut matriks koefisien kontras , atau L-matriks. Karena C adalah kuadrat, . Matriks kontras, sesuai dengan C kami - yaitu untuk kontras indikator dari contoh kami - karena itu:L = C + = C - 1C+=LL=C+=C1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const      0     0     1            => Const = Mean_Gr3
A1         1     0    -1            => Param1 = Mean_Gr1-Mean_Gr3
A2         0     1    -1            => Param2 = Mean_Gr2-Mean_Gr3

L-matrix adalah matriks yang menunjukkan koefisien kontras . Perhatikan bahwa jumlah koefisien kontras di setiap baris (kecuali baris Constant) adalah . Setiap baris seperti itu disebut kontras . Baris sesuai dengan variabel kontras dan kolom sesuai dengan grup, tingkat faktor.0

Signifikansi koefisien kontras adalah bahwa mereka membantu memahami apa yang masing-masing efek (setiap parameter b diperkirakan dalam regresi dengan X kami , diberi kode apa adanya) mewakili dalam arti perbedaan (perbandingan kelompok). Kita segera melihat, mengikuti koefisien, bahwa Konstanta yang diperkirakan akan sama dengan rata-rata Y dalam kelompok referensi; bahwa parameter b1 (yaitu variabel dummy A1) akan sama dengan perbedaan: rata-rata Y di group1 dikurangi rata-rata Y di group3; dan parameter b2 adalah perbedaan: rata-rata di group2 dikurangi rata-rata di group3.

Catatan : Mengatakan "berarti" tepat di atas (dan lebih jauh di bawah) kita berarti diperkirakan (diprediksi oleh model) berarti untuk kelompok, bukan berarti diamati dalam kelompok.

Komentar instruktif : Ketika kami melakukan regresi dengan variabel prediktor biner , parameter variabel tersebut mengatakan tentang perbedaan Y antara variabel = 1 dan variabel = 0 kelompok. Namun, dalam situasi ketika variabel biner adalah himpunan k-1 variabel dummy yang mewakili kfaktor -level, makna parameter semakin sempit : itu menunjukkan perbedaan Y antara variabel = 1 dan (bukan hanya variabel = 0 tetapi bahkan) reference_variable = 1 grup.

Seperti (setelah dikalikan dengan ) membawa kita nilai b , sama membawa makna b . y ( a g g r X ) +X+y(aggrX)+

OK, kami telah memberikan definisi koefisien kontras matriks L . Karena , secara simetris , yang berarti bahwa jika Anda diberikan atau telah membangun matriks kontras L berdasarkan faktor kategorikal (s) - untuk menguji L dalam analisis Anda, maka Anda memiliki petunjuk untuk cara mengkode dengan benar variabel prediktor kontras Anda X untuk menguji L melalui perangkat lunak regresi biasa (yaitu, yang hanya memproses variabel "kontinu" standar OLS standar cara, dan tidak mengenali faktor-faktor kategoris sama sekali). Dalam contoh kami sekarang, pengkodean adalah variabel tipe - indikator (dummy). C = L + = L - 1L=C+=C1C=L+=L1

ANOVA sebagai regresi: jenis kontras lainnya .

Mari kita secara singkat mengamati jenis kontras lainnya (= skema coding, = gaya parameterisasi) untuk faktor kategoris A .

Penyimpangan atau efek kontras . Matriks C dan L dan makna parameter:

C
              Const  A1    A2
Gr1 (A=1)       1     1     0
Gr2 (A=2)       1     0     1
Gr3 (A=3,ref)   1    -1    -1

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3      => Const = 1/3Mean_Gr3+1/3Mean_Gr2+1/3Mean_Gr3 = Mean_GU
A1        2/3  -1/3  -1/3      => Param1 = 2/3Mean_Gr1-1/3(Mean_Gr2+Mean_Gr3) = Mean_Gr1-Mean_GU
A2       -1/3   2/3  -1/3      => Param2 = 2/3Mean_Gr2-1/3(Mean_Gr1+Mean_Gr3) = Mean_Gr2-Mean_GU

                                  Parameter for the reference group3 = -(Param1+Param2) = Mean_Gr3-Mean_GU

                                  Mean_GU is grand unweighted mean = 1/3(Mean_Gr1+Mean_Gr2+Mean_Gr3)

Dengan pengkodean deviasi, masing-masing kelompok faktor dibandingkan dengan rata-rata grand tertimbang, sedangkan Konstan adalah grand rata-rata itu. Ini adalah apa yang Anda dapatkan dalam regresi dengan prediktor kontras kode X dalam penyimpangan atau efek "cara".

Kontras sederhana . Skema kontras / pengkodean ini merupakan gabungan dari tipe indikator dan deviasi, ini memberikan arti Konstan seperti pada tipe deviasi dan makna parameter lainnya seperti pada tipe indikator:

C
              Const  A1    A2
Gr1 (A=1)       1   2/3  -1/3
Gr2 (A=2)       1  -1/3   2/3
Gr3 (A=3,ref)   1  -1/3  -1/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = as in Deviation
A1         1     0    -1         => Param1 = as in Indicator
A2         0     1    -1         => Param2 = as in Indicator

Kontras helmert . Membandingkan masing-masing kelompok (kecuali referensi) dengan rata-rata tertimbang dari kelompok-kelompok berikutnya, dan Konstan adalah rata-rata grand tertimbang. Matriks C dan L :

C
              Const  A1    A2
Gr1 (A=1)       1   2/3    0
Gr2 (A=2)       1  -1/3   1/2
Gr3 (A=3,ref)   1  -1/3  -1/2

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1   -1/2  -1/2        => Param1 = Mean_Gr1-1/2(Mean_Gr2+Mean_Gr3)
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Perbedaan atau membalikkan kontras Helmert . Membandingkan masing-masing kelompok (kecuali referensi) dengan rata-rata tertimbang dari kelompok sebelumnya, dan Konstan adalah rata-rata grand tertimbang.

C
              Const  A1    A2
Gr1 (A=1)       1  -1/2  -1/3
Gr2 (A=2)       1   1/2  -1/3
Gr3 (A=3,ref)   1    0    2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1        -1     1     0         => Param1 = Mean_Gr2-Mean_Gr1
A2       -1/2  -1/2    1         => Param2 = Mean_Gr3-1/2(Mean_Gr2+Mean_Gr1)

Kontras berulang . Bandingkan setiap kelompok (kecuali referensi) dengan kelompok berikutnya, dan Constant adalah mean rata-rata tertimbang.

C
              Const  A1    A2
Gr1 (A=1)       1   2/3   1/3
Gr2 (A=2)       1  -1/3   1/3
Gr3 (A=3,ref)   1  -1/3  -2/3

L
          Gr1   Gr2   Gr3
         (A=1) (A=2) (A=3)
Const     1/3   1/3   1/3        => Const = Mean_GU
A1         1    -1     0         => Param1 = Mean_Gr1-Mean_Gr2
A2         0     1    -1         => Param2 = Mean_Gr2-Mean_Gr3

Pertanyaan itu bertanya: how exactly is contrast matrix specified?Melihat jenis-jenis kontras yang diuraikan sejauh ini adalah mungkin untuk memahami caranya. Setiap jenis memiliki logikanya bagaimana "mengisi" nilai-nilai dalam L . Logikanya mencerminkan apa arti setiap parameter - apa kombinasi dua kelompok yang direncanakan untuk dibandingkan.

Kontras polinomial . Ini agak istimewa, nonlinier. Efek pertama adalah linear, yang kedua adalah kuadrat, selanjutnya adalah kubik. Saya akan pergi dari sini tanpa memperhitungkan pertanyaan bagaimana matriks C dan L mereka akan dibangun dan jika mereka adalah kebalikan dari satu sama lain. Silakan berkonsultasi dengan penjelasan mendalam @Antoni Parellada tentang jenis kontras ini: 1 , 2 .

Dalam desain seimbang, kontras Helmert, reverse Helmert, dan polinomial selalu merupakan kontras ortogonal . Jenis lain yang dipertimbangkan di atas bukanlah kontras ortogonal. Orthogonal (di bawah keseimbangan) adalah kontras di mana dalam matriks kontras L jumlah di setiap baris (kecuali Konst) adalah nol dan jumlah produk dari elemen yang sesuai dari setiap pasangan baris adalah nol.

Berikut adalah ukuran sudut kemiripan (korelasi cosinus dan Pearson) di bawah berbagai jenis kontras, kecuali polinomial yang tidak saya uji. Mari kita memiliki faktor A tunggal dengan klevel, dan kemudian dikodekan ulang ke dalam set k-1variabel kontras dari tipe tertentu. Apa nilai-nilai dalam korelasi atau matriks kosinus antara variabel-variabel kontras ini?

                     Balanced (equal size) groups     Unbalanced groups
Contrast type             cos        corr              cos        corr

INDICATOR                  0       -1/(k-1)             0         varied
DEVIATION                 .5          .5              varied      varied
SIMPLE                 -1/(k-1)    -1/(k-1)           varied      varied
HELMERT, REVHELMERT        0           0              varied      varied
REPEATED                varied   =  varied            varied      varied

   "=" means the two matrices are same while elements in matrix vary

Saya memberikan tabel untuk informasi dan meninggalkannya tanpa komentar. Sangat penting untuk melihat lebih dalam pemodelan linear umum.

Kontras yang ditentukan pengguna . Inilah yang kami tulis untuk menguji hipotesis perbandingan khusus. Biasanya dijumlahkan dalam setiap tetapi baris pertama L harus 0 yang berarti bahwa dua kelompok atau dua komposisi kelompok sedang dibandingkan di baris itu (yaitu dengan parameter itu).

Di mana parameter modelnya ?

Apakah mereka baris atau kolom L ? Sepanjang teks di atas saya mengatakan bahwa parameter sesuai dengan baris L , karena baris mewakili variabel kontras, prediktor. Sementara kolom adalah tingkat faktor, kelompok. Itu mungkin tampak bertentangan dengan, misalnya, blok teoritis dari jawaban @Gus_est, di mana kolom-kolomnya sesuai dengan parameter:

H0:[011000011000011][β0β1β2β3β4]=[000]

Sebenarnya, tidak ada kontradiksi dan jawaban untuk "masalah" adalah: baris dan kolom dari matriks koefisien kontras sesuai dengan parameter! Ingat saja bahwa kontras (variabel kontras), baris, pada awalnya dibuat untuk mewakili tidak lain dari tingkat faktor: mereka adalah tingkat kecuali satu referensi yang dihilangkan. Bandingkan tolong dua ejaan yang setara dari L-matrix untuk kontras sederhana :

L
          Gr1   Gr2   Gr3
          A=1   A=2   A=3(reference)
Const     1/3   1/3   1/3 
A1         1     0    -1  
A2         0     1    -1   

L
            b0    b1    b2    b3(redundant)
           Const  A=1   A=2   A=3(reference)
b0  Const   1    1/3   1/3   1/3 
b1  A1      0     1     0    -1  
b2  A2      0     0     1    -1   

Yang pertama adalah apa yang saya tunjukkan sebelumnya, yang kedua lebih "teoretis" (untuk aljabar model linier umum). Sederhananya, kolom yang berhubungan dengan istilah Constant ditambahkan. Koefisien parameter b memberi label pada baris dan kolom. Parameter b3, sebagai redundan, akan ditetapkan ke nol. Anda dapat membalik tata letak kedua untuk mendapatkan matriks pengkodean C , di mana di dalam bagian kanan bawah Anda akan menemukan masih kode yang benar untuk variabel kontras A1 dan A2. Itu akan berlaku untuk semua jenis kontras yang dijelaskan (kecuali untuk jenis indikator - di mana pseudoinverse dari tata letak persegi panjang seperti itu tidak akan memberikan hasil yang benar; ini mungkin mengapa jenis kontras sederhana diciptakan untuk kenyamanan: koefisien kontras identik dengan jenis indikator, tetapi untuk baris Konstan).

Jenis kontras dan hasil tabel ANOVA .

Tabel ANOVA menunjukkan efek sebagai gabungan (teragregasi) - misalnya efek utama faktor A , sedangkan kontras sesuai dengan efek elementer, variabel kontras - A1, A2, dan (dihilangkan, referensi) A3. Perkiraan parameter untuk istilah dasar tergantung pada jenis kontras yang dipilih, tetapi hasil gabungan - kuadrat rata-rata dan tingkat signifikansi - adalah sama, apa pun jenisnya. Omnibus ANOVA (katakanlah, satu arah) hipotesis nol bahwa ketiga cara A adalah sama dapat dimasukkan dalam sejumlah pernyataan yang setara, dan masing-masing akan sesuai dengan jenis kontras tertentu: = jenis yang diulang; = Jenis helm; (μ1=μ2,μ2=μ3)(μ1=μ23,μ2=μ3)(μ1=μ123,μ2=μ123)= Jenis penyimpangan; = indikator atau tipe sederhana.(μ1=μ3,μ2=μ3)

Program ANOVA diimplementasikan melalui paradigma model linier umum dapat menampilkan tabel ANOVA (efek gabungan: utama, interaksi) dan tabel perkiraan parameter (efek dasar b ). Beberapa program dapat menampilkan koresponden tabel terakhir dengan jenis kontras sebagai tawaran oleh pengguna, tetapi sebagian besar akan selalu menampilkan parameter koresponden dengan satu jenis - sering, jenis indikator, karena program ANOVA berdasarkan model linier umum parameterisasi khusus variabel dummy (paling nyaman) untuk melakukannya) dan kemudian beralih untuk kontras dengan formula "penghubung" khusus yang menerjemahkan input boneka tetap ke kontras (arbitrer).

Sedangkan dalam jawaban saya - menunjukkan ANOVA sebagai regresi - "tautan" direalisasikan sedini pada tingkat input X , yang dipanggil untuk memperkenalkan gagasan skema pengkodean appropriarte untuk data.

Beberapa contoh menunjukkan pengujian kontras ANOVA melalui regresi biasa .

Menampilkan dalam SPSS permintaan jenis kontras di ANOVA dan mendapatkan hasil yang sama melalui regresi linier. Kami memiliki beberapa dataset dengan Y dan faktor A (3 level, referensi = terakhir) dan B (4 level, referensi = terakhir); temukan data di bawah nanti.

Deviasi kontras contoh di bawah model faktorial penuh (A, B, A * B). Jenis penyimpangan yang diminta untuk A dan B (kami mungkin memilih untuk meminta jenis yang berbeda untuk setiap faktor, untuk informasi Anda).

Matriks koefisien kontras L untuk A dan untuk B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
dev_a1    .6667   -.3333   -.3333
dev_a2   -.3333    .6667   -.3333

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
dev_b1    .7500   -.2500   -.2500   -.2500 
dev_b2   -.2500    .7500   -.2500   -.2500 
dev_b3   -.2500   -.2500    .7500   -.2500

Meminta program ANOVA ( GLMdalam SPSS) untuk melakukan analisis varian dan untuk menghasilkan hasil eksplisit untuk perbedaan penyimpangan:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Tipe kontras deviasi membandingkan A = 1 vs Grand unweighted Mean dan A = 2 dengan Mean yang sama. Elips merah menguji estimasi perbedaan dan nilai-p mereka. Efek gabungan atas faktor A ditulisi oleh persegi panjang merah. Untuk faktor B, setiap tinta secara analog berwarna biru. Menampilkan juga tabel ANOVA. Perhatikan di sana bahwa efek kontras gabungan sama dengan efek utama di dalamnya.

masukkan deskripsi gambar di sini

Sekarang mari kita membuat variabel kontras secara fisik dev_a1, dev_a2, dev_b1, dev_b2, dev_b3 dan jalankan regresi. Balikkan simbol- L untuk mendapatkan matriks kode C :

      dev_a1   dev_a2
A=1   1.0000    .0000 
A=2    .0000   1.0000 
A=3  -1.0000  -1.0000

      dev_b1   dev_b2   dev_b3
B=1   1.0000    .0000    .0000 
B=2    .0000   1.0000    .0000 
B=3    .0000    .0000   1.0000 
B=4  -1.0000  -1.0000  -1.0000

Kolom yang (Konstan) dihilangkan: karena kita akan menggunakan program regresi reguler (yang secara internal memusatkan variabel, dan juga tidak toleran terhadap singularitas) variabel Konstan tidak akan diperlukan. Sekarang buat data X : sebenarnya tidak diperlukan pengodean ulang secara manual dari faktor-faktor ke dalam nilai-nilai ini, solusi satu langkah adalah , di mana adalah variabel indikator (dummy), semua kolom ( adalah jumlah level dalam faktor).X=DCDkk

Setelah membuat variabel kontras, gandakan dari faktor-faktor yang berbeda untuk mendapatkan variabel yang mewakili interaksi (model ANOVA kami adalah faktorial lengkap): dev_a1b1, dev_a1b2, dev_a1b3, dev_a2b1, dev_a2b2, dev_a2b3. Kemudian jalankan regresi linier berganda dengan semua prediktor.

masukkan deskripsi gambar di sini

Seperti yang diharapkan, dev_a1 sama dengan efek seperti kontras "Level 1 vs Mean"; dev_a2 sama seperti "Level 2 vs Mean", dll., - bandingkan bagian yang bertinta dengan analisis kontras ANOVA di atas.

Perhatikan bahwa jika kita tidak menggunakan variabel interaksi dev_a1b1, dev_a1b2 ... dalam regresi, hasilnya akan bertepatan dengan hasil analisis kontras ANOVA hanya efek utama.

Contoh kontras sederhana di bawah model faktorial penuh yang sama (A, B, A * B).

Matriks koefisien kontras L untuk A dan untuk B:

            A=1      A=2      A=3
Const     .3333    .3333    .3333 
sim_a1   1.0000    .0000  -1.0000
sim_a2    .0000   1.0000  -1.0000

            B=1      B=2      B=3      B=4
Const     .2500    .2500    .2500    .2500
sim_b1   1.0000    .0000    .0000  -1.0000
sim_b2    .0000   1.0000    .0000  -1.0000
sim_b3    .0000    .0000   1.0000  -1.0000

Hasil ANOVA untuk kontras sederhana:

masukkan deskripsi gambar di sini

masukkan deskripsi gambar di sini

Hasil keseluruhan (tabel ANOVA) sama dengan kontras deviasi (tidak ditampilkan sekarang).

Buat variabel kontras secara fisik sim_a1, sim_a2, sim_b1, sim_b2, sim_b3. Matriks pengkodean dengan membalikkan matriks-L adalah (tanpa kolom Const):

      sim_a1   sim_a2
A=1    .6667   -.3333
A=2   -.3333    .6667
A=3   -.3333   -.3333

      sim_b1   sim_b2   sim_b3
B=1    .7500   -.2500   -.2500
B=2   -.2500    .7500   -.2500
B=3   -.2500   -.2500    .7500
B=4   -.2500   -.2500   -.2500

Buat data dan tambahkan di sana variabel kontras interaksi sim_a1b1, sim_a1b2, ... dll, sebagai produk dari variabel kontras efek utama. Lakukan regresi.X=DC

masukkan deskripsi gambar di sini

Seperti sebelumnya, kita melihat bahwa hasil regresi dan kecocokan ANOVA. Parameter regresi dari variabel kontras sederhana adalah perbedaan (dan uji signifikansi itu) antara tingkat faktor dan tingkat referensi (yang terakhir, dalam contoh kami).

Data dua faktor yang digunakan dalam contoh:

     Y      A      B
 .2260      1      1
 .6836      1      1
-1.772      1      1
-.5085      1      1
1.1836      1      2
 .5633      1      2
 .8709      1      2
 .2858      1      2
 .4057      1      2
-1.156      1      3
1.5199      1      3
-.1388      1      3
 .4865      1      3
-.7653      1      3
 .3418      1      4
-1.273      1      4
1.4042      1      4
-.1622      2      1
 .3347      2      1
-.4576      2      1
 .7585      2      1
 .4084      2      2
1.4165      2      2
-.5138      2      2
 .9725      2      2
 .2373      2      2
-1.562      2      2
1.3985      2      3
 .0397      2      3
-.4689      2      3
-1.499      2      3
-.7654      2      3
 .1442      2      3
-1.404      2      3
-.2201      2      4
-1.166      2      4
 .7282      2      4
 .9524      2      4
-1.462      2      4
-.3478      3      1
 .5679      3      1
 .5608      3      2
1.0338      3      2
-1.161      3      2
-.1037      3      3
2.0470      3      3
2.3613      3      3
 .1222      3      4

Contoh kontras yang ditentukan pengguna . Mari kita memiliki faktor F tunggal dengan 5 level. Saya akan membuat dan menguji serangkaian kontras ortogonal khusus, dalam ANOVA dan dalam regresi.

masukkan deskripsi gambar di sini

LL

Mari kita kirimkan matriks ke prosedur ANOVA SPSS untuk menguji kontrasnya. Yah, kami mungkin mengirimkan bahkan satu baris (kontras) dari matriks, tetapi kami akan mengirimkan seluruh matriks karena - seperti dalam contoh sebelumnya - kami ingin menerima hasil yang sama melalui regresi, dan program regresi akan membutuhkan lengkap set variabel kontras (untuk diketahui bahwa mereka termasuk satu faktor!). Kami akan menambahkan baris konstan ke L, seperti yang kami lakukan sebelumnya, meskipun jika kami tidak perlu menguji intersep, kami dapat dengan aman menghilangkannya.

UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /CONTRAST (F)= special
       (.2 .2 .2 .2 .2
         3  3 -2 -2 -2
         1 -1  0  0  0
         0  0  2 -1 -1
         0  0  0  1 -1)
  /DESIGN=F.

Equivalently, we might also use this syntax (with a more flexible /LMATRIX subcommand)
if we omit the Constant row from the matrix.
UNIANOVA Y BY F
  /METHOD=SSTYPE(3)
  /INTERCEPT=INCLUDE
  /LMATRIX= "User contrasts"
       F  3  3 -2 -2 -2;
       F  1 -1  0  0  0;
       F  0  0  2 -1 -1;
       F  0  0  0  1 -1
  /DESIGN=F.

masukkan deskripsi gambar di sini

Efek kontras keseluruhan (di bagian bawah gambar) tidak sama dengan efek ANOVA keseluruhan yang diharapkan:

masukkan deskripsi gambar di sini

tetapi itu hanyalah artefak dari memasukkan istilah Konstan ke dalam matriks L. Sebab, SPSS sudah menyiratkan Constant ketika kontras yang ditentukan pengguna ditentukan. Hapus baris konstan dari L dan kami akan mendapatkan hasil kontras yang sama (matriks K pada gambar di atas) kecuali bahwa kontras L0 tidak akan ditampilkan. Dan efek kontras keseluruhan akan cocok dengan ANOVA keseluruhan:

masukkan deskripsi gambar di sini

C=L+X=DC

C
      use_f1   use_f2   use_f3   use_f4
F=1    .1000    .5000    .0000    .0000
F=2    .1000   -.5000    .0000    .0000
F=3   -.0667    .0000    .3333    .0000
F=4   -.0667    .0000   -.1667    .5000
F=5   -.0667    .0000   -.1667   -.5000

masukkan deskripsi gambar di sini

Amati identitas hasil. Data yang digunakan dalam contoh ini:

     Y      F
 .2260      1
 .6836      1
-1.772      1
-.5085      1
1.1836      1
 .5633      1
 .8709      1
 .2858      1
 .4057      1
-1.156      1
1.5199      2
-.1388      2
 .4865      2
-.7653      2
 .3418      2
-1.273      2
1.4042      2
-.1622      3
 .3347      3
-.4576      3
 .7585      3
 .4084      3
1.4165      3
-.5138      3
 .9725      3
 .2373      3
-1.562      3
1.3985      3
 .0397      4
-.4689      4
-1.499      4
-.7654      4
 .1442      4
-1.404      4
-.2201      4
-1.166      4
 .7282      4
 .9524      5
-1.462      5
-.3478      5
 .5679      5
 .5608      5
1.0338      5
-1.161      5
-.1037      5
2.0470      5
2.3613      5
 .1222      5

Kontras selain dari (M) analisis ANOVA .

Di mana pun prediktor nominal muncul, pertanyaan tentang kontras (jenis kontras mana yang harus dipilih untuk prediktor mana) muncul. Beberapa program menyelesaikannya di belakang layar secara internal ketika hasil keseluruhan, omnibus tidak akan bergantung pada jenis yang dipilih. Jika Anda ingin jenis tertentu untuk melihat lebih banyak hasil "dasar", Anda harus memilih. Anda memilih (atau, lebih tepatnya, membuat) kontras juga ketika Anda menguji hipotesis perbandingan khusus.

(M) ANOVA dan Analisis Loglinear, Pemodelan linier campuran dan kadang-kadang digeneralisasi mencakup opsi untuk memperlakukan prediktor melalui berbagai jenis kontras. Tetapi seperti yang saya coba tunjukkan, adalah mungkin untuk membuat kontras sebagai variabel kontras secara eksplisit dan dengan tangan. Kemudian, jika Anda tidak memiliki paket ANOVA, Anda mungkin melakukannya - dalam banyak hal dengan keberuntungan - dengan regresi berganda.


1
tolong jangan membatasi jawaban ini hanya untuk anova jika memungkinkan. Tag [anova] ditambahkan oleh @amoeba pada saat Anda menjawab pertanyaan saya, tetapi saya tidak ingin jawaban dibatasi hanya untuk anova.
Penasaran

CLCL

@amoeba, saya tidak akrab dengan "matriks kontras" dan hampir pasti kependekan dari "matriks koefisien kontras" atau L-matriks, yang merupakan istilah penyebaran resmi atau setidaknya luas dalam (M) ANOVA / GLM. Istilah "Contrast coding matrix" jauh lebih sedikit disebutkan karena hanya merupakan pandangan yang diperbesar dari matriks desain X; Saya telah melihat kata "basis matriks" yang digunakan dalam makalah seorang ahli statistik senior SPSS, Dave Nichols. Tentu saja, matriks L (label resmi) dan C (label sewenang-wenang?) Sangat erat kaitannya sehingga yang satu tidak dapat membahas satu dengan yang lain. Saya kira "kontras matrix" harus dianggap sebagai pasangan ini.
ttnphns

1
Ya saya setuju. Sekarang saya yakin bahwa "matriks kontras" adalah istilah yang hanya digunakan dalam komunitas R dan mengacu pada skema pengkodean. Saya memeriksa buku teks yang dirujuk Gus_est dan mereka tidak pernah menggunakan istilah "kontras matrix", mereka hanya berbicara tentang "kontras" (lihat komentar terakhir saya di bawah jawabannya). OP jelas bertanya tentang "matriks kontras" dalam arti R.
Amuba mengatakan Reinstate Monica

1
That L will determine what are you going to test, you aren't free anymore to choose what to testβi=0β1β2/2β3/2=0

17

Saya akan menggunakan huruf kecil untuk vektor dan huruf besar untuk matriks.

Dalam hal model linier bentuk:

y=Xβ+ε

di mana adalah matriks peringkat , dan kami mengasumsikan .Xn×(k+1)k+1nεN(0,σ2)

Kita dapat memperkirakan oleh , karena kebalikan dari ada.β^(XX)1XyXX

Sekarang, untuk kasus ANOVA, kami memiliki bukan peringkat penuh lagi. Implikasinya adalah kita tidak memiliki dan kita harus puas dengan invers yang digeneralisasi .X(XX)1(XX)

Salah satu masalah menggunakan invers umum ini adalah bahwa itu tidak unik. Masalah lain adalah bahwa kita tidak dapat menemukan penaksir yang tidak bias untuk , karena β

β^=(XX)XyE(β^)=(XX)XXβ.

Jadi, kami tidak dapat memperkirakan . Tetapi bisakah kita memperkirakan kombinasi linear dari ?ββ

Kami memiliki kombinasi linear dari 's, misalkan , dapat diperkirakan jika ada vektor sedemikian rupa sehingga .βgβaE(ay)=gβ


The kontras adalah kasus khusus dari fungsi diduga di mana jumlah dari koefisien adalah sama dengan nol.g

Dan, kontras muncul dalam konteks prediktor kategori dalam model linier. (jika Anda memeriksa manual yang dihubungkan oleh @amoeba, Anda melihat bahwa semua pengkodean kontras mereka terkait dengan variabel kategori) Kemudian, menjawab @Curious dan @amoeba, kita melihat bahwa mereka muncul dalam ANOVA, tetapi tidak dalam model regresi "murni" dengan hanya prediktor kontinu (kita juga dapat berbicara tentang perbedaan dalam ANCOVA, karena kita memiliki beberapa variabel kategori di dalamnya).


Sekarang, dalam model mana tidak peringkat penuh, dan , fungsi linear dapat diperkirakan jika ada vektor sedemikian rupa sehingga . Yaitu, adalah kombinasi linear dari baris . Juga, ada banyak pilihan vektor , sedemikian rupa sehingga , seperti yang dapat kita lihat pada contoh di bawah ini.

y=Xβ+ε
XE(y)=XβgβaaX=ggXaaX=g

Contoh 1

Pertimbangkan model satu arah:

yij=μ+αi+εij,i=1,2,j=1,2,3.

X=[110110110101101101],β=[μτ1τ2]

Dan misalkan , jadi kami ingin memperkirakan .g=[0,1,1][0,1,1]β=τ1τ2

Kita dapat melihat bahwa ada berbagai pilihan vektor yang menghasilkan : take ; atau ; atau .aaX=ga=[0,0,1,1,0,0]a=[1,0,0,0,0,1]a=[2,1,0,0,1,2]


Contoh 2

Ambil model dua arah: .

yij=μ+αi+βj+εij,i=1,2,j=1,2

X=[11010110011011010101],β=[μα1α2β1β2]

Kita dapat mendefinisikan fungsi yang dapat diperkirakan dengan mengambil kombinasi linear dari baris .X

Mengurangkan Baris 1 dari Baris 2, 3, dan 4 (dari ): X

[11010000110110001111]

Dan mengambil Baris 2 dan 3 dari baris keempat:

[11010000110110000000]

Mengalikan ini dengan menghasilkan: β

g1β=μ+α1+β1g2β=β2β1g3β=α2α1

Jadi, kami memiliki tiga fungsi yang dapat diperkirakan secara linear independen. Sekarang, hanya dan dapat dianggap sebagai kontras, karena jumlah koefisiennya (atau, barisnya jumlah masing-masing vektor ) sama dengan nol.g2βg3βg


Kembali ke model seimbang satu arah

yij=μ+αi+εij,i=1,2,,k,j=1,2,,n.

Dan anggaplah kita ingin menguji hipotesis .H0:α1==αk

Dalam pengaturan ini, matriks bukan peringkat penuh, jadi tidak unik dan tidak dapat diperkirakan. Untuk membuatnya dapat diperkirakan, kita dapat mengalikan dengan , selama . Dengan kata lain, dapat iff .Xβ=(μ,α1,,αk)βgigi=0igiαiigi=0

Kenapa ini benar?

Kita tahu bahwa dapat jika ada vektor sedemikian rupa sehingga . Mengambil baris berbeda dari dan , lalu: gβ=(0,g1,,gk)β=igiαiag=aXXa=[a1,,ak]

[0,g1,,gk]=g=aX=(iai,a1,,ak)

Dan hasilnya berikut.


Jika kami ingin menguji kontras tertentu, hipotesis kami adalah . Misalnya: , yang dapat ditulis sebagai , jadi kami membandingkan dengan rata-rata dan .H0:giαi=0H0:2α1=α2+α3H0:α1=α2+α32α1α2α3

Hipotesis ini dapat dinyatakan sebagai , di mana . Dalam kasus ini, dan kami menguji hipotesis ini dengan statistik berikut: H0:gβ=0g=(0,g1,g2,,gk)q=1

F=[gβ^][g(XX)g]1gβ^SSE/k(n1).

Jika dinyatakan sebagai mana baris matriks adalah kontras ortogonal yang saling menguntungkan ( ), maka kita dapat menguji menggunakan statistik , di manaH0:α1=α2==αkGβ=0

G=[g1g2gk]
gigj=0H0:Gβ=0F=SSHrank(G)SSEk(n1)SSH=[Gβ^][G(XX)1G]1Gβ^.

Contoh 3

Untuk memahami ini lebih baik, mari kita gunakan , dan anggaplah kita ingin menguji yang dapat dinyatakan sebagai k=4H0:α1=α2=α3=α4,

H0:[α1α2α1α3α1α4]=[000]

Atau, seperti : H0:Gβ=0

H0:[011000101001011]G,our contrast matrix[μα1α2α3α4]=[000]

Jadi, kita melihat bahwa tiga baris matriks kontras kita ditentukan oleh koefisien dari perbedaan kepentingan. Dan setiap kolom memberikan tingkat faktor yang kami gunakan dalam perbandingan kami.


Hampir semua yang saya tulis diambil \ disalin (tanpa malu-malu) dari Rencher & Schaalje, "Model Linear dalam Statistik", bab 8 dan 13 (contoh, kata-kata teorema, beberapa interpretasi), tetapi hal-hal lain seperti istilah "matriks kontras "(yang, memang, tidak muncul dalam buku ini) dan definisi yang diberikan di sini adalah milik saya.


Mengaitkan matriks kontras OP dengan jawaban saya

Salah satu matriks OP (yang juga dapat ditemukan dalam manual ini ) adalah sebagai berikut:

> contr.treatment(4)
  2 3 4
1 0 0 0
2 1 0 0
3 0 1 0
4 0 0 1

Dalam hal ini, faktor kami memiliki 4 level, dan kami dapat menulis model sebagai berikut: Ini dapat ditulis dalam bentuk matriks sebagai:

[y11y21y31y41]=[μμμμ]+[a1a2a3a4]+[ε11ε21ε31ε41]

Atau

[y11y21y31y41]=[11000101001001010001]X[μa1a2a3a4]β+[ε11ε21ε31ε41]

Sekarang, untuk contoh pengkodean dummy pada manual yang sama, mereka menggunakan sebagai grup referensi. Dengan demikian, kita mengurangi Baris 1 dari setiap baris lain dalam matriks , yang menghasilkan :a1XX~

[11000011000101001001]

Jika Anda mengamati penomoran baris dan kolom dalam matriks contr.treatment (4), Anda akan melihat bahwa mereka mempertimbangkan semua baris dan hanya kolom yang terkait dengan faktor 2, 3, dan 4. Jika kita melakukan hal yang sama dalam matriks di atas menghasilkan:

[000100010001]

Dengan cara ini, contr.treatment (4) matrix memberitahu kita bahwa mereka membandingkan faktor 2, 3 dan 4 dengan faktor 1, dan membandingkan faktor 1 dengan konstanta (ini adalah pemahaman saya tentang hal di atas).

Dan, mendefinisikan (yaitu hanya mengambil baris yang berjumlah 0 dalam matriks di atas): G

[011000101001001]

Kita dapat menguji dan menemukan perkiraan kontrasnya.H0:Gβ=0

hsb2 = read.table('http://www.ats.ucla.edu/stat/data/hsb2.csv', header=T, sep=",")

y<-hsb2$write

dummies <- model.matrix(~factor(hsb2$race)+0)
X<-cbind(1,dummies)

# Defining G, what I call contrast matrix
G<-matrix(0,3,5)
G[1,]<-c(0,-1,1,0,0)
G[2,]<-c(0,-1,0,1,0)
G[3,]<-c(0,-1,0,0,1)
G
     [,1] [,2] [,3] [,4] [,5]
[1,]    0   -1    1    0    0
[2,]    0   -1    0    1    0
[3,]    0   -1    0    0    1

# Estimating Beta

X.X<-t(X)%*%X
X.y<-t(X)%*%y

library(MASS)
Betas<-ginv(X.X)%*%X.y

# Final estimators:
G%*%Betas
          [,1]
[1,] 11.541667
[2,]  1.741667
[3,]  7.596839

Dan perkiraannya sama.


Menghubungkan jawaban @ttnphns dengan saya.

Pada contoh pertama mereka, pengaturan memiliki faktor kategori A yang memiliki tiga level. Kita dapat menulis ini sebagai model (misalkan, untuk kesederhanaan, bahwa ): j=1

yij=μ+ai+εij,for i=1,2,3

Dan misalkan kita ingin menguji , atau , dengan sebagai grup / faktor referensi kami.H0:a1=a2=a3H0:a1a3=a2a3=0a3

Ini dapat ditulis dalam bentuk matriks sebagai:

[y11y21y31]=[μμμ]+[a1a2a3]+[ε11ε21ε31]

Atau

[y11y21y31]=[110010101001]X[μa1a2a3]β+[ε11ε21ε31]

Sekarang, jika kita mengurangi Baris 3 dari Baris 1 dan Baris 2, kita memiliki menjadi (Saya akan menyebutnya :XX~

X~=[010100111001]

Bandingkan 3 kolom terakhir dari matriks di atas dengan @ttnphns 'matrix . Terlepas dari urutannya, mereka sangat mirip. Memang, jika multiply , kita mendapatkan:LX~β

[010100111001][μa1a2a3]=[a1a3a2a3μ+a3]

Jadi, kami memiliki fungsi yang dapat diperkirakan: ; ; .c1β=a1a3c2β=a2a3c3β=μ+a3

Karena , kita melihat dari atas bahwa kita membandingkan konstanta kita dengan koefisien untuk grup referensi (a_3); koefisien group1 ke koefisien group3; dan koefisien group2 ke grup3. Atau, seperti yang dikatakan @ttnphns: "Kita segera melihat, mengikuti koefisien, bahwa estimasi Constant akan sama dengan rata-rata Y dalam kelompok referensi; parameter b1 (yaitu dari variabel dummy A1) akan sama dengan perbedaan: Y berarti dalam group1 dikurangi Rata-rata Y di group3; dan parameter b2 adalah perbedaan: rata-rata di group2 dikurangi rata-rata di group3. "H0:ciβ=0

Selain itu, perhatikan bahwa (mengikuti definisi kontras: fungsi yang dapat diperkirakan + jumlah baris = 0), bahwa vektor dan adalah kontras. Dan, jika kita membuat matriks dari konstrast, kita memiliki:c1c2G

G=[01010011]

Matriks kontras kami untuk mengujiH0:Gβ=0

Contoh

Kami akan menggunakan data yang sama dengan @ttnphns '"Contoh kontras yang ditentukan pengguna" (Saya ingin menyebutkan bahwa teori yang saya tulis di sini memerlukan beberapa modifikasi untuk mempertimbangkan model dengan interaksi, itu sebabnya saya memilih contoh ini. Namun , definisi kontras dan - apa yang saya sebut - matriks kontras tetap sama).

Y<-c(0.226,0.6836,-1.772,-0.5085,1.1836,0.5633,0.8709,0.2858,0.4057,-1.156,1.5199,
     -0.1388,0.4865,-0.7653,0.3418,-1.273,1.4042,-0.1622,0.3347,-0.4576,0.7585,0.4084,
     1.4165,-0.5138,0.9725,0.2373,-1.562,1.3985,0.0397,-0.4689,-1.499,-0.7654,0.1442,
     -1.404,-0.2201,-1.166,0.7282,0.9524,-1.462,-0.3478,0.5679,0.5608,1.0338,-1.161,
     -0.1037,2.047,2.3613,0.1222)

F_<-c(1,1,1,1,1,1,1,1,1,1,2,2,2,2,2,2,2,3,3,3,3,3,3,3,3,3,3,3,4,4,4,4,4,4,4,4,4,
    5,5,5,5,5,5,5,5,5,5,5)

dummies.F<-model.matrix(~as.factor(F_)+0)

X_F<-cbind(1,dummies.F)

G_F<-matrix(0,4,6)
G_F[1,]<-c(0,3,3,-2,-2,-2)
G_F[2,]<-c(0,1,-1,0,0,0)
G_F[3,]<-c(0,0,0,2,-1,-1)
G_F[4,]<-c(0,0,0,0,1,-1)

 G 
 [,1] [,2] [,3] [,4] [,5] [,6]
[1,]    0    3    3   -2   -2   -2
[2,]    0    1   -1    0    0    0
[3,]    0    0    0    2   -1   -1
[4,]    0    0    0    0    1   -1

# Estimating Beta 

X_F.X_F<-t(X_F)%*%X_F
X_F.Y<-t(X_F)%*%Y

Betas_F<-ginv(X_F.X_F)%*%X_F.Y

# Final estimators:
G_F%*%Betas_F
           [,1]
[1,]  0.5888183
[2,] -0.1468029
[3,]  0.6115212
[4,] -0.9279030

Jadi, kami memiliki hasil yang sama.


Kesimpulan

Sepertinya saya bahwa tidak ada satu konsep yang mendefinisikan apa itu matriks kontras.

Jika Anda mengambil definisi kontras, yang diberikan oleh Scheffe ("The Analysis of Variance", halaman 66), Anda akan melihat bahwa itu adalah fungsi yang dapat diperkirakan yang koefisiennya dijumlahkan menjadi nol. Jadi, jika kita ingin menguji kombinasi linear yang berbeda dari koefisien variabel kategorikal kita, kita menggunakan matriks . Ini adalah matriks di mana jumlah baris menjadi nol, yang kita gunakan untuk melipatgandakan matriks koefisien kita dengan maksud agar koefisien tersebut dapat diestimasi. Barisnya menunjukkan kombinasi linier yang berbeda dari kontras yang kami uji dan kolomnya menunjukkan faktor mana (koefisien) yang sedang dibandingkan.G

Karena matriks atas dikonstruksi sedemikian rupa sehingga setiap barisnya disusun oleh vektor kontras (yang berjumlah 0), bagi saya masuk akal untuk memanggil sebagai "matriks kontras" ( Monahan - "A primer pada model linear" - juga menggunakan terminologi ini).GG

Namun, seperti dijelaskan dengan indah oleh @ttnphns, perangkat lunak memanggil sesuatu yang lain sebagai "matriks kontras", dan saya tidak dapat menemukan hubungan langsung antara matriks dan perintah / matriks bawaan dari SPSS (@ttnphns ) atau R (pertanyaan OP), hanya kesamaan. Tetapi saya percaya bahwa diskusi / kolaborasi yang disajikan di sini akan membantu memperjelas konsep dan definisi tersebut.G


tolong jangan membatasi jawaban ini hanya untuk anova jika memungkinkan. Tag [anova] ditambahkan oleh @amoeba pada saat Anda menjawab pertanyaan saya, tetapi saya tidak ingin jawaban dibatasi hanya untuk anova.
Penasaran

Terima kasih banyak atas pembaruan besar ini. Saya menghapus beberapa komentar saya di atas yang sudah usang sekarang (Anda dapat menghapus sebagian dari Anda, misalnya yang pertama). Namun, sekarang jelas bagi saya bahwa "matriks kontras" dalam pengertian Anda (dan Monahan) adalah sesuatu yang sama sekali berbeda dari "matriks kontras" dalam arti itu digunakan dalam manual R ini dan juga dalam pertanyaan asli di sini (apa yang disebut ttnphns panggilan) C-matrix). Saya pikir akan masuk akal jika Anda membuat catatan di suatu tempat dalam jawaban Anda tentang perbedaan ini.
Amuba mengatakan Reinstate Monica

Saya mengalami masalah dengan pemahaman mulai dari Example1. Apa yang sebuah dalam notasi Anda ? Apa itu dan apa yang oleh kolom ? Apakah itu istilah Konstan (kolom satu) dan dua variabel dummy? ijyijaiX
ttnphns

@ttnphns: adalah grup pengindeksan (ada dua grup dalam Contoh 1), adalah titik pengindeksan data di dalam setiap grup. adalah konstanta dan adalah konstanta untuk setiap grup sehingga adalah -rata grup (jadi dapat menjadi rata-rata total dan dapat menjadi penyimpangan dari rata-rata grup dari total rata-rata). Kolom adalah istilah konstan dan dua boneka, ya. ijμαiμ+αiμαiX
Amuba mengatakan Reinstate Monica

Terima kasih atas jawaban ini, tetapi saya mungkin tidak akan pernah bisa atau tidak punya waktu untuk memahaminya. Dan saya belajar matematika :-) Saya mengharapkan beberapa definisi yang sangat sederhana sebagai jawaban :-)
Curious

7

"Matriks kontras" bukanlah istilah standar dalam literatur statistik. Itu dapat memiliki [setidaknya] dua yang terkait dengan makna yang berbeda:

  1. Matriks yang menetapkan hipotesis nol tertentu dalam regresi ANOVA (tidak terkait dengan skema pengkodean), di mana setiap baris adalah kontras . Ini bukan penggunaan standar istilah ini. Saya menggunakan pencarian teks lengkap dalam Jawaban Pesawat Christensen untuk Pertanyaan Kompleks , Rutherford Memperkenalkan ANOVA dan ANCOVA; Pendekatan GLM , dan Model Linear Rencher & Schaalje dalam Statistik . Mereka semua berbicara banyak tentang "kontras" tetapi tidak pernah menyebutkan istilah "matriks kontras". Namun, seperti yang ditemukan @Gus_est, istilah ini digunakan dalam A Primer on Linear Models dari Monahan .

  2. Matriks yang menentukan skema pengkodean untuk matriks desain dalam regresi ANOVA. Ini adalah bagaimana istilah "matriks kontras" digunakan dalam komunitas R (lihat misalnya manual ini atau halaman bantuan ini ).

Jawaban oleh @Gus_est mengeksplorasi arti pertama. Jawaban oleh @ttnphns mengeksplorasi makna kedua (ia menyebutnya "matriks pengkodean kontras" dan juga membahas "matriks koefisien kontras" yang merupakan istilah standar dalam literatur SPSS).


Pemahaman saya adalah bahwa Anda bertanya tentang arti # 2, jadi begini definisi:

"Kontras matrix" dalam arti R adalah matriks di mana adalah jumlah kelompok, menentukan bagaimana keanggotaan kelompok dikodekan dalam desain matriks . Khususnya, jika observasi ke- milik grup maka .k×kCkXmiXmj=Cij

Catatan: biasanya kolom pertama adalah kolom semua yang (sesuai dengan kolom intersep dalam matriks desain). Ketika Anda memanggil perintah R seperti , Anda mendapatkan matriks tanpa kolom pertama ini.Ccontr.treatment(4)C


Saya berencana untuk memperluas jawaban ini untuk membuat komentar panjang tentang bagaimana jawaban oleh @ttnphns dan @Gus_est cocok bersama.


The answer by @Gus_est explores the first meaning. The answer by @ttnphns explores the second meaning.Saya protes. (Dan saya terkejut mendengar - setelah kami berdua melakukan percakapan panjang tentang definisi dalam komentar untuk jawaban saya.) Saya mengundang dua istilah: matriks koefisien kontras (di mana baris adalah kontras, kombinasi linear sarana) alias L-matrix, dan matriks skema pengkodean kontras , alias matriks C. Keduanya terkait, saya membahas keduanya.
ttnphns

(Lanj.) Matriks koefisien kontras adalah istilah standar dalam model linier ANOVA / Umum, yang digunakan dalam teks dan dokumen SPSS, misalnya . Skema pengkodean lihat di sini .
ttnphns

You were asking about meaning #2Kami sebenarnya tidak yakin apa arti istilah OP tersirat. OP menampilkan beberapa contoh skema pengkodean kontras, - itu tidak berarti dia tidak tertarik pada matriks L.
ttnphns

1
Saya senang bahwa kami agak berbicara bahasa yang sama sekarang. Sepertinya begitu, setidaknya. Akan sangat bagus untuk semua orang, terutama pembaca pengunjung, jika Anda menyelesaikan jawaban Anda, menunjukkan bagaimana laporan Gus dan ttnphns dikonversi ke hasil yang sama. Jika Anda ingin mencapai.
ttnphns

1
(lanjutan) Tentu saja matriks L dalam kedua "pendekatan" itu sama (dan tidak ada matriks G misterius yang diperlukan). Tunjukkan bahwa dua jalur setara (L adalah arbitrer, X adalah boneka): L -> XC -> regression -> resultdan X -> [regression -> adjusting to test for L] -> resultbiarkan hasil yang sama. Jalur ke-2 adalah bagaimana program ANOVA akan melakukan (bagian kurung []); jalur 1 adalah demonstrasi didaktik bagaimana kontras dapat dipecahkan melalui program regresi saja.
ttnphns

3

Suatu kontras membandingkan dua kelompok dengan membandingkan selisihnya dengan nol. Dalam matriks kontras, baris adalah kontras dan harus ditambahkan ke nol, kolom adalah grup. Sebagai contoh:

Katakanlah Anda memiliki 4 grup A, B, C, D yang ingin Anda bandingkan, maka matriks kontrasnya adalah:

Grup: ABCD
A vs B: 1 -1 0 0
C vs D: 0 0 -1 1
A, B vs D, C: 1 1 -1 -1

Parafrase dari Memahami Eksperimen Industri :

Jika ada sekelompok objek k yang akan dibandingkan, dengan rata-rata subkelompok k, sebuah perbedaan didefinisikan pada set objek k ini dengan set koefisien k, [c1, c2, c3, ... cj, ..., ck ] jumlah itu menjadi nol.

Biarkan C menjadi kontras,

C=c1μ1+c2μ2+...cjμj+...ckμk

C=j=1kcjμj

dengan batasan

j=1kcj=0

Subkelompok yang diberi koefisien nol akan dikeluarkan dari perbandingan. (*)

Tanda-tanda koefisienlah yang sebenarnya menentukan perbandingan, bukan nilai yang dipilih. Nilai absolut dari koefisien bisa berapa saja asalkan jumlah koefisiennya nol.

(*) Setiap perangkat lunak statistik memiliki cara berbeda untuk menunjukkan subkelompok mana yang akan dikecualikan / disertakan.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.