Saya mencoba menyesuaikan model log-linear dengan sejumlah besar variabel dari data survei. Ada beberapa alasan yang mungkin lebih cocok untuk memasukkan regresi logistik ke data tersebut. Beberapa pihak berwenang menyatakan bahwa ini setara. Namun, saya punya beberapa alasan untuk meragukan hal ini.
- Model log-linear memperlakukan semua variabel secara setara, sedangkan regresi logistik mengharuskan satu variabel diidentifikasi sebagai variabel respons.
Dalam konteks kuadrat-terkecil, umumnya tidak berlaku untuk Y = a + bX + ε versus X = c + dY + ε parameter d bahkan kira-kira sama dengan 1 / b. Ini karena persamaan pertama meminimalkan kesalahan vertikal, sedangkan yang kedua meminimalkan kesalahan horisontal. Ini akan sama hanya jika kesalahan simetris di sekitar garis taksiran. Jadi saya khawatir ini mungkin benar dari regresi logistik juga. (2) sebenarnya hanya bentuk spesifik dari (1), yaitu kemungkinan asimetri dalam format regresi dari pilihan variabel tertentu sebagai respons.
Jika semua variabel dalam model log-linear terlibat dalam satu atau lebih istilah interaksi, saya tidak melihat bagaimana regresi logistik dapat setara. Bagaimana orang akan mengungkapkan interaksi di mana variabel respon terlibat dalam konteks regresi logistik?
Menanggapi Bill Huber, saya menggunakan model log-linear dengan pengertian yang jauh lebih terbatas daripada Wikipedia. Saya mengacu pada model data penghitungan kategoris atau ordinal, disusun dalam tabel, di mana koefisien adalah jumlah tabel total, jumlah marginal untuk setiap faktor dibagi dengan jumlah tabel total (berfungsi sebagai proksi probabilitas), dan berbagai istilah interaksi. Ini adalah arti yang digunakan dalam Agresti, "Analisis Data Kategorikal", antara lain.