Dari pertanyaan Anda sebelumnya, Anda mengetahui bahwa GLM dijelaskan dalam hal distribusi probabilitas, prediktor linier dan fungsi tautan g dan digambarkan sebagaiηg
ηE( Y| X)= Xβ= μ = g- 1( η)
di mana adalah fungsi tautan logit dan Y diasumsikan mengikuti distribusi BernoulligY
Ysaya∼ B( μsaya)
setiap mengikuti distribusi Bernoulli dengan itu berarti sendiri yaitu tergantung pada . Kami tidak berasumsi bahwa setiap berasal dari distribusi yang sama, dengan rata-rata yang sama (ini akan menjadi model intersep-satunya Y i = g - 1 ( μ ) ), tetapi mereka semua memiliki cara yang berbeda. Kami berasumsi bahwa 's yang independen , yaitu kita tidak perlu khawatir tentang hal-hal seperti autokorelasi antara berikutnya nilai dllμ i X Y i Y i Y iYsaya μsayaXYsayaYsaya= g- 1( μ )YsayaYsaya
The iid asumsi berkaitan dengan kesalahan dalam regresi linear (yaitu Gaussian GLM), di mana model ini
ysaya= β0+ β1xsaya+ εsaya= μsaya+εsaya
mana , jadi kami telah IID kebisingan di sekitar . Inilah sebabnya mengapa tertarik pada diagnostik residu dan memperhatikan residu vs plot yang dipasang . Sekarang, dalam kasus seperti regresi logistik GLM tidak sesederhana itu karena tidak ada istilah kebisingan tambahan seperti dengan model Gaussian (lihat di sini , di sini dan di sini ). Kami masih ingin residu menjadi "acak" di sekitar nol dan kami tidak ingin melihat tren di dalamnya karena mereka akan menyarankan bahwa ada beberapa efek yang tidak diperhitungkan dalam model, tetapi kami tidak berasumsi bahwa mereka adalah normal dan / atauμ iεsaya∼ N( 0 , σ2)μsayaiid . Lihat juga pada pentingnya asumsi iid dalam utas pembelajaran statistik .
Sebagai sidenote, perhatikan bahwa kita bahkan dapat menjatuhkan asumsi bahwa setiap berasal dari jenis distribusi yang sama. Ada (non-GLM) model yang mengasumsikan bahwa yang berbeda dapat memiliki distribusi yang berbeda dengan parameter yang berbeda, yaitu bahwa data Anda berasal dari campuran distribusi yang berbeda . Dalam kasus seperti itu kami juga akan menganggap bahwa nilai-nilai adalah independen , karena nilai-nilai dependen, berasal dari distribusi yang berbeda dengan parameter yang berbeda (yaitu data dunia nyata yang khas) adalah sesuatu yang dalam kebanyakan kasus akan terlalu rumit untuk dimodelkan (seringkali tidak mungkin).Y i Y iYsayaYsayaYsaya