Regresi logistik atau uji T?

17

Sekelompok orang menjawab satu pertanyaan. Jawabannya bisa "ya" atau "tidak". Peneliti ingin mengetahui apakah usia dikaitkan dengan jenis jawaban.

Asosiasi tersebut dinilai dengan melakukan regresi logistik di mana usia adalah variabel penjelas dan jenis jawaban (ya, tidak) adalah variabel dependen. Itu secara terpisah ditangani dengan menghitung usia rata-rata kelompok yang menjawab "ya" dan "tidak", masing-masing, dan dengan melakukan uji T untuk membandingkan cara.

Kedua tes dilakukan mengikuti saran dari orang yang berbeda, dan tak satu pun dari mereka yakin yang mana cara yang tepat untuk pergi. Mengingat pertanyaan penelitian, tes mana yang lebih baik?

Untuk pengujian hipotesis, nilai p tidak signifikan (regresi) dan signifikan (uji T). Sampelnya kurang dari 20 kasus.

regression logistic t-test

— Gwen
sumber

2

Saya tidak yakin ini adalah pertanyaan Anda yang sebenarnya. Anda sudah menjalankan kedua analisis yang Anda tanyakan. Saya menduga bahwa apa yang benar-benar ingin Anda ketahui adalah tentang perbandingan atau hubungan di antara tes-tes tersebut, misalnya yang lebih baik. Harap edit pertanyaan Anda untuk memperbaikinya.

— John

Kedua tes dilakukan mengikuti saran dari orang yang berbeda, dan tidak satupun dari mereka yakin apakah ini cara yang tepat untuk pergi. Mengingat pertanyaan penelitian (apakah usia dikaitkan dengan jenis respons?) Yang akan menjadi tes yang lebih baik, regresi logistik dari jenis respons pada usia atau tes T membandingkan usia rata-rata orang yang menjawab "ya" dengan rata-rata. usia orang yang menjawab "tidak"?

— Gwen

19

Kedua tes secara implisit memodelkan hubungan usia-respons, tetapi mereka melakukannya dengan cara yang berbeda. Yang mana yang akan dipilih tergantung pada bagaimana Anda memilih untuk memodelkan hubungan itu. Pilihan Anda harus bergantung pada teori yang mendasarinya, jika ada; pada jenis informasi apa yang ingin Anda ekstrak dari hasil; dan tentang bagaimana sampel dipilih. Jawaban ini membahas tiga aspek ini secara berurutan.

Saya akan menjelaskan uji-t dan regresi logistik menggunakan bahasa yang mengandaikan Anda sedang mempelajari populasi orang yang terdefinisi dengan baik dan ingin membuat kesimpulan dari sampel ke populasi ini.

Untuk mendukung segala macam kesimpulan statistik kita harus mengasumsikan sampelnya acak.

Uji-t mengasumsikan orang-orang dalam sampel yang menjawab "tidak" adalah sampel acak sederhana dari semua tidak ada responden dalam populasi dan bahwa orang-orang dalam sampel menjawab "ya" adalah sampel acak sederhana dari semua responden ya dalam populasi.

Uji-t membuat asumsi teknis tambahan tentang distribusi usia dalam masing-masing dua kelompok dalam populasi. Berbagai versi uji-t ada untuk menangani kemungkinan yang mungkin terjadi.
Regresi logistik mengasumsikan semua orang dari usia berapa pun adalah sampel acak sederhana dari orang-orang dari usia itu dalam populasi. Kelompok usia yang berbeda dapat menunjukkan tingkat respons "ya" yang berbeda. Angka-angka ini, ketika dinyatakan sebagai peluang log (bukan sebagai proporsi lurus), diasumsikan terkait linear dengan usia (atau dengan beberapa fungsi usia yang ditentukan).

Regresi logistik mudah diperluas untuk mengakomodasi hubungan non-linear antara usia dan respons. Perluasan semacam itu dapat digunakan untuk mengevaluasi kemungkinan asumsi linier awal. Hal ini dapat dilakukan dengan dataset besar, yang memberikan cukup detail untuk menampilkan non-linearitas, tetapi tidak mungkin banyak digunakan dengan dataset kecil. Aturan umum - bahwa model regresi harus memiliki sepuluh kali pengamatan sebanyak parameter - menunjukkan bahwa secara substansial lebih dari 20 pengamatan diperlukan untuk mendeteksi nonlinier (yang membutuhkan parameter ketiga selain intersep dan kemiringan fungsi linier). ).

Uji-t mendeteksi apakah usia rata-rata berbeda antara tidak-dan ya-responden dalam populasi. Regresi logistik memperkirakan bagaimana tingkat respons bervariasi berdasarkan usia. Karena itu lebih fleksibel dan mampu memberikan informasi yang lebih rinci daripada uji-t. Di sisi lain, itu cenderung kurang kuat daripada uji-t untuk tujuan dasar mendeteksi perbedaan antara usia rata-rata dalam kelompok.

Adalah mungkin bagi pasangan tes untuk menunjukkan keempat kombinasi signifikansi dan non-signifikansi. Dua di antaranya bermasalah:

Uji-t tidak signifikan tetapi regresi logistik. Ketika asumsi kedua tes masuk akal, hasil seperti itu praktis tidak mungkin, karena uji-t tidak berusaha mendeteksi hubungan spesifik seperti yang diajukan oleh regresi logistik. Namun, ketika hubungan itu cukup nonlinear untuk menyebabkan subjek tertua dan termuda untuk berbagi satu pendapat dan subjek paruh baya yang lain, maka perpanjangan regresi logistik untuk hubungan nonlinear dapat mendeteksi dan mengukur situasi itu, yang tidak dapat dideteksi dengan uji-t. .
Uji-t signifikan tetapi regresi logistik tidak, seperti pada pertanyaan. Ini sering terjadi, terutama ketika ada sekelompok responden yang lebih muda, sekelompok responden yang lebih tua, dan sedikit orang di antaranya. Hal ini dapat membuat pemisahan yang besar antara tingkat respons responden yang menjawab tidak dan ya. Itu mudah terdeteksi oleh uji-t. Namun, regresi logistik akan memiliki informasi rinci yang relatif sedikit tentang bagaimana tingkat respons benar-benar berubah dengan bertambahnya usia atau akan memiliki informasi yang tidak meyakinkan: kasus "pemisahan total" di mana semua orang tua merespons dengan satu cara dan semua orang yang lebih muda dengan cara lain-- tetapi dalam kasus itu kedua tes biasanya memiliki nilai p yang sangat rendah.

Perhatikan bahwa desain eksperimental dapat membatalkan beberapa asumsi pengujian. Misalnya, jika Anda memilih orang berdasarkan usia mereka dalam desain bertingkat, maka asumsi uji-t (bahwa masing-masing kelompok mencerminkan sampel acak sederhana usia) menjadi dipertanyakan. Desain ini akan menyarankan mengandalkan regresi logistik. Jika sebaliknya Anda memiliki dua kelompok, satu dari yang tidak menanggapi dan satu dari yang menjawab ya, dan dipilih secara acak dari mereka untuk memastikan umur mereka, maka asumsi pengambilan sampel dari regresi logistik diragukan sementara yang dari uji-t akan berlaku. Desain itu akan menyarankan menggunakan beberapa bentuk uji-t.

(Desain kedua mungkin terlihat konyol di sini, tetapi dalam situasi di mana "usia" digantikan oleh beberapa karakteristik yang sulit, mahal, atau memakan waktu untuk mengukurnya dapat menarik.)

— whuber
sumber

Bukankah sebagian besar masalah non-linearitas dan pemisahan dapat dikurangi dengan menggunakan spline pada variabel umur? Dalam hal ini, permintaan maaf tetapi saya tidak dapat melihat mengapa desain "dikumpulkan" akan membatalkan temuan dari regresi logistik. Tentu, asumsi sampel acak sudah hilang, tetapi apakah kita peduli dengan pilihan desain ini? Apakah Anda menyinggung bias seleksi? (Desain yang Anda gambarkan sepertinya studi kasus-kontrol bagi saya, tetapi saya mungkin salah ...) (+1 jelas)

— usεr11852 kata Reinstate Monic

@ usεr11852 Terima kasih atas komentar bijaksana Anda. Saya telah menulis ulang beberapa bagian untuk memperjelas poin yang Anda kemukakan. Meskipun pertambahan usia dapat mengatasi nonlinier dalam regresi logistik, hal ini dapat meningkatkan kemungkinan pemisahan total. Saya tidak yakin apa yang Anda maksud dengan "pooled design," tetapi saya akan curiga terhadap upaya untuk menafsirkan nilai-p dari regresi logistik di mana model probabilitas tidak dapat dibenarkan (yang merupakan contoh acak yang memungkinkan kami lakukan).

— whuber

Terima kasih untuk ini Ya, saya sangat menghargai poin yang Anda buat tentang pemisahan lengkap (efek Hauck-Donner), saya tidak mempertimbangkannya. OK, saya mengerti maksud Anda sekarang tentang dua kolam itu sekarang. Dalam hal ini kita akan memiliki konsep penelitian observasional yang disepakati (kita mengamati / mendefinisikan dua kelompok) sehingga kita harus mencari cara untuk mengendalikannya (skor kecenderungan, dll.)

— usεr11852 mengatakan Reinstate Monic

5

$t$ $X$ $Y$

X | Y = i \sim N (μ_{i}, σ^{2}) .

$X|Y=i \sim N(\mu_i,\sigma^2).$

Y \sim bernoulli (p)

$Y \sim \operatorname{bernoulli}(p)$

Y

$Y$

X = x

$X=x$

\begin{aligned} P (Y = 1 | X = x) & = \frac{f_{X | Y = 1} (x) P (Y = 1)}{\sum_{i = 0}^{1} f_{X | Y = i} (x) P (Y = i)} \\ = \frac{p e^{- \frac{1}{2 σ^{2}} (x - μ_{1})^{2}}}{p e^{- \frac{1}{2 σ^{2}} (x - μ_{1})^{2}} + (1 - p) e^{- \frac{1}{2 σ^{2}} (x - μ_{0})^{2}}} \\ = \frac{1}{1 + \frac{1 - p}{p} e^{- \frac{1}{2 σ^{2}} (x - μ_{0})^{2} + \frac{1}{2 σ^{2}} (x - μ_{1})^{2}}} \\ = {logit}^{- 1} (β_{0} + β_{1} x) \end{aligned}

$\begin{align} P(Y=1|X=x) &=\frac{f_{X|Y=1}(x)P(Y=1)}{\sum_{i=0}^1 f_{X|Y=i}(x)P(Y=i)} \\&=\frac{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2}}{pe^{-\frac1{2\sigma^2}(x-\mu_1)^2} + (1-p)e^{-\frac1{2\sigma^2}(x-\mu_0)^2}} \\&=\frac1{1+\frac{1-p}pe^{-\frac1{2\sigma^2}(x-\mu_0)^2+\frac1{2\sigma^2}(x-\mu_1)^2}} \\&=\operatorname{logit}^{-1}(\beta_0 + \beta_1 x) \end{align}$ that is, a logistic regression model with intercept and slope

\begin{aligned} β_{0} & = \ln \frac{p}{1 - p} - \frac{1}{2 σ^{2}} (μ_{1}^{2} - μ_{0}^{2}) \\ β_{1} & = \frac{1}{σ^{2}} (μ_{1} - μ_{0}) . \end{aligned}

$\begin{align}\beta_0 &= \ln\frac p{1-p} -\frac1{2\sigma^2}(\mu_1^2-\mu_0^2) \\ \beta_1&=\frac1{\sigma^2}(\mu_1-\mu_0). \end{align}$

So in this sense the two conditional models are compatible.

— Jarle Tufto
sumber

3

The better test is the the one that better addresses your question. Neither is just better on it's face. The differences here are equivalent to those found when regressing y on x and x on y and the reasons for different results are similar. The variance being assessed depends on which variable is being treated as the response variable in the model.

Your research question is terribly vague. Perhaps if you considered direction of causality you'd be able to come to a conclusion about which analysis you want to use. Is age causing people to respond "yes" or is responding "yes" causing people to get older? It's more likely the former, in which case the variance in the probability of a "yes" is what you wish to model and therefore the logistic regression is the best choice.

That said, you should examine assumptions of the tests. Those can be found online at wikipedia or in your text books on them. It may well be that you have good reasons not to perform the logistic regression and, when that happens you may need to ask a different question.

— John
sumber

1

Do you mean "not to perform the logistic regression"?

— mark999