Jika saya memiliki banyak hasil positif, tidak signifikan, dapatkah saya menguji "setidaknya


9

Katakanlah saya telah menjalankan regresi yang sama untuk 100 orang yang berbeda secara terpisah. Koefisien minat saya positif (dan sangat berbeda satu sama lain) tetapi secara statistik tidak signifikan dalam semua 100 hasil (misalkan setiap p-value = 0,11).

Apakah ada cara untuk menggabungkan nilai-p ini untuk menyimpulkan "setidaknya 80 hasil ini positif" dengan signifikansi yang lebih besar daripada p = 0,11? Pencarian online saya hanya menunjukkan kepada saya bagaimana mengatakan "setidaknya 1 dari hasil ini adalah positif" melalui tes Fisher atau sejenisnya, tetapi saya belum dapat menggeneralisasi hasil itu. Saya ingin menguji "H0 = semua 100 efek sama pada 0" terhadap "HA = setidaknya 80 efek positif."

Tujuan saya bukan untuk mengatakan ada koefisien positif rata-rata, dan juga tidak secara khusus mengukur koefisien. Tujuan saya adalah untuk menunjukkan, dengan signifikansi, bahwa setidaknya 80 orang secara individu menghadapi beberapa efek positif terlepas dari mana 80, dan terlepas dari besarnya efek yang dirasakan oleh masing-masing individu.


2
Apa maksud Anda dengan "menjalankan regresi yang sama untuk 100 orang secara terpisah"? - Apakah ini berarti Anda memiliki 100 dataset, masing-masing dengan beberapa pengamatan pada set variabel respon dan variabel penjelas yang sama? Tidak yakin bagaimana ini bekerja misalnya, jika Anda tertarik untuk membandingkan tinggi dan berat badan individu, Anda hanya memiliki satu pengamatan untuk setiap individu, jadi bagaimana cara menyesuaikan regresi? Apakah Anda mungkin memiliki serangkaian waktu untuk setiap individu - dalam hal ini Anda memerlukan teknik yang lebih canggih? Itu akan menjadi bentuk analisis longitudinal, jika Anda mencari istilah pencarian.
Peter Ellis

Jawaban:


8

Anda harus melakukan semua 100 analisis sebagai model efek campuran tunggal, dengan koefisien variabel acak minat Anda sendiri. Dengan begitu Anda dapat memperkirakan distribusi untuk koefisien-koefisien tersebut termasuk rata-rata keseluruhannya, yang akan memberi Anda semacam interpretasi yang saya pikir Anda cari.

Memperhatikan bahwa, jika seperti yang saya duga, Anda memiliki serangkaian waktu untuk setiap individu, Anda juga perlu mengoreksi autokorelasi residu.


Terima kasih atas waktu Anda, sangat kami hargai. Jika saya bisa mengklarifikasi, ini adalah deret waktu. Katakanlah saya memiliki data untuk semua 100 orang selama 5 tahun, dan pada tahun ketiga variabel dummy (variabel independen yang saya minati) berubah menjadi 1 pada saat yang sama untuk semua 100 individu. Saya tidak peduli tentang efek pasti dari perubahan itu pada setiap orang, atau efek rata-rata. Sebaliknya, saya hanya ingin memastikan bahwa setidaknya 80 orang masing-masing terpengaruh. Koefisiennya positif pada semua 100, tetapi masing-masing tidak signifikan. Saya tidak yakin mengukur distribusi koefisien akan mencapai itu.
user28239

1
Itu yang saya duga Anda miliki. Saya pikir pendekatan yang saya sarankan adalah yang tepat. Anda kemudian dapat menggunakan model untuk melakukan prediksi atau hal interpretatif lain yang Anda inginkan.
Peter Ellis

4

Hal paling sederhana untuk dilakukan mungkin adalah tes tanda. Hipotesis nol adalah bahwa setiap hasil memiliki probabilitas yang sama untuk menjadi positif atau negatif (seperti membalik koin yang adil). Tujuan Anda adalah untuk menentukan apakah hasil yang diamati tidak akan cukup di bawah hipotesis nol ini sehingga Anda dapat menolaknya.

Berapa probabilitas mendapatkan 80 atau lebih kepala dari 100 flips koin yang adil? Anda dapat menghitung ini menggunakan distribusi binomial. Di R, fungsi yang relevan dipanggil pbinom, dan Anda bisa mendapatkan nilai p (satu sisi) menggunakan baris kode berikut:

pbinom(80, size = 100, prob = 0.5, lower.tail = FALSE)

Menurut tes ini, intuisi Anda benar, Anda akan sangat tidak mungkin mendapatkan 80 hasil positif secara kebetulan jika perawatan tidak berpengaruh.

Opsi yang berkaitan erat adalah menggunakan sesuatu seperti uji peringkat bertanda Wilcoxon .


Sebuah lebih baik pendekatan, jika Anda benar-benar ingin memperkirakan ukuran efeknya (bukan hanya menentukan apakah itu cenderung lebih besar dari nol atau tidak), mungkin akan menjadi hirarkis ( "mixed") model.

Di sini, model mengatakan bahwa hasil 100 individu Anda berasal dari distribusi, dan tujuan Anda adalah untuk melihat di mana rata-rata distribusi itu (bersama dengan interval kepercayaan).

Model campuran membiarkan Anda mengatakan sedikit lebih banyak tentang ukuran efek Anda: setelah menyesuaikan model, Anda dapat mengatakan sesuatu seperti "kami memperkirakan bahwa perawatan kami cenderung meningkatkan hasil rata-rata tiga unit, meskipun data konsisten dengan rata-rata sebenarnya ukuran efek berkisar antara 1,5 hingga 4,5 unit. Juga, ada beberapa variasi di antara individu, sehingga orang yang diberikan mungkin melihat efek di mana saja dari -0,5 hingga +6,5 unit ".

Itu seperangkat pernyataan yang sangat tepat dan berguna - jauh lebih baik daripada hanya "efeknya mungkin positif, rata-rata", itulah sebabnya pendekatan ini cenderung disukai oleh ahli statistik. Tetapi jika Anda tidak membutuhkan semua detail itu, pendekatan pertama yang saya sebutkan mungkin juga baik-baik saja.


0

Mungkin saya salah paham, tetapi menurut saya Anda mencoba melakukan tindakan ANOVA berulang-ulang. Cukup definisikan "boneka" ini sebagai faktor dalam-subjek, dan model akan melakukan sisanya. Signifikansi itu sendiri tidak terlalu informatif; diperlukan tetapi tidak cukup; model apa pun akan menjadi signifikan dengan jumlah pengamatan yang cukup besar. Anda mungkin ingin mendapatkan ukuran efek, seperti (sebagian) Eta-Squared, untuk mendapatkan gambaran seberapa "besar" efek Anda. 2 sen saya.


0

Ini mungkin sesederhana perhitungan ANCOVA biasa, tetapi cara yang tepat untuk menganalisis data Anda akan tergantung pada situasi fisik dan Anda belum memberikan detail itu.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.