Dapatkah saya melakukan Analisis Daya Uji-t untuk Kelompok Ukuran Tidak Sama yang Menghasilkan 2 Minimum Berbeda?

Biasanya mudah dilakukan Power Analysisuntuk menghitung minimum sample size, terutama dalam R yang merupakan lingkungan komputasi statistik pilihan saya.

Namun, saya diminta untuk melakukan Analisis Kekuatan yang sedikit berbeda dari apa pun yang telah saya lakukan atau yang dapat saya temukan referensi online. Saya bertanya-tanya apakah apa yang saya minta bahkan mungkin / valid.

Proyek ini pada dasarnya memiliki dua unequal groupskeadaan dan hipotesisnya adalah bahwa kedua kelompok ini berbeda secara signifikan dalam hal variabel hasil (yang merupakan durasi panggilan telepon ke pelanggan). Kelompok "kontrol" terdiri dari 40 negara bagian dan menghasilkan sekitar 2.500 pengamatan. Kelompok "tes" memiliki sekitar 10 negara dan 500 pengamatan.

Awalnya, saya menemukan grup means+ pooled standard deviation, yang saya gunakan untuk menghitung Effect Size. Kemudian saya menggunakan paket yang disebut pwrdalam Rdan menemukan bahwa saya membutuhkan ukuran sampel minimal sekitar 135 pengamatan per kelompok, diberikan 0,05 signifikansi dan 0,8 kekuasaan.

Namun, mereka menolak jawaban saya karena mereka ingin satu kelompok menjadi lebih besar dari yang lain seperti sekarang, dan mereka mengharapkan dua pengamatan minimum jumlah yang berbeda per kelompok atau% minimum populasi dalam hal jumlah negara atau pengamatan yang harus masuk ke kelompok "tes" mereka.

Saya melihat Analisis Daya untuk dua sampel t-tes (yaitu fungsi R pwr.t2n.test), tetapi saya harus menentukan setidaknya satu dari ukuran sampel sedangkan mereka ingin saya memberi tahu mereka ukuran sampel minimal untuk kedua kelompok (baik sebagai angka atau persentase) dan fungsi ini tidak mencerminkan perbedaan dalam standar deviasi untuk kedua kelompok.

Apakah ini mungkin atau apakah saya hanya memberi tahu mereka bahwa itu bukan cara kerjanya (yaitu yang terbaik yang dapat saya lakukan adalah memberi tahu mereka bahwa dengan memberikan salah satu ukuran sampel dan deviasi standar yang dikumpulkan, kelompok kedua harus setidaknya memiliki ukuran tertentu)?

— Hack-R
sumber

Jawaban:

Anda dapat melakukan perhitungan ukuran sampel untuk ukuran sampel yang tidak sama.

Misalnya, Anda dapat memutuskan bahwa n berada dalam beberapa rasio (seperti proporsional dengan populasi mungkin).

Maka dimungkinkan untuk melakukan perhitungan daya (setidaknya Anda dapat mensimulasikan untuk mendapatkan kekuatan di bawah serangkaian keadaan tertentu, apakah Anda dapat melakukan aljabar atau tidak).

Masalahnya adalah itu relatif tidak efisien dalam menemukan perbedaan dibandingkan dengan jumlah pengamatan yang sama pada ukuran sampel yang sama.

Bayangkan Anda memiliki total sampel , dengan varians yang sama dalam populasi dan mendekati varians sampel yang sama, dan bahwa pilihan Anda adalah antara 50-50 dan ( vs ). $n=n_1 + n_2$ $n_1 = 0.5n$ $n_1=0.9n$

Statistik dua sampel adalah:

$t = \frac{\bar {X}_1 - \bar{X}_2}{s_{\text{pooled}} \cdot \sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

Dampak dari ukuran sampel adalah dalam istilah . $1/{\sqrt{\frac{1}{n_1}+\frac{1}{n_2}}}$

Jika Anda memiliki 50-50 split itu seperti memiliki standar deviasi 40% lebih kecil; pada diberikan Anda dapat mengambil efek yang jauh lebih kecil dengan pembagian genap. $n_1+n_2$

Jika ukuran sampel gabungan bukan kendala yang efektif, perhitungan ini mungkin tidak berguna. Itu penting dalam kasus di mana setiap pengamatan membawa biaya marjinal yang sama, yang tidak selalu relevan.

— Glen_b -Reinstate Monica
sumber

Terima kasih! Jadi, untuk benar-benar melakukan ini adalah cara terbaik saya untuk hanya menggunakan sesuatu seperti pwr.t2n.test () dalam R untuk dasarnya setiap kombinasi yang mungkin diberikan dengan ukuran sampel gabungan, atau adakah cara yang lebih baik yang Anda rekomendasikan untuk menghitung ini? Jika Anda menggunakan bahasa / paket lain maka saya bisa mencari cara untuk menerjemahkan jawaban Anda menjadi R. Dalam kedua kasus, terima kasih atas solusi Anda.

— Hack-R

Saya tidak mengerti apa yang Anda maksudkan di sini. Sejauh yang saya tahu Anda tidak memiliki kemampuan untuk membagi dalam rasio apa pun yang Anda suka; Contoh saya adalah untuk menggambarkan efek perpecahan yang tidak merata. Jika Anda memiliki ukuran sampel total tetap, kemudian pisahkan hingga 50-50 seperti yang akan diterima. Jika Anda tidak memiliki ukuran sampel total tetap, maka Anda mengoptimalkan berdasarkan pada biaya Anda dan kendala sebenarnya pergi.

— Glen_b -Reinstate Monica

Tingkat informasi saya adalah bahwa mereka saat ini memiliki dua kelompok yang benar-benar tidak setara yang berjumlah 3.000 pengamatan di 50 negara bagian AS. Mereka meminta jumlah minimum pengamatan per kelompok dan / atau% yang harus masuk ke masing-masing kelompok, berdasarkan cara dan standar deviasi yang saya dapatkan dari data. Saya tidak tahu apakah mereka dapat membagi data 50-50 atau dengan cara apa pun yang mereka suka, tetapi saya akan menunjukkan kepada mereka minimum n dalam grup 2 untuk setiap nilai grup 1 n dan juga menunjukkan kepada mereka biaya pemisahan selain 50 -50, mungkin dari segi kekuatan. Saya pikir itu kira-kira yang Anda sarankan?

— Hack-R

Saya melihat. Anda tentu bisa menghitung sesuatu seperti itu, tetapi Anda tidak perlu melakukannya di setiap ; hal-hal ini berkembang dengan sangat lancar.

n

$n$

— Glen_b -Reinstate Monica

@ Glen: Itulah mengapa saya mencoba untuk dengan cepat menghapus komentar saya tentang (un) kegunaan uji pada analisis durasi. Tetapi Anda bahkan lebih cepat. Kekhawatiran lain adalah struktur data yang dikelompokkan. Tetapi jawaban Anda persis cocok dengan pertanyaan itu.

— Michael M

Pertama, mengapa Anda mengasumsikan varians yang sama dalam kedua kelompok? Tolong jangan katakan, "Karena itu nyaman." Saya benar-benar ragu bahwa varians grup sama, walaupun dalam kasus ukuran sampel yang sama tidak penting. Tingkat kebebasan Anda akan turun, tetapi Anda tahu Anda memiliki setidaknya 130, jadi siapa yang peduli? Ada banyak pertanyaan yang lebih besar untuk diatasi.

Jika Anda akan mengizinkan (atau meminta) ukuran sampel kelompok yang tidak sama, masalahnya tidak akan memiliki solusi yang unik. Ada dua yang tidak diketahui ( dan dan hanya satu kendala (daya harus setidaknya .) Saya tidak berpikir masalah dapat diselesaikan tanpa kendala tambahan. Ada dua kemungkinan yang jelas. Yang pertama adalah untuk memperbaiki satu dari ukuran sampel (misalnya, sponsor ingin setidaknya 300 pengamatan dari Grup I) lain adalah untuk memperbaiki rasio (misalnya, karena Grup I sepuluh kali lipat dari Grup II, kami ingin ) Sekarang lanjutkan dengan analisis kekuatan Anda. $n_1$ $n_2$ $\phi$ $n_1 = 10\, n_2$

— Dennis
sumber

Bagaimana saya berasumsi bahwa ada varian yang sama? Saya tahu tidak ada ... itu sebabnya saya bertanya tentang kemungkinan menggunakan standar deviasi yang berbeda untuk setiap kelompok untuk melakukan perhitungan, meskipun cara normal melakukan Analisis Daya adalah dengan menggunakan standar deviasi yang dikumpulkan ketika Anda memiliki lebih dari 1 kelompok.

— Hack-R

@NerdLife: Varians gabungan, yang Anda katakan Anda gunakan, sama dengan asumsi varian sama. Cara "normal" untuk melakukannya adalah dengan menganggap bahwa , dan dalam hal ini penggabungan tidak masalah dengan nilai statistik uji. OSL terpengaruh karena derajat kebebasan bergeser antara dan . Tetapi pergeseran itu cukup kecil di atas 30 atau lebih df.

n_{1} = n_{2}

$n_1 = n_2$

\n_{1} - 1

$\n_1-1$

2 (n_{1} - 1)

$2\,(n_1 - 1)$

— Dennis