Ini adalah masalah rumit yang memperkenalkan banyak masalah terkait: 1) dengan jelas menetapkan hipotesis, 2) memahami apa mekanisme kausal (mungkin) yang mendasari efek hipotesis dan 3) pilihan / gaya presentasi.
Anda benar sedang itu, jika kita menerapkan praktek statistik suara, klaim bahwa "kelompok yang sama", salah satu harus melakukan tes kesetaraan. Namun, uji kesetaraan mengalami masalah yang sama dengan mitra NHST mereka: daya hanyalah refleksi dari ukuran sampel dan jumlah perbandingan: kami mengharapkan perbedaan, tetapi tingkat dan efeknya pada analisis utama jauh lebih penting.
Ketika dihadapkan pada situasi-situasi ini, perbandingan-perbandingan dasar hampir selalu merah. Metode yang lebih baik (sains dan statistik) dapat diterapkan. Saya memiliki beberapa konsep saham / tanggapan yang saya pertimbangkan ketika menjawab pertanyaan seperti ini.
Kolom "total" lebih penting daripada kolom split-by-treatment; diskusi dijamin dari nilai - nilai tersebut.
Dalam uji klinis, sampel keselamatan biasanya dianalisis. Ini adalah bagian dari mereka yang pertama kali didekati, kemudian disetujui, kemudian diacak, dan akhirnya terpapar pada setidaknya satu iterasi kontrol atau perawatan. Dalam proses itu, kita menghadapi berbagai tingkat bias partisipasi.
Mungkin aspek yang paling penting dan dihilangkan dari penelitian ini adalah menyajikan Tabel 1 hasil agregat . Ini mencapai tujuan paling penting dari Tabel 1: menunjukkan kepada peneliti lain bagaimana generalisasi sampel penelitian adalah untuk populasi yang lebih luas di mana hasilnya berlaku.
Saya menemukan itu mengejutkan bagaimana simpatisan peneliti, pembaca, dan peninjau pada tren tangensial dalam karakteristik pasien ketika ada benar-benar mengabaikan kriteria inklusi / eksklusi dan generalisasi sampel.
Saya malu untuk mengatakan saya adalah seorang analis pada persidangan yang mengabaikan ini sebagai masalah. Kami merekrut pasien dan kemudian, karena masalah logistik, kami menunggu hampir setahun sebelum menerapkan intervensi. Tidak hanya diagram selir menunjukkan penurunan besar antara periode-periode itu, tetapi sampel bergeser. Hasilnya sebagian besar tidak bekerja / menganggur, lebih tua, dan lebih sehat daripada orang-orang yang ingin kami jangkau. Saya memiliki keprihatinan mendalam tentang generalisasi dari penelitian ini, tetapi sulit untuk melobi agar keprihatinan itu diketahui.
Kekuatan dan kesalahan Tipe-I dari tes untuk mendeteksi ketidakseimbangan dalam karakteristik awal tergantung pada jumlah aktual karakteristik
Inti dari penyajian daftar variabel variabel yang terperinci, seperti yang disebutkan sebelumnya, adalah untuk memberikan gambaran menyeluruh tentang sampel; riwayat pasien, laboratorium, obat-obatan, dan demografi mereka. Ini semua adalah aspek yang digunakan dokter untuk merekomendasikan perawatan kepada pasien. Mereka semua diyakini memprediksi hasilnya. Tetapi jumlah faktor seperti itu mengejutkan. Sebanyak 30 variabel berbeda dapat dibandingkan. Risiko kasar kesalahan Tipe I adalah 1- (1-0.05) ^ 30 = 0,79. Bonferroni atau koreksi permutasi disarankan jika pengujian harus dilakukan.
Pengujian statistik dalam bentuk paling murni dimaksudkan untuk tidak memihak, dan seharusnya ditentukan sebelumnya. Namun, pilihan dan presentasi karakteristik dasar seringkali relatif. Saya merasa pendekatan yang terakhir ini tepat: jika kita menemukan, seperti dalam percobaan saya, ada sifat-sifat menarik yang menggambarkan sampel secara efektif, kita harus memiliki kebebasan untuk memilih untuk menyajikan nilai-nilai tersebut secara ad hoc . Pengujian dapat dilakukan jika ada nilainya, tetapi peringatan biasanya berlaku: mereka bukan hipotesis yang menarik, ada risiko kebingungan yang tinggi seperti apa yang menyiratkan hasil signifikan dan tidak signifikan, dan hasilnya lebih merupakan refleksi dari ukuran sampel dan pertimbangan presentasi daripada kebenaran apa pun.
Rerandomisasi dapat dilakukan, tetapi hanya sebelum pasien terkena pengobatan
Seperti yang saya sebutkan, sampel yang dianalisis biasanya sampel keselamatan. Namun, rerandomisasi adalah pendekatan yang sangat dianjurkan dan secara teoritis konsisten untuk pasien yang belum pernah terpapar pengobatan. Ini hanya berlaku untuk pengaturan di mana pendaftaran batch dilakukan. Di sini, 100 peserta direkrut dan diacak. Jika, misalnya, probabilitas menetapkan proporsi orang tua yang tinggi ke satu kelompok, maka sampel dapat direrandomisasi untuk menyeimbangkan usia. Ini tidak dapat dilakukan dengan pendaftaran berurutan atau terhuyung-huyung, yang merupakan pengaturan di mana sebagian besar uji coba dilakukan. Ini karena waktu pendaftaran cenderung untuk memprediksi status pasien dengan "bias" kasus yang lazim (insiden membingungkan dan kriteria kelayakan yang lazim).
Desain yang seimbang bukanlah persyaratan untuk inferensi yang valid
Asumsi pengacakan mengatakan bahwa, secara teoritis, semua peserta akan memiliki rata-rata distribusi kovariat yang sama. Namun, seperti yang disebutkan sebelumnya, ketika membandingkan 30 level atau lebih, probabilitas kumulatif ketidakseimbangan tidak dapat diabaikan. Faktanya, ketidakseimbangan kovariat mungkin tidak relevan ketika mempertimbangkan keseluruhan.
Jika pengacakan itu adil, kita mungkin melihat usia meningkat pada kelompok perlakuan, tetapi merokok meningkat pada kelompok kontrol: keduanya berkontribusi secara individual terhadap risiko hasil. Apa yang diperlukan untuk inferensi yang efisien dan valid adalah bahwa skor kecenderungan seimbang antara kelompok. Ini adalah kondisi yang jauh lebih lemah. Sayangnya, kecenderungan tidak dapat diperiksa untuk keseimbangan tanpa model risiko. Namun, mudah untuk melihat bahwa kecenderungan seperti itu tergantung pada kombinasi kovariat, dan kemungkinan ketidakseimbangan dalam kecenderungan dalam sampel acak jauh lebih kecil kemungkinannya, meskipun tidak mungkin untuk menunjukkan dengan tepat.
Jika model risiko diketahui, atau ada prediksi kuat dari hasilnya, RCT yang lebih efisien dan valid dilakukan dengan hanya menyesuaikan faktor-faktor tersebut terlepas dari apakah mereka seimbang antara kelompok perlakuan.
Salah satu makalah favorit saya, 7 mitos uji coba terkontrol secara acak , membahas hal ini. Penyesuaian meningkatkan efisiensi ketika variabel penyesuaian sangat memprediksi hasil. Ternyata bahkan dengan keseimbangan 50/50 sempurna, menggunakan katakanlah pemblokiran acak, atau bahkan sebagai kebetulan tentang bagaimana pengacakan dilakukan, penyesuaian akan menyusut CI, membutuhkan lebih sedikit peserta untuk memiliki studi yang sama kuatnya; ini mengurangi biaya dan risiko. Sangat mengejutkan bahwa ini tidak dilakukan lebih sering.
Studi observasional membutuhkan kontrol untuk mengacaukan terlepas dari apa yang ditunjukkan Tabel 1
Asumsi pengacakan menghilangkan perancu. Dengan pengobatan non-acak, ada yang membingungkan. Perancu adalah variabel yang merupakan penyebab dari hasil dan memprediksi penerimaan pengobatan kuasi-eksperimental. Tidak ada tes untuk menentukan variabel mana yang merupakan perancu. Risiko mengintip ke dalam data untuk menjawab pertanyaan-pertanyaan ini adalah bahwa perancu secara virtual tidak dapat dibedakan dari mediator atau colliders tanpa pengukuran nilai longitudinal yang benar-benar sempurna (dan bahkan kemudian ...). Menyesuaikan mediator melemahkan efek apa pun, penyesuaian collider dapat menyebabkan segala jenis bias. Lebih jauh, seseorang tidak perlu menyesuaikan total perancu, tetapi mereka harus menghapus kriteria pintu belakang.
Misalnya, dalam studi fungsi paru-paru dan merokok pada remaja: anak-anak yang lebih besar lebih cenderung merokok, tetapi karena mereka lebih tinggi, fungsi paru-paru mereka lebih besar. Ternyata penyesuaian untuk ketinggian saja sudah cukup untuk menghilangkan pembaur karena memenuhi kriteria pintu belakang. Penyesuaian lebih lanjut untuk usia hanya kehilangan efisiensi. Namun, hanya memeriksa "keseimbangan" tabel 1 pada perokok dan non-perokok akan menunjukkan bahwa baik usia dan tinggi badan "tidak seimbang" dan karenanya harus dikontrol. Itu tidak benar.