Saya tidak tahu apa-apa tentang studi ekspresi gen, tetapi saya memang memiliki minat dalam beberapa inferensi jadi saya akan mengambil risiko jawaban pada bagian dari pertanyaan ini.
Secara pribadi, saya tidak akan mendekati masalah dengan cara itu. Saya akan menyesuaikan tingkat kesalahan dalam studi asli, menghitung tumpang tindih baru dan meninggalkan tes di akhir saja. Jika jumlah gen yang diekspresikan secara berbeda (dan hasil lain yang Anda gunakan) sudah berdasarkan pada tes yang disesuaikan, saya berpendapat bahwa Anda tidak perlu melakukan apa pun.
Jika Anda tidak dapat kembali ke data asli dan benar-benar ingin menyesuaikan nilai- p , Anda memang dapat mengalikannya dengan jumlah tes tetapi saya tidak melihat mengapa itu harus ada hubungannya dengan ukuran list2. Akan lebih masuk akal untuk menyesuaikan dengan jumlah total tes yang dilakukan dalam kedua studi (yaitu dua kali populasi). Ini akan menjadi brutal.
Untuk menyesuaikan nilai- p dalam R, Anda dapat menggunakan p.adjust(p)
, di mana p
merupakan vektor nilai- p .
p.adjust(p, method="bonferroni") # Bonferroni method, simple multiplication
p.adjust(p, method="holm") # Holm-Bonferroni method, more powerful than Bonferroni
p.adjust(p, method="BH") # Benjamini-Hochberg
Seperti yang dinyatakan dalam file bantuan, tidak ada alasan untuk tidak menggunakan Holm-Bonferroni di atas Bonferroni karena juga memberikan kontrol yang kuat dari tingkat kesalahan kekeluargaan dalam hal apa pun tetapi lebih kuat. Benjamini-Hochberg mengontrol tingkat penemuan palsu, yang merupakan kriteria yang kurang ketat.
Diedit setelah komentar di bawah ini:
Semakin saya memikirkan masalah, semakin saya berpikir bahwa koreksi untuk beberapa perbandingan tidak perlu dan tidak sesuai dalam situasi ini. Di sinilah gagasan "keluarga" hipotesis muncul. Tes terakhir Anda tidak cukup sebanding dengan semua tes sebelumnya, tidak ada risiko "memanfaatkan peluang" atau hasil signifikan memetik ceri, hanya ada satu uji minat dan sah untuk menggunakan tingkat kesalahan biasa untuk yang satu ini.
Bahkan jika Anda mengoreksi secara agresif untuk banyak tes yang dilakukan sebelumnya, Anda masih tidak akan secara langsung menangani masalah utama, yang merupakan fakta bahwa beberapa gen di kedua daftar mungkin telah terdeteksi secara palsu seperti yang diekspresikan secara berbeda. Hasil tes sebelumnya masih "berdiri" dan jika Anda ingin menafsirkan hasil ini sambil mengendalikan tingkat kesalahan keluarga, Anda masih perlu memperbaiki semuanya juga.
Tetapi jika hipotesis nol benar untuk semua gen, setiap hasil signifikan akan menjadi positif palsu dan Anda tidak akan mengharapkan gen yang sama ditandai lagi di sampel berikutnya. Tumpang tindih antara kedua daftar karena itu akan terjadi hanya secara kebetulan dan inilah yang diuji berdasarkan distribusi hypergeometric. Jadi, bahkan jika daftar gen adalah sampah lengkap, hasil tes terakhir itu aman. Secara intuitif, tampaknya apa pun di antaranya (campuran hipotesis benar dan salah) juga harus baik-baik saja.
Mungkin seseorang dengan lebih banyak pengalaman di bidang ini mungkin mempertimbangkan tetapi saya pikir penyesuaian hanya akan menjadi perlu jika Anda ingin membandingkan jumlah total gen yang terdeteksi atau mencari tahu mana yang diekspresikan secara berbeda, yaitu jika Anda ingin menafsirkan ribuan individu tes dilakukan di setiap studi.