Semoga seseorang di forum ini dapat membantu saya mengatasi masalah mendasar ini dalam studi ekspresi gen.
Saya melakukan sekuensing dalam jaringan eksperimental dan kontrol. Saya kemudian memperoleh nilai pengayaan lipat gen dalam sampel eksperimental alih kontrol. Genom referensi memiliki ~ 15.000 gen. 3.000 dari 15.000 gen diperkaya di atas batas tertentu dalam sampel yang saya minati dibandingkan dengan kontrol.
Jadi: A = total populasi gen = 15.000 B = subpopulasi yang diperkaya RNA-Seq = 3.000.
Dalam percobaan chip-CHIP sebelumnya, saya menemukan 400 gen yang diperkaya oleh chip-CHIP. Dari 400 gen chip ChIP, 100 gen berada dalam kelompok 3.000 transkrip RNA-Seq yang diperkaya.
Jadi: C = total # gen yang diperkaya chip-chip = 400.
Berapa probabilitas bahwa gen 100 chip-CHIP saya akan diperkaya oleh RNA-Seq secara kebetulan? Dengan kata lain, apa cara paling bijaksana untuk menghitung jika pengamatan saya tumpang tindih antara B dan C (100 gen) lebih baik daripada yang diperoleh secara kebetulan saja? Dari apa yang saya baca sejauh ini, cara terbaik untuk menguji ini adalah dengan menggunakan distribusi hypergeometric.
Saya menggunakan kalkulator online (stattrek.com) untuk mengatur tes distribusi hypergeometrik dengan parameter berikut: - ukuran pop = 15.000 - # keberhasilan dalam populasi = 3.000 - ukuran sampel = 400, - # keberhasilan dalam sampel = 100. Saya mendapatkan yang berikut untuk Probabilitas Hypergeometrik P (x = 100) = 0,00224050636447747
Jumlah aktual gen yang tumpang tindih antara B dan C = 100. Apakah ini lebih baik daripada kebetulan saja? Tidak terlihat seperti itu jika peluang satu gen diperkaya adalah 1: 5 (3.000 dari 15.000). Itu sebabnya saya tidak mengerti kenapa P saya (x = 100) yang saya hitung di atas adalah 0,0022. Itu berarti peluang 0,2% dari tumpang tindih yang terjadi secara kebetulan. Bukankah ini seharusnya jauh lebih tinggi?
Jika saya mengambil sampel 400 gen acak dari daftar besar 15.000, maka setiap 80 gen ini diharapkan akan diperkaya secara kebetulan (1: 5). Jumlah gen yang sebenarnya tumpang tindih adalah 100, jadi ini hanya sedikit lebih baik daripada secara kebetulan.
Saya juga mencoba menemukan solusi menggunakan fungsi dhyper atau phyper dalam R (menggunakan apa yang saya lihat di posting lain): A = semua gen dalam genom (15.000) B = gen yang diperkaya Seah-RNA (3.000) C = ChIP -cip gen yang diperkaya (400) Inilah input / output R (diadaptasi dari posting stackexchange sebelumnya):
> totalpop <- 15000
> sample1 <- 3000
> sample2 <- 400
> dhyper(0:2, sample1, totalpop-sample1, sample2)
[1] 4.431784e-40 4.584209e-38 2.364018e-36
> phyper(-1:2, sample1, totalpop-sample1, sample2)
[1] 0.000000e+00 4.431784e-40 4.628526e-38 2.410304e-36
Saya tidak yakin bagaimana menafsirkan angka-angka ini. Saya percaya 2.36e-36 adalah probabilitas mendapatkan tumpang tindih antara B dan C secara kebetulan? Tetapi ini tidak masuk akal, karena probabilitas itu jauh lebih dekat dengan 1: 5. Jika saya mulai dengan 15.000 gen, 3.000 akan diperkaya. Demikian pula, jika saya mulai dengan 400 gen chip ChIP, 80 di antaranya harus diperkaya dalam RNA-Seq saja karena peluang pengayaan 1: 5 dalam kumpulan data itu.
Apa cara yang tepat untuk menghitung nilai-p, menurut distribusi hypergeometrik, untuk tumpang tindih B dan C?