Itu pertanyaan yang menarik. Grup penelitian saya telah menggunakan distribusi yang Anda rujuk selama beberapa tahun dalam perangkat lunak bioinformatika kami yang tersedia untuk umum. Sejauh yang saya tahu, distribusinya tidak memiliki nama dan tidak ada literatur di sana. Sementara makalah oleh Chandra et al (2012) yang dikutip oleh Aksakal sangat terkait, distribusi yang mereka anggap terbatas pada nilai integer untuk dan mereka tampaknya tidak memberikan ekspresi eksplisit untuk pdf.r
Untuk memberi Anda latar belakang, distribusi NB sangat banyak digunakan dalam penelitian genom untuk memodelkan data ekspresi gen yang timbul dari RNA-seq dan teknologi terkait. Data hitungan muncul ketika jumlah urutan DNA atau RNA dibaca diekstraksi dari sampel biologis yang dapat dipetakan ke masing-masing gen. Biasanya ada puluhan juta bacaan dari masing-masing sampel biologis yang dipetakan menjadi sekitar 25.000 gen. Atau orang mungkin memiliki sampel DNA dari mana membaca dipetakan ke jendela genom. Kami dan yang lainnya telah mempopulerkan pendekatan di mana NB glm dipasang pada urutan pembacaan untuk setiap gen, dan metode Bayes empiris digunakan untuk memoderasi penduga pendispersi genised (dispersiϕ = 1/r). Pendekatan ini telah dikutip dalam puluhan ribu artikel jurnal dalam literatur genom, sehingga Anda bisa mendapatkan ide tentang seberapa banyak digunakan.
Grup saya menyimpan paket perangkat lunak edgeRR. Beberapa tahun yang lalu kami merevisi seluruh paket sehingga berfungsi dengan jumlah fraksional, menggunakan versi kontinu PMF NB. Kami hanya mengkonversi semua koefisien binomial dalam NB pmf ke rasio fungsi gamma dan menggunakannya sebagai pdf kontinu (campuran). Motivasi untuk ini adalah bahwa penghitungan pembacaan urutan kadang-kadang bisa fraksional karena (1) pemetaan bacaan yang ambigu ke transkriptom atau genom dan / atau (2) normalisasi penghitungan untuk mengoreksi efek teknis. Jadi penghitungan kadang-kadang penghitungan yang diharapkan atau penghitungan yang diperkirakan, bukan penghitungan yang diamati. Dan tentu saja jumlah baca bisa menjadi nol dengan probabilitas positif. Pendekatan kami memastikan bahwa hasil inferensi dari perangkat lunak kami kontinu dalam hitungan, sesuai persis dengan hasil NB diskrit ketika jumlah yang diperkirakan terjadi adalah bilangan bulat.
Sejauh yang saya tahu, tidak ada bentuk tertutup untuk konstanta normalisasi dalam pdf, juga tidak ada bentuk tertutup untuk mean atau varian. Ketika seseorang menganggap bahwa tidak ada bentuk tertutup untuk integral
(konstanta Fransen-Robinson) jelas bahwa tidak ada integral integral dari kontinu NB pdf juga. Namun menurut saya, rumus mean dan varians tradisional untuk NB harus terus menjadi perkiraan yang baik untuk NB kontinu. Selain itu konstanta normalisasi harus bervariasi perlahan-lahan dengan parameter dan karenanya dapat diabaikan karena memiliki pengaruh yang dapat diabaikan dalam perhitungan kemungkinan maksimum.
∫∞01Γ ( x )dz
Seseorang dapat mengkonfirmasi hipotesis ini dengan integrasi numerik. Distribusi NB muncul dalam bioinformatika sebagai campuran gamma dari distribusi Poisson (lihat artikel binomial Wikipedia Wikipedia atau McCarthy et al di bawah). Distribusi NB kontinu muncul hanya dengan mengganti distribusi Poisson dengan analog kontinu dengan pdf
untuk mana adalah konstanta normalisasi untuk memastikan kerapatan terintegrasi ke 1. Misalkan misalnya bahwa . Distribusi Poisson memiliki pmf sama dengan pdf di atas pada bilangan bulat non-negatif dan, dengan
f( x ; λ ) = a ( λ ) e- λλxΓ ( x + 1 )
x ≥ 0a(λ)λ=10λ=10, rerata Poisson dan varians sama dengan 10. Integrasi numerik menunjukkan bahwa dan rerata dan varian dari distribusi kontinu sama dengan 10 hingga sekitar 4 angka signifikan. Jadi konstanta normalisasi hampir 1 dan mean dan varians hampir persis sama dengan untuk distribusi Poisson diskrit. Perkiraan ditingkatkan bahkan lebih jika kita menambahkan koreksi kontinuitas, mengintegrasikan dari ke daripada dari 0. Dengan koreksi kontinuitas, semuanya benar (konstanta normalisasi adalah 1 dan momen setuju dengan Poisson diskrit) menjadi sekitar 6 angka.
a(10)=1/0.999875−1/2∞
Dalam paket edgeR kami, kami tidak perlu membuat penyesuaian untuk fakta bahwa ada massa nol, karena kami selalu bekerja dengan kemungkinan log bersyarat atau dengan perbedaan kemungkinan log dan setiap fungsi delta membatalkan penghitungan. Ini adalah BTW tipikal untuk glms dengan distribusi probabilitas campuran. Atau, kita dapat mempertimbangkan distribusi tidak memiliki massa di nol tetapi memiliki dukungan mulai dari -1/2 daripada di nol. Baik perspektif teoretis mengarah pada perhitungan yang sama dalam praktiknya.
Meskipun kami menggunakan distribusi NB kontinu secara aktif, kami belum menerbitkan apa pun di dalamnya secara eksplisit. Artikel-artikel yang dikutip di bawah ini menjelaskan pendekatan NB untuk data genomik tetapi tidak membahas distribusi NB terus menerus secara eksplisit.
Singkatnya, saya tidak terkejut bahwa artikel yang Anda pelajari memperoleh hasil yang wajar dari versi berkelanjutan dari pdf NB, karena itulah pengalaman kami juga. Persyaratan utama adalah bahwa kita harus memodelkan mean dan varians dengan benar dan itu akan baik-baik saja asalkan data, apakah bilangan bulat atau tidak, menunjukkan bentuk yang sama dari hubungan varian-kuadrat yang sama dengan distribusi NB.
Referensi
Robinson, M., dan Smyth, GK (2008). Estimasi sampel kecil dari dispersi binomial negatif, dengan aplikasi untuk data SAGE . Biostatistik 9, 321-332.
Robinson, MD, dan Smyth, GK (2007). Tes statistik yang dimoderasi untuk menilai perbedaan dalam kelimpahan tag . Bioinformatika 23, 2881-2887.
McCarthy, DJ, Chen, Y, Smyth, GK (2012). Analisis ekspresi diferensial dari percobaan multifaktor RNA-Seq sehubungan dengan variasi biologis . Penelitian Asam Nukleat 40, 4288-4297.
Chen, Y, Lun, ATL, dan Smyth, GK (2014). Analisis ekspresi diferensial dari eksperimen RNA-seq kompleks menggunakan edgeR. Dalam: Analisis Statistik Data Urutan Generasi Selanjutnya, Somnath Datta dan Daniel S Nettleton (eds), Springer, New York, halaman 51--74. Pracetak
Lun, ATL, Chen, Y, dan Smyth, GK (2016). Ini DE-licious: resep untuk analisis ekspresi diferensial dari eksperimen RNA-seq menggunakan metode kuasi-kemungkinan di edgeR. Metode dalam Biologi Molekuler 1418, 391-416. Pracetak
Chen Y, Lun ATL, dan Smyth, GK (2016). Dari membaca ke gen ke jalur: analisis ekspresi diferensial percobaan RNA-Seq menggunakan Rsubread dan pipa kuasi-kemungkinan edgeR . F1000Research 5, 1438.