Kekuasaan dalam proteomik?


9

Hibah sering memerlukan analisis daya untuk mendukung ukuran sampel yang diusulkan. Dalam proteomik (dan sebagian besar -omik), ada 100 hingga 1000 fitur / variabel yang diukur pada 10 sampel (mungkin 100-an, tetapi tidak mungkin). Juga, diketahui bahwa beberapa unit pengukuran ini (misalnya, jumlah spektral protein) tidak terdistribusi secara normal sehingga kami akan menggunakan uji non-parametrik untuk analisis. Saya telah melihat kekuatan ukuran sampel ditentukan dengan asumsi pengukuran tunggal dan asumsi uji-t, tetapi saya tidak berpikir ini sepenuhnya benar. Masalah lain dengan penghitungan spektral adalah bahwa masing-masing fitur 100-an berada pada skala yang sangat berbeda dengan kesalahan yang sangat berbeda (nilai yang lebih besar memiliki lebih sedikit kesalahan). [Masalah ini dijelaskan dengan baik dalam model perubahan lipatan batas, Mutch et al., 2002 ]

Apa cara yang tepat untuk menentukan kekuatan ukuran sampel yang diusulkan dengan asumsi FDR dan perubahan lipat yang dapat diterima? Menggunakan alat di sini saya dapat menentukan dengan diberikan hal berikut:

  • 300 gen
  • 3 positif palsu
  • 1,4 kali lipat-perbedaan
  • 0,8 daya yang diinginkan
  • 0,7 stdev

membutuhkan ukuran sampel per kelompok 49.

Ini berguna karena saya mengusulkan desain 50v50, tahu bahwa perubahan 1,4 kali lipat cukup diterima, 1% FDR baik-baik saja, dan saya mungkin akan mengukur 300 protein dalam percobaan ini. Masalah perhitungan daya atau ukuran sampel ini akan terus terjadi, jadi alangkah baiknya jika ada pendekatan yang dirujuk.

EDIT: Saya membaca di mana seorang rekan mengusulkan untuk memodelkan jumlah spektral dari distribusi binominal negatif menggunakan fungsi kemungkinan diikuti oleh tes Wald. Pada dasarnya menggunakan data awal untuk mendapatkan estimasi varians protein dan kemudian menghitung perubahan lipatan yang terdeteksi antara kelompok untuk setiap kuantil. Ada juga input FDR (alpha). Jadi, mengingat daya> 80% dan mengatur ukuran sampel, mereka dapat menentukan perubahan lipat yang terdeteksi untuk varians terendah 25%, varians 50% lebih kecil, dan varians tertinggi 25%. Masalahnya adalah saya tidak tahu bagaimana mereka melakukan ini. Tidak yakin apakah membagikan pendekatan ini akan membantu siapa pun dengan jawaban yang memungkinkan.


Beberapa sumber lain yang saya temukan mengenai hal ini: Levin 2011 Dicker et al., 2010
Ben

1
Kalkulator MD Anderson itu tampaknya terlalu optimistis bagi saya. Berapa banyak perbandingan yang dilakukan? (Saya terlalu berkarat pada microarrays: 300 gen dalam desain 50v50 berarti Anda membuat berapa perbandingan ??) Ketika Anda mengatur kalkulator FDR menjadi 3 positif palsu, apakah Anda mengatakan bahwa Anda menetapkan kesalahan positif palsu sehingga hanya 3 diharapkan positif palsu di bawah nol? Itu terlalu ketat untuk lebih dari 60 perbandingan.
AdamO

1
Saya dapat menunjukkan kepada Anda bagaimana ini akan dilakukan dalam R tetapi saya hanya perlu latar belakang tentang biologi.
AdamO

Jawaban:


1

Dalam aplikasi (terutama aplikasi etis, di mana Anda harus melakukan studi kekuatan) Saya suka menggunakan referensi ini [Wang dan Chen 2004], karena itu menjelaskan konsep di balik perhitungan daya untuk data throughput tinggi (apa pun data sebenarnya) .

Intinya, selain parameter yang biasa (α, β, N, ukuran efek) Anda menggunakan dua parameter tambahan, λ dan η. Yang terakhir, η, adalah nomor yang diasumsikan dari gen yang benar-benar diubah, dan λ adalah fraksi dari gen yang benar-benar diubah yang ingin Anda deteksi. Sangat mudah untuk memperluas perhitungan daya yang diketahui ke data throughput tinggi menggunakan pendekatan ini.

Wang, Sue-Jane, dan James J. Chen. "Ukuran sampel untuk mengidentifikasi gen yang diekspresikan berbeda dalam percobaan microarray." Jurnal Komputasi Biologi 11,4 (2004): 714-726.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.