Latar Belakang Biologis
Seiring waktu, beberapa spesies tanaman cenderung menggandakan seluruh genomnya, mendapatkan salinan tambahan dari setiap gen. Karena ketidakstabilan pengaturan ini, banyak dari gen-gen ini kemudian dihapus, dan genom menata ulang dirinya sendiri dan menjadi stabil, siap untuk digandakan lagi. Peristiwa duplikasi ini dikaitkan dengan peristiwa spesiasi dan invasi, dan teorinya adalah bahwa duplikasi membantu tanaman beradaptasi lebih cepat dengan lingkungan baru mereka.
Lupinus, genus tanaman berbunga, menyerbu Andes di salah satu peristiwa spesiasi paling cepat yang pernah terdeteksi, dan terlebih lagi, tampaknya memiliki lebih banyak duplikat salinan dalam genomnya daripada genus yang paling dekat, Baptisia.
Dan sekarang masalah matematika:
Genom anggota Lupinus dan anggota Baptisia telah diurutkan, menyediakan data mentah sekitar 25.000 gen dalam setiap spesies. Dengan menanyakan terhadap basis data gen dari fungsi yang diketahui, saya sekarang memiliki "tebakan terbaik" untuk fungsi apa yang mungkin dilakukan oleh gen - jadi misalnya, Gene1298 mungkin dikaitkan dengan "metabolisme fruktosa, respons stres garam, respons stres dingin". Saya ingin tahu, apakah ada peristiwa duplikasi antara Baptisia dan Lupinus, apakah kehilangan gen terjadi secara acak, atau apakah gen yang menjalankan fungsi tertentu lebih mungkin disimpan atau dihapus.
Saya memiliki skrip yang akan menampilkan tabel seperti yang ditunjukkan di bawah ini. L * adalah jumlah semua gen Lupinus yang terkait dengan fungsi. L 1+ adalah jumlah gen lupinus yang terkait dengan fungsi di mana setidaknya ada satu salinan duplikat. Saya bisa mendapatkannya untuk menghasilkan L 2+, L 3+ dll, meskipun L 1+ adalah kelompok yang jauh lebih dapat diandalkan daripada L 2+ karena proses pengurutan.
Function | L * | L 1+ | B * | B 1+ |
fructose metabolism | 1000 | 994 | 1290 | 876 |
salt stress | 56 | 45 | 90 | 54 |
etc.
Apa yang ingin saya lakukan adalah menguji, untuk setiap fungsi gen, apakah ada lebih banyak atau lebih sedikit gen dengan duplikat daripada yang mungkin diharapkan secara kebetulan di Lupinus dan Baptisia, dan apakah Lupinus berbeda dari Baptisia dalam rasio yang diamati dengan yang diharapkan.
Hal terbaik yang saya miliki sejauh ini
Studi sebelumnya tentang spesies yang berbeda telah menggunakan Analisis Pengayaan, dengan Fisher Exact Test dan koreksi FDR untuk beberapa sampel, untuk melakukan tes kontingensi pada setiap baris.
Akan lebih baik untuk memperbaiki ini; Saya tidak yakin ini terdengar seperti cara terbaik untuk melakukannya.
Glen_b telah menyarankan menggunakan GLM untuk menganalisis data; Saya telah bermain-main dengan GLM di JMP8, yang menarik, tetapi saya akui tidak terlalu memahami mereka.
Yang mengatakan, saya sedang mencoba menggunakan R sekarang.
Untuk apa saya menggunakan ini?
Ini semula seharusnya sebagai bagian dari proyek penelitian singkat yang saya lakukan di universitas, tetapi sekarang telah menyebar ke proyek anotasi genom yang sangat besar. Mengapa? Karena bioinformatika itu keren. Mampu mengambil string A, T, C dan G dan menggunakannya untuk menyimpulkan informasi tentang peristiwa yang terjadi jutaan tahun yang lalu sungguh menakjubkan.
Tidak perlu dikatakan, saya tidak akan mencoba dan menyerahkan jawaban yang diberikan dengan ramah sebagai karya saya sendiri. Saya akan dengan senang hati menyertakan pemberitahuan di koran jika saya menggunakan metode yang disarankan di sini dalam karya yang diajukan.