Dalam studi asosiasi genom-luas (GWAS):
- Apa komponen utama?
- Mengapa mereka digunakan?
- Bagaimana mereka dihitung?
- Bisakah studi asosiasi genome dilakukan tanpa menggunakan PCA?
Dalam studi asosiasi genom-luas (GWAS):
Jawaban:
Dalam konteks khusus ini, PCA terutama digunakan untuk menjelaskan variasi populasi spesifik dalam distribusi alel pada SNP (atau penanda DNA lainnya, meskipun saya hanya akrab dengan kasus SNP) yang sedang diselidiki. "Substruktur populasi" semacam itu terutama muncul sebagai akibat dari berbagai frekuensi alel minor pada keturunan yang jauh secara genetik (mis. Jepang dan Afrika-hitam atau Eropa-Amerika). Gagasan umum dijelaskan dengan baik dalam Struktur Populasi dan Analisis Eigen , oleh Patterson et al. ( PLoS Genetics 2006, 2 (12)), atau edisi khusus Lancet tentang epidemiologi genetik (2005, 366; sebagian besar artikel dapat ditemukan di web, mulai dengan Cordell & Clayton, Genetic Association Studies ).
Konstruksi sumbu utama mengikuti dari pendekatan klasik terhadap PCA, yang diterapkan pada matriks berskala (individu oleh SNPs) dari genotipe yang diamati (AA, AB, BB; katakanlah B adalah alel minor dalam semua kasus), dengan pengecualian bahwa normalisasi tambahan untuk memperhitungkan pergeseran populasi mungkin diterapkan. Itu semua mengasumsikan bahwa frekuensi alel minor (mengambil nilai dalam {0,1,2}) dapat dianggap sebagai numerik, yaitu kita bekerja di bawah model aditif (juga disebut dosis alelik) atau yang setara yang masuk akal . Karena PC ortogonal berturut-turut akan menjelaskan varians maksimum, ini menyediakan cara untuk menyoroti kelompok individu yang berbeda pada tingkat frekuensi alel minor. Perangkat lunak yang digunakan untuk ini dikenal sebagai Eigenstrat . Ini juga tersedia di Internetegscore()
fungsi dari paket GenABEL R (lihat juga GenABEL.org ). Penting untuk dicatat bahwa metode lain untuk mendeteksi substruktur populasi diusulkan, khususnya rekonstruksi cluster berbasis model (lihat referensi di bagian akhir). Informasi lebih lanjut dapat ditemukan dengan menelusuri proyek Hapmap , dan tutorial yang tersedia berasal dari proyek Bioconductor . (Cari tutorial bagus Vince J Carey atau David Clayton di Google).
Stratifikasi populasi dalam bantuan online.
Mempertimbangkan bahwa analisis eigen memungkinkan untuk mengungkap beberapa struktur pada tingkat individu, kita dapat menggunakan informasi ini ketika mencoba menjelaskan variasi yang diamati dalam fenotipe yang diberikan (atau distribusi apa pun yang mungkin didefinisikan menurut kriteria biner, misalnya penyakit atau kontrol kasus situasi). Secara khusus, kami dapat menyesuaikan analisis kami dengan PC tersebut (yaitu, skor faktor individu), seperti yang diilustrasikan dalam analisis komponen Utama yang dikoreksi untuk stratifikasi dalam studi asosiasi genome-lebar , oleh Price et al. ( Nature Genetics 2006, 38 (8)), dan karya selanjutnya (ada gambar bagus yang menunjukkan sumbu variasi genetik di Eropa dalam geografi cermin Gen di Eropa; Nature 2008; Gambar 1A direproduksi di bawah). Perhatikan juga bahwa solusi lain adalah dengan melakukan analisis bertingkat (dengan memasukkan etnis dalam GLM) - ini sudah tersedia dalam paket snpMatrix , misalnya.
Referensi