Sebagai bagian dari tugas Universitas, saya harus melakukan pra-pemrosesan data pada kumpulan data mentah multivariat (> 10) yang cukup besar. Saya bukan ahli statistik dalam arti kata, jadi saya agak bingung tentang apa yang terjadi. Permintaan maaf sebelumnya untuk apa yang mungkin merupakan pertanyaan sederhana yang menggelikan - kepalaku berputar setelah melihat berbagai jawaban dan mencoba mengarungi statistik-berbicara.
Saya pernah membaca itu:
- PCA memungkinkan saya mengurangi dimensi data saya
- Ia melakukannya dengan menggabungkan / menghapus atribut / dimensi yang banyak berkorelasi (dan dengan demikian sedikit tidak perlu)
- Ia melakukannya dengan mencari vektor eigen pada data kovarians (berkat tutorial yang bagus yang saya ikuti untuk mempelajari ini)
Bagus sekali.
Namun, saya benar-benar berjuang untuk melihat bagaimana saya bisa menerapkan ini secara praktis ke data saya. Misalnya (ini bukan set data yang akan saya gunakan, tetapi upaya contoh yang layak dapat digunakan oleh orang-orang), jika saya memiliki set data dengan sesuatu seperti ...
PersonID Sex Age Range Hours Studied Hours Spent on TV Test Score Coursework Score
1 1 2 5 7 60 75
2 1 3 8 2 70 85
3 2 2 6 6 50 77
... ... ... ... ... ... ...
Saya tidak yakin bagaimana saya akan menafsirkan hasil apa pun.
Sebagian besar tutorial yang saya lihat online tampaknya memberi saya pandangan yang sangat matematis tentang PCA. Saya telah melakukan beberapa penelitian ke dalamnya dan mengikuti mereka melalui - tetapi saya masih tidak sepenuhnya yakin apa artinya ini bagi saya, yang hanya mencoba untuk mengekstrak beberapa bentuk makna dari tumpukan data yang saya miliki di depan saya.
Cukup melakukan PCA pada data saya (menggunakan paket statistik) mengeluarkan matriks angka NxN (di mana N adalah jumlah dimensi asli), yang sepenuhnya Yunani bagi saya.
Bagaimana saya bisa melakukan PCA dan mengambil apa yang saya dapatkan dengan cara yang kemudian dapat saya masukkan ke dalam bahasa Inggris sederhana dalam hal dimensi aslinya?