Tentang penggunaan korelasi tertimbang dalam data survei teragregasi

Saya menganalisis data dari dua survei yang saya gabungkan bersama:

Survei staf sekolah, untuk tahun 2005-06 dan 2007-08
Survei siswa sekolah, untuk tahun 2005-06 hingga 2008-09

Untuk kedua set data ini, saya memiliki pengamatan (di tingkat siswa atau staf) dari 3 distrik sekolah yang berbeda, masing-masing memiliki sampel yang representatif per tahun di dalam distrik sekolah mereka yang berbeda.

Untuk analisis, saya menggabungkan data siswa menjadi dua periode 2 tahun (2005-07 dan 2007-09). Kemudian saya kemudian akan menyunting setiap set data untuk mendapatkan persentase staf atau siswa yang menjawab pertanyaan sesuai dengan cutoffs (misalnya, apakah mereka menjawab dalam afirmatif, "Setuju", atau apakah siswa menandai bahwa mereka menggunakan alkohol, dll.) Jadi ketika saya menggabungkan kumpulan data tingkat staf dan siswa, sekolah adalah unit analisis, dan saya hanya memiliki 1 pengamatan per sekolah per periode waktu 2 tahun (mengingat sekolah tidak kehilangan data untuk periode waktu tertentu ).

Tujuan saya adalah memperkirakan hubungan antara tanggapan staf dan siswa. Sejauh ini, rencana saya adalah untuk mendapatkan koefisien korelasi Pearson antara semua variabel (karena semuanya merupakan tanggapan berkelanjutan yang mewakili persentase) untuk setiap distrik sekolah secara terpisah satu sama lain (karena ini menghilangkan asumsi generalisasi untuk kabupaten lain dalam kumpulan data ini) . Untuk melakukan ini, saya rata-rata data kabupaten selama dua tahun untuk mendapatkan hanya satu pengamatan per sekolah.

Pertanyaan:

Apakah ini rencana analisis yang tepat? Apakah ada metode lain yang dapat saya gunakan yang dapat memberi saya inferensi atau kekuatan yang lebih baik?
Jika rencana saya sesuai, haruskah saya memperoleh korelasi berbobot berdasarkan pada pendaftaran sekolah (karena ada lebih banyak sekolah yang lebih kecil daripada besar yang akan berkontribusi secara tidak proporsional terhadap koefisien korelasi)?

Saya telah bertanya kepada administrator data tentang ini, dan dia menyebutkan bahwa faktor utama yang menentukan perlunya pembobotan data saya adalah apakah saya pikir ukuran sekolah mempengaruhi tingkat korelasi dan apakah interpretasi saya akan berada di tingkat siswa atau sekolah. Saya pikir interpretasi saya akan berada di tingkat sekolah (misalnya, "sekolah dengan persentase staf yang menjawab seperti ini berkorelasi dengan persentase siswa yang merespons dengan cara ini ...").

correlation survey multilevel-analysis

— Iris Tsui
sumber

Saya membayangkan ini adalah sejarah sekarang, tetapi untuk berjaga-jaga ...

1) Ya, ini sepertinya tepat. Pertanyaan penelitian Anda harus "apakah sikap / perilaku guru di sekolah terkait dengan sikap / perilaku siswa di sekolah itu?" Jika ini pertanyaan Anda, sekolah adalah unit analisis yang tepat (dan bagaimana pun, tidak akan ada cara untuk mencocokkan masing-masing guru dengan siswa).

Saya hanya akan menambahkan peringatan tentang penggunaan koefisien korelasi Pearson, tidak terkait dengan pertanyaan unit analisis atau strategi pengambilan sampel. Koefisien korelasi tidak dapat mengambil hubungan non-linier, dapat menyesatkan untuk ditafsirkan, mudah terdistorsi oleh beberapa pencilan, dan kesimpulan klasik berdasarkan pada itu tergantung pada Normalitas (yang tidak akan sesuai dengan data proporsi Anda, meskipun mungkin perkiraan yang masuk akal). Setidaknya saya akan dengan hati-hati menggunakan metode grafis untuk memeriksa bahwa ini adalah pendekatan yang masuk akal dan tidak ada cara yang lebih baik untuk menyimpulkan hubungan antara dua variabel.

2) Saya tidak berpikir Anda perlu mempertimbangkan data tetapi saya pasti akan mencobanya (dan berharap itu tidak mengubah hasil). Tapi saya akan mempertimbangkan ukuran sampel Anda di sekolah, bukan berdasarkan ukuran pendaftaran. Alasannya adalah tentang estimasi daripada unit analisis Anda atau kebutuhan untuk "mempertimbangkan populasi". Anda hanya memiliki perkiraan tanggapan guru dan siswa yang sebenarnya di setiap sekolah, dengan mengambil sampel terbatas Anda. Sekolah tempat Anda memiliki sampel yang lebih besar, Anda lebih percaya diri dalam perkiraan Anda, dan karenanya akan lebih baik jika mereka menganggapnya lebih serius dalam menyesuaikan korelasi Anda atau regresi linier.

— Peter Ellis
sumber

Terima kasih atas tanggapan konfirmasi Anda serta saran Anda. Saya akhirnya tidak menggunakan jenis analisis ini karena berbagai alasan (waktu dan sumber daya, termasuk) dan sebagai gantinya, menyajikan hal-hal secara deskriptif saja. Saya merasa tidak nyaman dalam mencoba membuat kesimpulan terkait korelasi tentang tren hanya menggunakan dua titik waktu, jadi saya pergi untuk rute yang aman. Sayangnya, itu berarti data tidak banyak bicara tentang tujuan penelitian saya. Baiklah.

— Iris Tsui