Karya Gary King, khususnya bukunya "Solusi untuk Masalah Inferensi Ekologis" (dua bab pertama tersedia di sini ), akan menarik (serta perangkat lunak yang menyertainya yang ia gunakan untuk inferensi ekologis). King menunjukkan dalam bukunya bagaimana perkiraan model regresi menggunakan data agregat dapat ditingkatkan dengan memeriksa batas potensial pengelompokan tingkat yang lebih rendah berdasarkan pada data agregat yang tersedia. Fakta bahwa sebagian besar data Anda adalah pengelompokan kategorikal membuatnya dapat menerima teknik ini. (Meskipun jangan tertipu, itu bukan solusi yang mahakuasa seperti yang Anda harapkan diberi judul!) Lebih banyak karya saat ini ada, tetapi buku King adalah IMO tempat terbaik untuk memulai.
Kemungkinan lain adalah hanya untuk mewakili batas potensial dari data itu sendiri (dalam peta atau grafik). Jadi misalnya Anda mungkin memiliki distribusi jenis kelamin yang dilaporkan pada tingkat agregat (katakanlah 5.000 pria dan 5.000 wanita), dan Anda tahu tingkat agregat ini mencakup 2 unit area kecil populasi yang berbeda, 9.000 dan 1.000 individu. Anda kemudian dapat mewakili ini sebagai tabel kontingensi formulir;
Men Women
Unit1 ? ? 9000
Unit2 ? ? 1000
5000 5000
Meskipun Anda tidak memiliki informasi dalam sel untuk agregasi level yang lebih rendah, dari total marginal kami dapat menyusun nilai potensial minimum atau maksimum untuk setiap sel. Jadi, dalam contoh ini Men X Unit1
sel hanya dapat mengambil nilai di antara 4.000 dan 5.000 (Kapan saja distribusi marjinal lebih tidak merata, semakin kecil interval nilai yang mungkin diambil sel). Rupanya mendapatkan batas-batas tabel lebih sulit daripada yang saya perkirakan ( Dobra & Fienberg, 2000 ), tetapi tampaknya fungsi tersedia di eiPack
perpustakaan di R ( Lau et al., 2007, hlm. 43 ).
Analisis multivariat dengan data tingkat agregat sulit, karena bias agregasi pasti terjadi dengan jenis data ini. (Singkatnya, saya hanya akan menggambarkan bias agregasi karena banyak proses menghasilkan data tingkat individu yang berbeda dapat menghasilkan asosiasi tingkat agregat) Serangkaian artikel di American Sociological Reviewpada tahun 1970-an adalah beberapa referensi favorit saya untuk topik (Firebaugh, 1978; Hammond, 1973; Hannan & Burstein, 1974) meskipun sumber kanonik pada topik tersebut mungkin (Fotheringham & Wong, 1991; Oppenshaw, 1984; Robinson, 1950) . Saya benar-benar berpikir bahwa mewakili batasan potensial yang dapat diambil oleh data berpotensi menimbulkan hasutan, meskipun Anda benar-benar dihalangi oleh keterbatasan data agregat untuk melakukan analisis multivariat. Namun itu tidak menghentikan siapa pun untuk melakukannya dalam ilmu sosial (baik atau buruk!)
Perhatikan, (seperti yang dikatakan Charlie dalam komentar) bahwa "solusi" King telah menerima banyak kritik (Anselin & Cho, 2002; Freedman et al., 1998). Meskipun kritik-kritik ini tidak bisa dikatakan tentang matematika metode King, lebih-lebih dalam hal situasi di mana metode King masih gagal untuk menjelaskan bias agregasi (dan saya setuju dengan Freedman dan Anselin dalam situasi di mana data untuk ilmu-ilmu sosial masih diduga jauh lebih umum daripada yang memenuhi asumsi King). Ini adalah sebagian alasan mengapa saya menyarankan hanya memeriksa batas-batas (tidak ada yang salah dengan itu), tetapi membuat kesimpulan tentang korelasi tingkat individu dari data tersebut membutuhkan lebih banyak lompatan keyakinan yang pada akhirnya tidak dapat dibenarkan dalam kebanyakan situasi.
Kutipan
- Anselin, L. & WKT Cho (2002). Efek spasial dan inferensi ekologis. Analisis Politik 10 (3): 276-297.
- Dobra A. & SE Fienberg (2000). Batas untuk entri sel dalam tabel kontingensi yang diberikan total marginal dan grafik yang dapat diurai. Prosiding National Academy of Sciences 97 (22): 11885-11892
- Firebaugh, G. (1978). Aturan untuk menyimpulkan hubungan individu dari data agregat. Ulasan Sosiologis Amerika 43 (4): 557-572
- Fotheringham, AS & DW Wong (1991). Masalah unit areal yang dapat dimodifikasi dalam analisis statistik multivariat. Lingkungan dan Perencanaan A 23 (7): 1025-1044
- Freedman, DA, SP Klein, M. Ostland, & MR Roberts (1998). Karya yang diulas: Solusi untuk Masalah Inferensi Ekologis oleh G. King. Jurnal Asosiasi Statistik Amerika 93 (444): 1518-1522. (PDF di sini )
- Hammond, JL (1973) Dua sumber kesalahan dalam korelasi ekologis. Ulasan Sosiologis Amerika 38 (6): 764-777
- Hannan, MT & L. Burstein (1974). Estimasi dari observasi berkelompok. Ulasan Sosiologis Amerika 39 (3): 374-392
- King G. (1997). Solusi untuk Masalah Inferensi Ekologis: Merekonstruksi Perilaku Individu dari Data Agregat . Princeton: Princeton University Press.
- Lau O., RT Moore & M. Kellerman (2007). eiPack: Inferensi Ekologis RXC dan Manajemen Data Dimensi Tinggi. R News 7 (2): 43-47
- Oppenshaw, S. (1984). Masalah Unit Areal yang Dapat Dimodifikasi . Norwich: Buku Geo. ( PDF di sini )
- Robinson, WS (1950). Korelasi ekologis dan perilaku individu. Ulasan Sosiologis Amerika 15 (3): 351-357. ( PDF di sini )