Jika Anda membaca buletin komunitas akhir-akhir ini, kemungkinan Anda telah melihat The Hunting of the Snark, sebuah posting di blog resmi StackExchange oleh Joel Spolsky, CEO jaringan StackExchange. Dia membahas analisis statistik yang dilakukan pada sampel komentar SE untuk mengevaluasi "keramahan" mereka dari perspektif pengguna luar. Komentar diambil secara acak dari StackOverflow dan analis konten adalah anggota komunitas Mechanical Turk Amazon, pasar untuk pekerjaan yang menghubungkan perusahaan dengan pekerja yang melakukan tugas kecil dan pendek dengan biaya yang terjangkau.
Belum lama ini, saya adalah seorang mahasiswa pascasarjana dalam ilmu politik dan salah satu kelas yang saya ambil adalah Analisis Konten Statistik . Proyek akhir kelas, pada kenyataannya seluruh tujuannya, adalah untuk melakukan analisis rinci tentang pelaporan perang New York Times, untuk menguji apakah banyak asumsi yang dibuat orang Amerika tentang liputan berita selama perang itu akurat (spoiler: bukti menunjukkan mereka tidak). Proyek ini sangat besar dan cukup menyenangkan, tetapi sejauh ini bagian yang paling menyakitkan adalah 'fase pelatihan dan pengujian keandalan', yang terjadi sebelum kami dapat melakukan analisis penuh. Itu memiliki dua tujuan (lihat halaman 9 dari makalah terkait untuk deskripsi rinci, serta referensi untuk standar reliabilitas antar kode dalam literatur statistik analisis konten):
Konfirmasikan semua pembuat kode, yaitu, pembaca konten, dilatih tentang definisi kualitatif yang sama. Dalam analisis Joel, ini berarti semua orang akan tahu persis bagaimana proyek mendefinisikan "ramah" dan "tidak ramah."
Konfirmasikan semua pembuat kode menafsirkan aturan-aturan ini dengan andal, yaitu kami mengambil sampel kami, menganalisis subset, dan kemudian secara statistik menunjukkan korelasi berpasangan kami pada evaluasi kualitatif sangat mirip.
Pengujian reliabilitas menyakitkan karena kami harus melakukannya tiga atau empat kali. Sampai -1- dikunci dan -2- menunjukkan korelasi berpasangan yang cukup tinggi, hasil kami untuk analisis penuh dicurigai. Mereka tidak dapat ditunjukkan valid atau tidak valid. Yang paling penting, kami harus melakukan uji percontohan reliabilitas sebelum set sampel akhir.
Pertanyaan saya adalah ini: Analisis statistik Joel tidak memiliki uji reliabilitas pilot dan tidak menetapkan definisi operasional "keramahan". Apakah data akhir cukup andal untuk mengatakan apa pun tentang validitas statistik hasil-hasilnya?
Untuk satu perspektif, pertimbangkan primer ini pada nilai reliabilitas antar kode dan definisi operasional yang konsisten. Dari sumber yang sama, Anda dapat membaca tentang uji reliabilitas pilot (item 5 dalam daftar).
Sesuai saran Andy W. dalam jawabannya, saya mencoba menghitung berbagai statistik reliabilitas pada dataset, yang tersedia di sini, menggunakan seri perintah ini dalam R (diperbarui saat saya menghitung statistik baru).
Statistik deskriptif ada di sini
Persentase perjanjian (dengan toleransi = 0): 0,0143
Persentase perjanjian (dengan toleransi = 1): 11.8
Krippendorff's alpha: 0,1529467
Saya juga mencoba model respons barang untuk data ini dalam pertanyaan lain.