Apakah Joel Spolsky's "Hunting of the Snark" memposting analisis konten statistik yang valid?

Jika Anda membaca buletin komunitas akhir-akhir ini, kemungkinan Anda telah melihat The Hunting of the Snark, sebuah posting di blog resmi StackExchange oleh Joel Spolsky, CEO jaringan StackExchange. Dia membahas analisis statistik yang dilakukan pada sampel komentar SE untuk mengevaluasi "keramahan" mereka dari perspektif pengguna luar. Komentar diambil secara acak dari StackOverflow dan analis konten adalah anggota komunitas Mechanical Turk Amazon, pasar untuk pekerjaan yang menghubungkan perusahaan dengan pekerja yang melakukan tugas kecil dan pendek dengan biaya yang terjangkau.

Belum lama ini, saya adalah seorang mahasiswa pascasarjana dalam ilmu politik dan salah satu kelas yang saya ambil adalah Analisis Konten Statistik . Proyek akhir kelas, pada kenyataannya seluruh tujuannya, adalah untuk melakukan analisis rinci tentang pelaporan perang New York Times, untuk menguji apakah banyak asumsi yang dibuat orang Amerika tentang liputan berita selama perang itu akurat (spoiler: bukti menunjukkan mereka tidak). Proyek ini sangat besar dan cukup menyenangkan, tetapi sejauh ini bagian yang paling menyakitkan adalah 'fase pelatihan dan pengujian keandalan', yang terjadi sebelum kami dapat melakukan analisis penuh. Itu memiliki dua tujuan (lihat halaman 9 dari makalah terkait untuk deskripsi rinci, serta referensi untuk standar reliabilitas antar kode dalam literatur statistik analisis konten):

Konfirmasikan semua pembuat kode, yaitu, pembaca konten, dilatih tentang definisi kualitatif yang sama. Dalam analisis Joel, ini berarti semua orang akan tahu persis bagaimana proyek mendefinisikan "ramah" dan "tidak ramah."
Konfirmasikan semua pembuat kode menafsirkan aturan-aturan ini dengan andal, yaitu kami mengambil sampel kami, menganalisis subset, dan kemudian secara statistik menunjukkan korelasi berpasangan kami pada evaluasi kualitatif sangat mirip.

Pengujian reliabilitas menyakitkan karena kami harus melakukannya tiga atau empat kali. Sampai -1- dikunci dan -2- menunjukkan korelasi berpasangan yang cukup tinggi, hasil kami untuk analisis penuh dicurigai. Mereka tidak dapat ditunjukkan valid atau tidak valid. Yang paling penting, kami harus melakukan uji percontohan reliabilitas sebelum set sampel akhir.

Pertanyaan saya adalah ini: Analisis statistik Joel tidak memiliki uji reliabilitas pilot dan tidak menetapkan definisi operasional "keramahan". Apakah data akhir cukup andal untuk mengatakan apa pun tentang validitas statistik hasil-hasilnya?

Untuk satu perspektif, pertimbangkan primer ini pada nilai reliabilitas antar kode dan definisi operasional yang konsisten. Dari sumber yang sama, Anda dapat membaca tentang uji reliabilitas pilot (item 5 dalam daftar).

Sesuai saran Andy W. dalam jawabannya, saya mencoba menghitung berbagai statistik reliabilitas pada dataset, yang tersedia di sini, menggunakan seri perintah ini dalam R (diperbarui saat saya menghitung statistik baru).

Statistik deskriptif ada di sini

Persentase perjanjian (dengan toleransi = 0): 0,0143

Persentase perjanjian (dengan toleransi = 1): 11.8

Krippendorff's alpha: 0,1529467

Saya juga mencoba model respons barang untuk data ini dalam pertanyaan lain.

reliability agreement-statistics methodology

— Christopher
sumber

The tidak terbuka merilis data coding jadi satu bisa pergi dan menilai keandalan coders sendiri jika seseorang ingin.

— Andy W

Re: # 1 - Perlu dicatat bahwa ini tidak begitu banyak latihan pada jika komentar yang ramah atau tidak, tetapi lebih dari latihan pada jika komentar yang dianggap sebagai ramah atau tidak untuk pengguna luar.

— Rachel

@Rachel Saya tidak berpikir itu benar. Jika mereka mengukur bagaimana orang luar melihat komentar pada SO, mereka akan membutuhkan sampel yang cukup besar daripada 20 orang.

— Christopher

Itu adalah perbedaan antara menyimpulkan sesuatu tentang bagaimana orang luar memandang komentar, dan menyimpulkan sesuatu tentang komentar itu sendiri. Dalam kasus pertama, Anda akan membutuhkan sampel orang yang jauh lebih besar, dan kesimpulannya adalah "Orang luar berpikir 2,3% dari komentar SO tidak ramah." Yang kedua, "2,3% komentar SO tidak ramah." Mereka kesimpulan yang berbeda, dan saya pikir yang kedua mungkin tidak mungkin untuk dibuat, karena kami tidak dapat menunjukkan coders mengevaluasi komentar yang sama tanpa uji reliabilitas.

— Christopher

@Christopher Keramahan sangat subyektif. Bergantung pada siapa yang Anda tanyakan, komentar yang sama dapat dilihat sebagai ramah dan tidak ramah. Itulah mengapa saya pikir lebih penting untuk mendapatkan sudut pandang dari sejumlah besar pengguna acak daripada seseorang yang memiliki sudut pandang yang sama persis dengan Anda.

— Rachel

Jawaban:

Persentase perjanjian (dengan toleransi = 0): 0,0143

Persentase perjanjian (dengan toleransi = 1): 11.8

Krippendorff's alpha: 0,1529467

Langkah-langkah perjanjian ini menyatakan bahwa hampir tidak ada perjanjian kategororial - masing-masing pembuat kode memiliki titik cutoff internal untuk menilai komentar sebagai "ramah" atau "tidak ramah".

Jika kita mengasumsikan bahwa tiga kategori dipesan, yaitu: Tidak ramah <Netral <Ramah, kita juga dapat menghitung korelasi intraclass sebagai ukuran lain dari perjanjian. Pada sampel acak 1000 komentar, ada ICC (2,1) dari 0,28, dan ICC (2, k) dari 0,88. Itu berarti, jika Anda hanya akan mengambil satu dari 20 penilai, hasilnya akan sangat tidak dapat diandalkan (0,28), jika Anda mengambil rata-rata 20 penilai, hasilnya dapat diandalkan (0,88). Mengambil kombinasi berbeda dari tiga penilai acak, keandalan rata-rata adalah antara 0,50 dan 0,60, yang masih akan dinilai terlalu rendah.

Korelasi bivariat rata-rata antara dua coders adalah 0,34, yang juga agak rendah.

Jika langkah-langkah perjanjian ini dilihat sebagai ukuran kualitas coders (yang sebenarnya harus menunjukkan persetujuan yang baik), jawabannya adalah: mereka bukan coders yang baik dan harus dilatih lebih baik. Jika ini dilihat sebagai ukuran "seberapa baik kesepakatan spontan di antara orang-orang acak", jawabannya juga adalah: tidak terlalu tinggi. Sebagai patokan, korelasi rata-rata untuk peringkat daya tarik fisik adalah sekitar 0,47 - .71 [1]

[1] Langlois, JH, Kalakanis, L., Rubenstein, AJ, Larson, A., Hallam, M., & Smoot, M. (2000). Pepatah atau mitos kecantikan? Tinjauan meta-analitik dan teoritis. Buletin Psikologis, 126, 390–423. doi: 10.1037 / 0033-2909.126.3.390

— Felix S
sumber

Keandalan skor sering ditafsirkan dalam hal Teori Tes Klasik . Di sini seseorang memiliki skor sejati X,, tetapi apa yang Anda amati pada hasil tertentu tidak hanya skor sebenarnya, tetapi skor sebenarnya dengan beberapa kesalahan (yaitu Observed = X + error). Secara teori, dengan mengambil beberapa ukuran yang diamati dari tes dasar yang sama (membuat beberapa asumsi tentang distribusi kesalahan dari tes tersebut) seseorang kemudian dapat mengukur skor sebenarnya yang tidak teramati.

Perhatikan di sini dalam kerangka kerja ini bahwa Anda harus mengasumsikan bahwa beberapa tindakan Anda yang diamati mengukur tes dasar yang sama. Buruknya keandalan item tes kemudian sering diambil sebagai bukti bahwa tindakan yang diamati tidak mengukur tes dasar yang sama. Ini hanyalah konvensi lapangan, keandalan yang buruk, dalam dan dari dirinya sendiri, tidak membuktikan (dalam arti statistik) item tidak mengukur konstruk yang sama. Jadi dapat diperdebatkan bahwa dengan mengambil banyak langkah yang diamati, bahkan dengan tes yang sangat tidak dapat diandalkan, seseorang dapat mengukur ukuran skor sebenarnya yang dapat diandalkan.

Juga dapat dikatakan bahwa teori tes klasik tidak selalu merupakan satu-satunya cara untuk menginterpretasikan tes semacam itu, dan banyak scholors akan berpendapat bahwa konsep variabel laten dan teori item-respons selalu lebih tepat daripada teori tes klasik.

Asumsi implisit serupa dalam teori tes klasik adalah ketika orang mengatakan reliabilitas terlalu tinggi. Itu tidak mengatakan apa-apa tentang validitas apakah item tertentu mengukur beberapa tes yang mendasarinya, tetapi ketika reliabilitas terlalu tinggi, para peneliti menganggapnya sebagai bukti bahwa kesalahan di antara tes tidak independen.

Saya tidak yakin mengapa Anda begitu bersemangat untuk tidak masuk dan menghitung keandalannya sendiri. Mengapa orang tidak dapat melakukan ini dan kemudian menginterpretasikan analisis dengan mengingat informasi tambahan ini?

— Andy W
sumber

Jadi pertama-tama izinkan saya menunjukkan bahwa saya bukan mahasiswa pascasarjana yang melakukan statistik lagi untuk alasan yang baik: itu bukan keahlian saya. Saya mungkin salah mengingat metodologi. Semua sama, saya pikir Anda dan saya mungkin berbicara tentang ukuran reliabilitas yang berbeda, atau setidaknya ada penelitian yang menyarankan mengukur reliabilitas antar kode sebelum analisis akhir dilakukan untuk validitas. Saya telah mengedit pertanyaan untuk memasukkan satu sumber yang saya temukan di web, yang mengutip lebih banyak penelitian tentang masalah ini.

— Christopher

Ini adalah konteks yang berbeda (keandalan item tes dikotomis bukannya beberapa hasil yang berkelanjutan), tetapi logika secara fungsional sama. Karena itu mengapa saya tidak menyebutkan ukuran keandalan tertentu (ada banyak). Kutipan Anda tidak menyindir apa pun before the final analysis, jadi saya tidak yakin dari mana gagasan itu berasal.

— Andy W

Ah ha. Anda benar, ini bukan keharusan. Membaca lebih jauh ke tautan yang saya posting, sepertinya uji coba pilot ini dianggap sebagai praktik terbaik metodologis (cari uji coba di dalamnya).

— Christopher

Saya telah mengubah pertanyaan saya untuk mengakomodasi informasi baru. Terima kasih atas bantuannya memperbaiki kesalahan saya.

— Christopher

Pertanyaan lain sudah habis.

— Christopher