Apakah ada alasan statistik mengapa analisis item / teori respons tidak diterapkan secara lebih luas? Misalnya, jika seorang guru memberikan tes soal pilihan ganda 25 pertanyaan dan menemukan bahwa 10 pertanyaan dijawab dengan benar oleh semua orang, 10 pertanyaan dijawab oleh fraksi yang sangat rendah (katakanlah 10%) dan 5 sisanya dijawab oleh sekitar 50% orang . Tidakkah masuk akal untuk menilai ulang skor sehingga pertanyaan-pertanyaan sulit diberi bobot lebih?
Namun, di dunia nyata tes hampir selalu memiliki semua pertanyaan yang terbobot sama. Mengapa?
Tautan di bawah ini membahas indeks diskriminasi dan ukuran kesulitan lain untuk memilih pertanyaan mana yang terbaik: http://fcit.usf.edu/assessment/selected/responsec.html
Namun tampaknya metode mencari tahu indeks diskriminasi pertanyaan hanya digunakan dengan cara berwawasan ke depan (mis., Jika sebuah pertanyaan tidak mendiskriminasi dengan baik, lemparlah). Mengapa tes tidak ditimbang ulang untuk populasi saat ini?