Inilah satu kemungkinan.
Menilai kinerja guru secara tradisional sulit. Salah satu bagian dari kesulitan ini adalah bahwa siswa yang berbeda memiliki tingkat minat yang berbeda dalam mata pelajaran yang diberikan. Jika siswa yang diberikan mendapat nilai A, ini tidak berarti bahwa mengajar itu sangat baik - sebaliknya, itu mungkin berarti bahwa seorang siswa yang sangat berbakat dan tertarik melakukan yang terbaik untuk berhasil walaupun kualitas pengajarannya buruk. Sebaliknya, seorang siswa yang mendapatkan nilai D tidak selalu berarti bahwa pengajarannya buruk - tetapi, itu mungkin berarti bahwa seorang siswa yang tidak tertarik meluncur meskipun ada upaya terbaik dari guru untuk mendidik dan menginspirasi.
Kesulitan diperburuk oleh fakta bahwa seleksi siswa (dan karenanya tingkat minat siswa) jauh dari acak. Adalah umum bagi sekolah untuk menekankan satu mata pelajaran (atau sekelompok mata pelajaran) lebih dari yang lain. Sebagai contoh, sebuah sekolah mungkin menekankan mata pelajaran teknis di atas kemanusiaan. Siswa di sekolah-sekolah semacam itu mungkin sangat tertarik dengan bidang teknis sehingga mereka akan menerima nilai kelulusan bahkan dengan guru yang paling buruk. Dengan demikian, sebagian kecil siswa yang lulus matematika bukanlah ukuran pengajaran yang baik - kami berharap guru yang baik dapat melakukan jauh lebih baik dari itu dengan siswa yang sangat ingin belajar. Sebaliknya, para siswa yang sama mungkin tidak tertarik sama sekali dalam seni. Akan sulit untuk mengharapkan bahkan dari guru terbaik untuk memastikan semua siswa mendapat nilai A.
Kesulitan lain adalah bahwa tidak semua keberhasilan dalam kelas yang diberikan disebabkan oleh guru kelas itu secara langsung. Sebaliknya, keberhasilan mungkin disebabkan oleh sekolah (atau seluruh kabupaten) menciptakan motivasi dan kerangka kerja untuk pencapaian.
Untuk memperhitungkan semua kesulitan ini, peneliti telah menciptakan model yang mengevaluasi 'nilai tambah' guru. Pada intinya, model memperhitungkan karakteristik intrinsik dari setiap siswa (tingkat minat keseluruhan dan keberhasilan dalam pembelajaran), serta kontribusi sekolah dan distrik terhadap keberhasilan siswa, dan memprediksi nilai siswa yang diharapkan dengan 'rata-rata' mengajar di lingkungan itu. Model kemudian membandingkan nilai aktual dengan nilai yang diprediksi dan berdasarkan pada itu memutuskan apakah mengajar memadai mengingat semua pertimbangan lain, lebih baik dari memadai, atau lebih buruk. Meskipun model ini mungkin terlihat rumit bagi non-matematikawan, sebenarnya cukup sederhana dan standar. Matematikawan telah menggunakan model yang serupa (dan bahkan lebih kompleks) selama beberapa dekade.
Sebagai rangkuman, tebakan Ms. Isaacson benar. Meskipun 65 dari 66 muridnya mendapat nilai mahir dalam ujian negara bagian, mereka akan mendapat nilai yang sama walaupun seekor anjing adalah guru mereka. Seorang guru yang baik sebenarnya akan memungkinkan siswa ini untuk mencapai tidak hanya 'mahir', tetapi sebenarnya skor 'baik' pada tes yang sama.
Pada titik ini saya bisa menyebutkan beberapa kekhawatiran saya dengan model. Sebagai contoh, pengembang model mengklaimnya mengatasi beberapa kesulitan dengan mengevaluasi kualitas pengajaran. Apakah saya punya cukup alasan untuk memercayai mereka? Lingkungan dengan populasi berpenghasilan rendah akan memiliki skor 'kabupaten' dan 'sekolah' yang lebih rendah. Katakanlah suatu lingkungan akan memiliki skor yang diharapkan 2,5. Seorang guru yang akan mencapai rata-rata 3 akan mendapatkan evaluasi yang baik. Ini dapat mendorong para guru untuk membidik skor 3, daripada skor, katakanlah, 4 atau 5. Dengan kata lain, guru akan mengincar keseragaman daripada kesempurnaan. Apakah kita ingin ini terjadi? Akhirnya, meskipun modelnya sederhana secara matematis, ia bekerja dengan cara yang sangat berbeda dari cara kerja intuisi manusia. Akibatnya, kami tidak memiliki cara yang jelas untuk memvalidasi atau membantah model ' keputusan. Contoh malang Ms. Isaacson menggambarkan apa yang dapat menyebabkan hal ini. Apakah kita ingin bergantung secara buta pada komputer dalam sesuatu yang begitu penting?
Perhatikan bahwa ini adalah penjelasan kepada orang awam. Saya menghindari beberapa masalah yang berpotensi kontroversial di sini. Sebagai contoh, saya tidak ingin mengatakan bahwa distrik sekolah dengan demografi berpenghasilan rendah diharapkan berkinerja lebih buruk, karena ini tidak terdengar bagus untuk orang awam.
Juga, saya berasumsi bahwa tujuannya adalah untuk memberikan deskripsi model yang cukup adil. Tapi saya cukup yakin bahwa ini bukan tujuan NYT di sini. Jadi setidaknya sebagian alasan penjelasan mereka buruk adalah FUD yang disengaja, menurut pendapat saya.