Persamaan dalam berita: Menerjemahkan model multi-level ke khalayak umum

24

The New York Times memiliki komentar panjang tentang sistem evaluasi guru 'nilai tambah' yang digunakan untuk memberikan umpan balik kepada pendidik Kota New York. Lede adalah persamaan yang digunakan untuk menghitung skor - disajikan tanpa konteks. Strategi retoris tampaknya intimidasi melalui matematika:

teks alternatif

Teks lengkap artikel ini tersedia di: http://www.nytimes.com/2011/03/07/education/07winerip.html

Penulis, Michael Winerip, berpendapat bahwa makna persamaan itu berada di luar kemampuan orang lain selain, um, Matt Damon untuk memahami, apalagi guru biasa:

"Perhitungan untuk skor prediksi Ms. Isaacson 3,69 bahkan lebih menakutkan. Ini didasarkan pada 32 variabel - termasuk apakah seorang siswa" dipertahankan di kelas sebelum tahun pretest "dan apakah seorang siswa" baru ke kota dalam pretest atau post-test " tahun."

32 variabel tersebut dicolokkan ke dalam model statistik yang terlihat seperti salah satu persamaan yang dalam “Good Will Hunting” hanya Matt Damon yang mampu menyelesaikannya.

Prosesnya tampak transparan, tetapi jelas seperti lumpur, bahkan bagi orang awam yang cerdas seperti guru, kepala sekolah dan - saya ragu untuk mengatakan ini - wartawan.

Ms. Isaacson mungkin memiliki dua gelar Liga Ivy, tetapi ia hilang. "Saya menemukan ini mustahil untuk dipahami," katanya.

Dalam bahasa Inggris yang sederhana, tebakan terbaik Ms. Isaacson tentang apa yang coba disampaikan oleh departemen adalah: Meskipun 65 dari 66 muridnya mendapat nilai mahir dalam ujian negara, lebih dari 3 anaknya seharusnya 4s.

Tapi itu hanya dugaan saja. "

Bagaimana Anda menjelaskan model tersebut kepada orang awam? FYI, laporan teknis lengkapnya ada di:

http://schools.nyc.gov/NR/rdonlyres/A62750A4-B5F5-43C7-B9A3-F2B55CDF8949/87046/TDINYCTechnicalReportFinal072010.pdf

Pembaruan: Andrew Gelman menawarkan pemikirannya di sini: http://www.stat.columbia.edu/~cook/movabletype/archives/2011/03/its_no_fun_bein.html

regression multilevel-analysis statistics-in-media

— Andrew
sumber

1

[0 %, 52 %]

$[0\%,~52\%]$

12

Inilah satu kemungkinan.

Menilai kinerja guru secara tradisional sulit. Salah satu bagian dari kesulitan ini adalah bahwa siswa yang berbeda memiliki tingkat minat yang berbeda dalam mata pelajaran yang diberikan. Jika siswa yang diberikan mendapat nilai A, ini tidak berarti bahwa mengajar itu sangat baik - sebaliknya, itu mungkin berarti bahwa seorang siswa yang sangat berbakat dan tertarik melakukan yang terbaik untuk berhasil walaupun kualitas pengajarannya buruk. Sebaliknya, seorang siswa yang mendapatkan nilai D tidak selalu berarti bahwa pengajarannya buruk - tetapi, itu mungkin berarti bahwa seorang siswa yang tidak tertarik meluncur meskipun ada upaya terbaik dari guru untuk mendidik dan menginspirasi.

Kesulitan diperburuk oleh fakta bahwa seleksi siswa (dan karenanya tingkat minat siswa) jauh dari acak. Adalah umum bagi sekolah untuk menekankan satu mata pelajaran (atau sekelompok mata pelajaran) lebih dari yang lain. Sebagai contoh, sebuah sekolah mungkin menekankan mata pelajaran teknis di atas kemanusiaan. Siswa di sekolah-sekolah semacam itu mungkin sangat tertarik dengan bidang teknis sehingga mereka akan menerima nilai kelulusan bahkan dengan guru yang paling buruk. Dengan demikian, sebagian kecil siswa yang lulus matematika bukanlah ukuran pengajaran yang baik - kami berharap guru yang baik dapat melakukan jauh lebih baik dari itu dengan siswa yang sangat ingin belajar. Sebaliknya, para siswa yang sama mungkin tidak tertarik sama sekali dalam seni. Akan sulit untuk mengharapkan bahkan dari guru terbaik untuk memastikan semua siswa mendapat nilai A.

Kesulitan lain adalah bahwa tidak semua keberhasilan dalam kelas yang diberikan disebabkan oleh guru kelas itu secara langsung. Sebaliknya, keberhasilan mungkin disebabkan oleh sekolah (atau seluruh kabupaten) menciptakan motivasi dan kerangka kerja untuk pencapaian.

Untuk memperhitungkan semua kesulitan ini, peneliti telah menciptakan model yang mengevaluasi 'nilai tambah' guru. Pada intinya, model memperhitungkan karakteristik intrinsik dari setiap siswa (tingkat minat keseluruhan dan keberhasilan dalam pembelajaran), serta kontribusi sekolah dan distrik terhadap keberhasilan siswa, dan memprediksi nilai siswa yang diharapkan dengan 'rata-rata' mengajar di lingkungan itu. Model kemudian membandingkan nilai aktual dengan nilai yang diprediksi dan berdasarkan pada itu memutuskan apakah mengajar memadai mengingat semua pertimbangan lain, lebih baik dari memadai, atau lebih buruk. Meskipun model ini mungkin terlihat rumit bagi non-matematikawan, sebenarnya cukup sederhana dan standar. Matematikawan telah menggunakan model yang serupa (dan bahkan lebih kompleks) selama beberapa dekade.

Sebagai rangkuman, tebakan Ms. Isaacson benar. Meskipun 65 dari 66 muridnya mendapat nilai mahir dalam ujian negara bagian, mereka akan mendapat nilai yang sama walaupun seekor anjing adalah guru mereka. Seorang guru yang baik sebenarnya akan memungkinkan siswa ini untuk mencapai tidak hanya 'mahir', tetapi sebenarnya skor 'baik' pada tes yang sama.

Pada titik ini saya bisa menyebutkan beberapa kekhawatiran saya dengan model. Sebagai contoh, pengembang model mengklaimnya mengatasi beberapa kesulitan dengan mengevaluasi kualitas pengajaran. Apakah saya punya cukup alasan untuk memercayai mereka? Lingkungan dengan populasi berpenghasilan rendah akan memiliki skor 'kabupaten' dan 'sekolah' yang lebih rendah. Katakanlah suatu lingkungan akan memiliki skor yang diharapkan 2,5. Seorang guru yang akan mencapai rata-rata 3 akan mendapatkan evaluasi yang baik. Ini dapat mendorong para guru untuk membidik skor 3, daripada skor, katakanlah, 4 atau 5. Dengan kata lain, guru akan mengincar keseragaman daripada kesempurnaan. Apakah kita ingin ini terjadi? Akhirnya, meskipun modelnya sederhana secara matematis, ia bekerja dengan cara yang sangat berbeda dari cara kerja intuisi manusia. Akibatnya, kami tidak memiliki cara yang jelas untuk memvalidasi atau membantah model ' keputusan. Contoh malang Ms. Isaacson menggambarkan apa yang dapat menyebabkan hal ini. Apakah kita ingin bergantung secara buta pada komputer dalam sesuatu yang begitu penting?

Perhatikan bahwa ini adalah penjelasan kepada orang awam. Saya menghindari beberapa masalah yang berpotensi kontroversial di sini. Sebagai contoh, saya tidak ingin mengatakan bahwa distrik sekolah dengan demografi berpenghasilan rendah diharapkan berkinerja lebih buruk, karena ini tidak terdengar bagus untuk orang awam.

Juga, saya berasumsi bahwa tujuannya adalah untuk memberikan deskripsi model yang cukup adil. Tapi saya cukup yakin bahwa ini bukan tujuan NYT di sini. Jadi setidaknya sebagian alasan penjelasan mereka buruk adalah FUD yang disengaja, menurut pendapat saya.

— SheldonCooper
sumber

Saya mungkin akan mengubah kalimat kedua dari paragraf terakhir untuk mengatakan, "Meskipun 65 dari 66 muridnya mendapat nilai 'mahir' dalam ujian negara, mereka kemungkinan besar akan mencetak skor yang sama walaupun mereka memiliki guru yang tidak kompeten."

— Wayne

11

"Skor pengajaran Anda tergantung pada seberapa baik siswa Anda dibandingkan dengan prediksi yang dibuat berdasarkan

Apa yang mereka ketahui sebelumnya, yang diukur dengan pretest,
Seberapa baik kita berpikir siswa dapat belajar berdasarkan pada apa yang kita ketahui tentang mereka secara individu ("karakteristik" mereka),
Dan seberapa baik yang siswa lakukan rata-rata di distrik, sekolah, dan kelas Anda (jika ada guru lain di kelas Anda).

"Dengan kata lain, kami mengevaluasi Anda berdasarkan jumlah pembelajaran yang diukur, setelah memperhitungkan persiapan dan karakteristik siswa Anda dan penampilan khas semua siswa di lingkungan seperti milik Anda dengan sumber daya yang tersedia untuk Anda.

"Dengan cara ini, skor Anda mencerminkan apa yang Anda berkontribusi pada penampilan siswa, sejauh yang dapat kita tentukan. Tentu saja kita tidak dapat mengetahui segalanya: kami tahu Anda memiliki siswa yang unik dan istimewa dan bahwa situasi yang Anda hadapi tidak akan pernah dapat diduplikasi. Oleh karena itu kami tahu skor ini hanya perkiraan yang secara tidak sempurna mencerminkan seberapa baik Anda mengajar, tetapi itu adalah perkiraan yang lebih adil dan lebih akurat daripada yang hanya didasarkan pada post test atau pada keuntungan tes mentah yang dibuat oleh kelas Anda. "

— whuber
sumber

2

NB Tolong jangan mengaitkan pemikiran ini dengan saya! Saya hanya melakukan yang terbaik untuk mengartikulasikan dan mempertahankan model yang disebutkan, seperti yang diminta. Apakah model ini sesuai, berlaku, cocok, dll., Adalah masalah yang terpisah sama sekali.

— whuber

(+1) Paragraf terakhir sangat baik.

— chl

2

Tidak ada yang perlu dipahami di sini.

Baiklah, itu hanya model regresi linier standar. Ini mengasumsikan bahwa skor seorang siswa dapat digambarkan sebagai fungsi linier dari beberapa faktor, termasuk koefisien efisiensi sekolah dan guru - dengan demikian ia berbagi semua masalah standar model linear, terutama fakta bahwa itu adalah perkiraan besar dari nonlinier. dunia dan mungkin juga bekerja dengan baik atau buruk memalukan tergantung pada situasi dan pada seberapa jauh seseorang akan mencoba untuk memperkirakan dengan itu. (Namun orang harus mengharapkan penulis dari perwakilan teknologi memeriksanya dan menemukan bahwa tidak apa-apa ;-)).

Tetapi masalah sebenarnya adalah bahwa ini adalah alat analitis dan tidak seharusnya digunakan untuk menilai prestasi orang - dengan cara ini (benar-benar terlepas dari apakah tanda itu adil atau tidak) setiap peserta yang mencoba memahami tanda mereka (mungkin dengan harapan mengoptimalkannya) hanya akan menemui kebingungan tanpa harapan, seperti dalam kasus ini.

3

"tidak ada yang perlu dipahami di sini - ini hanya model regresi linier standar" - teehee .... seperti itulah penghiburan untuk matematika matematika. Saya rasa Anda tidak pernah senang mengajar program sarjana dalam statistik untuk, katakanlah, sosiologi atau, tolonglah aku, jurusan komunikasi.

— Fabian

@fabians Ini hanya membuktikan pendapat saya - berhadapan dengan orang-orang dengan matematika yang lebih kompleks daripada berhitung adalah kelemahan terbesar dari pendekatan ini =] Tapi saya akan mencoba untuk mengulanginya.

Ini adalah kritik yang valid - terutama bagian tentang mengasumsikan linieritas - tetapi itu tidak benar-benar menanggapi pertanyaan awal (kecuali niat Anda adalah untuk menyinggung "orang awam" hipotetis).

— whuber