Strategi untuk mengajarkan distribusi sampling


30

Versi tl; Strategi sukses apa yang Anda pakai untuk mengajarkan distribusi sampling (dari mean sampel, misalnya) di tingkat sarjana pengantar?

Latar belakang

Pada bulan September saya akan mengajar kursus statistik pengantar untuk ilmu sosial tahun kedua (terutama ilmu politik dan sosiologi) siswa menggunakan The Basic Practice of Statistics oleh David Moore. Ini akan menjadi yang kelima kalinya saya mengajar kursus ini dan satu masalah yang saya miliki secara konsisten adalah bahwa para siswa benar-benar bergumul dengan gagasan tentang distribusi sampel . Ini dibahas sebagai latar belakang untuk inferensi dan mengikuti pengantar dasar untuk probabilitas yang mereka tampaknya tidak mengalami kesulitan setelah beberapa cegukan awal (dan pada dasarnya, maksud saya dasar- setelah semua, banyak dari siswa ini telah dipilih sendiri ke dalam aliran kursus tertentu karena mereka mencoba untuk menghindari apa pun dengan bahkan sedikit "matematika"). Saya menduga bahwa mungkin 60% meninggalkan kursus tanpa pemahaman minimal, sekitar 25% memahami prinsip tetapi tidak koneksi ke konsep lain, dan 15% sisanya sepenuhnya mengerti.

Masalah utamanya

Masalah yang tampaknya dimiliki siswa adalah dengan aplikasi tersebut. Sulit untuk menjelaskan apa masalah sebenarnya selain mengatakan bahwa mereka tidak mengerti. Dari jajak pendapat yang saya lakukan semester lalu dan dari jawaban ujian, saya pikir bagian dari kesulitannya adalah kebingungan antara dua frasa yang terdengar terkait dan serupa (distribusi sampel dan distribusi sampel), jadi saya tidak menggunakan frase "distribusi sampel" lagi, tetapi tentu saja ini adalah sesuatu yang, walaupun membingungkan pada awalnya, mudah dipahami dengan sedikit usaha dan lagi pula itu tidak dapat menjelaskan kebingungan umum konsep distribusi sampel.

(Saya menyadari bahwa itu mungkin saya dan pengajaran saya yang menjadi masalah di sini! Namun saya pikir mengabaikan kemungkinan yang tidak nyaman itu wajar dilakukan karena beberapa siswa tampaknya mendapatkannya dan secara keseluruhan semua orang tampaknya melakukannya dengan cukup baik ...)

Apa yang saya coba

Saya harus berdebat dengan administrator sarjana di departemen kami untuk memperkenalkan sesi wajib di lab komputer berpikir bahwa demonstrasi berulang mungkin membantu (sebelum saya mulai mengajar kursus ini, tidak ada komputasi yang terlibat). Sementara saya pikir ini membantu pemahaman keseluruhan materi pelajaran secara umum, saya tidak berpikir itu membantu dengan topik khusus ini.

Satu ide yang saya miliki adalah tidak mengajarkannya sama sekali atau tidak memberikan banyak bobot, suatu posisi yang dianjurkan oleh beberapa orang (mis. Andrew Gelman ). Saya tidak menemukan ini sangat memuaskan karena memiliki bau mengajar ke penyebut umum terendah dan yang lebih penting menyangkal siswa yang kuat dan termotivasi yang ingin belajar lebih banyak tentang aplikasi statistik dari benar-benar memahami betapa pentingnya konsep bekerja (tidak hanya distribusi sampel! ). Di sisi lain, siswa median tampaknya memahami nilai-p misalnya, jadi mungkin mereka tidak perlu memahami distribusi pengambilan sampel.

Pertanyaan

Strategi apa yang Anda pakai untuk mengajarkan distribusi sampling? Saya tahu ada bahan dan diskusi yang tersedia (misalnya di sini dan di sini dan makalah ini yang membuka file PDF ) tapi saya hanya ingin tahu apakah saya bisa mendapatkan beberapa contoh nyata tentang apa yang berfungsi untuk orang (atau saya kira bahkan apa yang tidak berhasil) jadi saya akan tahu untuk tidak mencobanya!). Rencana saya sekarang, ketika saya merencanakan program saya untuk bulan September, adalah mengikuti saran Gelman dan "mengurangi tekanan" distribusi sampling. Saya akan mengajarkannya, tetapi saya akan meyakinkan para siswa bahwa ini adalah semacam topik khusus FYI dan tidak akan muncul pada ujian (kecuali mungkin sebagai pertanyaan bonus ?!). Namun, saya benar-benar tertarik mendengar pendekatan lain yang digunakan orang.


Anda juga dapat melakukan ini dengan distribusi populasi yang tidak normal untuk menunjukkan teorema batas pusat
user41270

maaf ini seharusnya komentar atas jawaban saya di bawah ini.
user41270

Jawaban:


23

Menurut pendapat saya, distribusi sampel adalah ide kunci dari statistik 101. Anda mungkin juga melewatkan kursus seperti melewati masalah itu. Namun, saya sangat akrab dengan kenyataan bahwa siswa tidak mengerti, sepertinya apa pun yang Anda lakukan. Saya punya serangkaian strategi. Ini bisa memakan banyak waktu, tetapi saya sarankan melewatkan / menyingkat topik lain, untuk memastikan bahwa mereka mendapatkan ide distribusi sampel. Berikut beberapa tips:

  • Katakan dengan jelas: Pertama-tama saya secara eksplisit menyebutkan bahwa ada 3 distribusi berbeda yang kami perhatikan: distribusi populasi, distribusi sampel, dan distribusi sampel. Saya mengatakan ini berulang-ulang selama pelajaran, dan kemudian berulang-ulang sepanjang kursus. Setiap kali saya mengatakan hal ini saya menekankan akhir khas: sam- ple , samp- ling . (Ya, siswa benar-benar muak dengan ini; mereka juga mendapatkan konsepnya.)
  • Gunakan gambar (gambar): Saya memiliki satu set angka standar yang saya gunakan setiap kali saya berbicara tentang ini. Ini memiliki tiga distribusi yang digambarkan dengan jelas, dan biasanya diberi label. (Label yang sesuai dengan gambar ini ada di slide powerpoint dan menyertakan deskripsi singkat, sehingga tidak muncul di sini, tapi jelas itu: populasi di atas, lalu sampel, lalu distribusi sampel.)
    masukkan deskripsi gambar di sini
  • Berilah siswa kegiatan: Pertama kali Anda memperkenalkan konsep ini, baik membawa gulungan nikel (beberapa perempat mungkin hilang) atau sekelompok dadu 6 sisi. Mintalah siswa membentuk ke dalam kelompok-kelompok kecil dan menghasilkan satu set nilai 10 dan rata-rata. Kemudian Anda bisa membuat histogram di papan tulis atau dengan Excel.
  • Gunakan animasi (simulasi): Saya menulis beberapa kode (tidak efisien) di R untuk menghasilkan data & menampilkannya dalam tindakan. Bagian ini sangat membantu ketika Anda transisi ke menjelaskan Teorema Limit Pusat. (Perhatikan Sys.sleep()pernyataannya, jeda ini beri saya waktu sejenak untuk menjelaskan apa yang terjadi pada setiap tahap.)
N = 10
number_of_samples = 1000


iterations  = c(3, 7, number_of_samples)  
breakpoints = seq(10, 91, 3)  
meanVect    = vector()  
x           = seq(10, 90)  
height      = 30/dnorm(50, mean=50, sd=10)  
y           = height*dnorm(x, mean=50, sd=10)  

windows(height=7, width=5)  
par(mfrow=c(3,1), omi=c(0.5,0,0,0), mai=c(0.1, 0.1, 0.2, 0.1))  

for(i in 1:iterations[3]) {  
  plot(x,y, type="l", col="blue", axes=F, xlab="", ylab="")  
  segments(x0=20, y0=0, x1=20, y1=y[11], col="lightgray")  
  segments(x0=30, y0=0, x1=30, y1=y[21], col="gray")  
  segments(x0=40, y0=0, x1=40, y1=y[31], col="darkgray")  
  segments(x0=50, y0=0, x1=50, y1=y[41])  
  segments(x0=60, y0=0, x1=60, y1=y[51], col="darkgray")  
  segments(x0=70, y0=0, x1=70, y1=y[61], col="gray")  
  segments(x0=80, y0=0, x1=80, y1=y[71], col="lightgray")  
  abline(h=0)  

  if(i==1) {  
    Sys.sleep(2)  
  }  
  sample = rnorm(N, mean=50, sd=10)  
  points(x=sample, y=rep(1,N), col="green", pch="*")  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  xhist1 = hist(sample, breaks=breakpoints, plot=F)  
  hist(sample, breaks=breakpoints, axes=F, col="green", xlim=c(10,90),  
       ylim=c(0,N), main="", xlab="", ylab="")  
  if(i==iterations[3]) {  
    abline(v=50)  
  }  

  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
  sampleMean = mean(sample)  
  segments(x0=sampleMean, y0=0, x1=sampleMean,   
           y1=max(xhist1$counts)+1, col="red", lwd=3)  

  if(i<=iterations[1]) {  
    Sys.sleep(2)  
  }  
  meanVect = c(meanVect, sampleMean)  
  hist(meanVect, breaks=x, axes=F, col="red", main="",   
       xlab="", ylab="", ylim=c(0,((N/3)+(0.2*i))))  
  if(i<=iterations[2]) {  
    Sys.sleep(2)  
  }  
}  

Sys.sleep(2)  
xhist2 = hist(meanVect, breaks=x, plot=F)  
xMean  = round(mean(meanVect), digits=3)  
xSD    = round(sd(meanVect), digits=3)  
histHeight = (max(xhist2$counts)/dnorm(xMean, mean=xMean, sd=xSD))  
lines(x=x, y=(histHeight*dnorm(x, mean=xMean, sd=xSD)),   
      col="yellow", lwd=2)  
abline(v=50)  

txt1 = paste("population mean = 50     sampling distribution mean = ",  
             xMean, sep="")  
txt2 = paste("SD = 10     10/sqrt(", N,") = 3.162     SE = ", xSD,  
            sep="")  
mtext(txt1, side=1, outer=T)  
mtext(txt2, side=1, line=1.5, outer=T)  
  • Perkuat kembali konsep-konsep ini sepanjang semester: Saya membawa ide distribusi pengambilan sampel lagi setiap kali kita berbicara tentang subjek berikutnya (walaupun biasanya hanya sebentar). Tempat paling penting untuk ini adalah ketika Anda mengajar ANOVA, karena kasus hipotesis nol benar-benar ada situasi di mana Anda mengambil sampel dari distribusi populasi yang sama beberapa kali, dan seperangkat kelompok Anda berarti benar-benar merupakan distribusi sampel empiris. (Untuk contohnya, lihat jawaban saya di sini: Bagaimana cara kerja kesalahan standar? )

1
Ini jawaban yang bagus (+1). Saya terutama berpikir kegiatan dan simulasi sangat berguna untuk mengajarkan mata pelajaran ini. Dalam kursus pengantar saya mengajar beberapa kali kami menggunakan applet web yang memungkinkan siswa untuk memvisualisasikan bagaimana statistik dihitung dari sampel dan bagaimana histogram distribusi sampel mulai terbentuk ketika Anda mengulangi ini berkali-kali. Saya pikir kegiatan itu membantu lebih dari apa pun yang pernah saya katakan kepada para siswa dalam hal memahami distribusi sampel :)
Makro

+1 Terima kasih Gung, itu jawaban yang bagus! Terima kasih telah "mengirim saya kodez" juga (nb. Pengguna Mac ganti windows(...)dengan quartz(...)). Poin Anda tentang memperkuat konsep sepanjang semester sangat membantu. Saya pikir mengikuti pedoman ini akan sangat berguna.
smillig

(+1) untuk mantra "3-distribusi", dan untuk gambar relasional. Tidak ada yang bisa memahami konsep tanpa terlebih dahulu memahami bahwa itu memang konsep yang berbeda .
Alecos Papadopoulos

Saya telah menemukan halaman " buku stat online " Universitas Rice pada distribusi sampling sangat membantu untuk ini. Versi asli, bertahun-tahun, menampilkan applet Java, tapi saya senang mereka baru saja membuatnya dalam Javascript. Cara kerjanya pada dasarnya identik dengan diagram Anda.
Silverfish

8

Saya cukup beruntung dengan mengingatkan siswa bahwa distribusi sampling adalah distribusi statistik tes berdasarkan sampel acak . Saya meminta siswa berpikir tentang apa yang akan terjadi dalam proses pengambilan sampel itu sendiri yang bias - berfokus pada kasus-kasus ekstrem. Misalnya, seperti apa distribusi "sampling" jika proses pengambilan sampel kami selalu memilih subset (khusus) yang sama. Lalu saya akan mempertimbangkan seperti apa "distribusi sampling" akan terlihat jika proses pengambilan sampel kami hanya memilih dua himpunan bagian khusus (khusus) (masing-masing dengan probabilitas 1/2). Ini cukup sederhana untuk dikerjakan dengan mean sampel (terutama untuk pilihan "khusus" tertentu untuk populasi yang mendasarinya).

Saya pikir untuk beberapa (jelas tidak semua) siswa ini tampaknya membantu mereka dengan gagasan bahwa distribusi sampling dapat sangat berbeda dari distribusi populasi. Saya juga menggunakan contoh teorema limit pusat yang Michael Chernick sebutkan dengan beberapa keberhasilan - terutama dengan distribusi yang jelas tidak normal (simulasi benar-benar membantu).


Graham Cookson memiliki latihan kelas yang bagus yang diposting sebagai jawaban dalam "Apa penjelasan orang awam favorit Anda untuk konsep statistik yang sulit?" - wiki komunitas.
shoda

+1, berbicara tentang distribusi sampel sampel non-acak adalah ide yang bagus.
gung - Reinstate Monica

+1 Ide bagus tentang pilihan subset! Saya pikir ini adalah tautan yang Anda maksud ke @shoda: stats.stackexchange.com/a/554/9249
smillig

7

Saya mulai kembali dengan pengajaran probabilitas. Saya tidak masuk ke banyak definisi dan aturan formal (hanya saja tidak cukup waktu), tetapi tunjukkan probabilitas dengan simulasi. Masalah Monty Hall adalah contoh yang bagus untuk digunakan, saya menunjukkan melalui simulasi (dan kemudian menindaklanjuti dengan logika) bahwa strategi untuk beralih memberikan kemungkinan menang yang lebih tinggi. Saya menunjukkan bahwa dengan simulasi, kami dapat memainkan game berkali-kali (tanpa risiko atau imbalan) untuk mengevaluasi strategi dan yang memungkinkan kami memilih strategi yang lebih baik (jika kita pernah berada dalam situasi itu). Memilih strategi yang lebih baik tidak menjamin kemenangan, tetapi memberi kita peluang yang lebih baik dan membantu memilih di antara strategi. Saya kemudian menunjukkan bahwa bagaimana ini akan berlaku untuk sisa kursus adalah bahwa hal itu akan membantu kami memilih strategi di mana ada komponen acak,

Kemudian ketika saya memperkenalkan distribusi sampel, saya mulai lagi dengan simulasi dan mengatakan kami ingin mengembangkan strategi. Sama seperti dengan masalah Monty Hall, dalam kehidupan nyata kita hanya akan dapat mengambil 1 sampel, tetapi kita dapat mensimulasikan banyak sampel untuk membantu kita mengembangkan strategi. Saya kemudian menunjukkan simulasi dari banyak sampel dari populasi yang sama (populasi yang diketahui dalam kasus ini) dan menunjukkan hubungan yang kita pelajari dari simulasi (histogram dari mean sampel), yaitu sampel berarti mengelompok di sekitar mean yang sebenarnya (mean of mean adalah mean) , standar deviasi distribusi sampel yang lebih kecil untuk sampel yang lebih besar, lebih normal untuk sampel yang lebih besar. Sepanjang waktu saya berbicara tentang pengulangan ide simulasi untuk memilih strategi, hanya ide yang sama dengan masalah Monty Hall yang diterapkan sekarang untuk sampel berarti daripada menunjukkan permainan. Saya kemudian menunjukkan aturan resmi dan mengatakan bahwa selain simulasi mereka dapat dibuktikan secara matematis, tetapi saya tidak akan memberikan bukti pada seluruh kelas. Saya menawarkan bahwa jika mereka benar-benar ingin melihat bukti matematika mereka dapat datang ke jam kantor dan saya akan menunjukkan kepada mereka matematika (belum ada yang dari kelas intro yang mengambil saya tentang ini).

Kemudian ketika kita sampai pada kesimpulan saya katakan bahwa kita hanya akan dapat mengambil 1 sampel di dunia nyata, sama seperti kita hanya akan bermain game 1 kali (paling banyak), tetapi kita dapat menggunakan strategi yang kita pelajari dari simulasi banyak sampel untuk mengembangkan strategi (uji-z, uji-t, atau rumus CI) yang akan memberi kita sifat yang dipilih (peluang untuk menjadi benar). Sama seperti dengan permainan, kita tidak tahu sebelum kita mulai jika kesimpulan akhir kita akan benar (dan biasanya kita masih belum tahu setelah itu), tetapi kita tahu dari simulasi dan distribusi sampel apa probabilitas jangka panjang menggunakan strategi itu.

Apakah 100% siswa memiliki pemahaman yang sempurna? tidak, tapi saya pikir lebih banyak dari mereka mendapatkan ide umum bahwa kita dapat menggunakan simulasi dan aturan matematika (bahwa mereka senang mereka tidak harus melihat, hanya percaya pada buku / instruktur) untuk memilih strategi / formula yang memiliki properti yang diinginkan.


+1 Terima kasih telah berbagi saran ini. Saya pikir Anda memahaminya dengan masalah menjadi penghubung antara apa yang bisa kita ajarkan tentang apa distribusi sampling itu vs bagaimana distribusi itu dapat diekstrapolasi menjadi kesimpulan dari satu sampel tunggal. Seperti yang Anda (dan orang lain di sini) sarankan, terus mengulangi konsep itu berulang-ulang di sepanjang kursus itu penting, tetapi tidak sering dilakukan (setidaknya tidak oleh saya, mungkin karena saya sudah merasa cukup sulit untuk menyesuaikan dengan semua yang saya inginkan, apalagi kembali ke konsep yang sudah dibahas!).
smillig

3

Ini adalah masalah Anda yang sangat penting dan dipikirkan dengan matang. Saya pikir konsep distribusi sampling sangat bervariasi untuk memahami kesimpulan dan harus diajarkan.

Saya telah mengajar banyak kursus statistik pengantar khususnya dalam biostatistik. Saya mengajarkan konsep distribusi sampling dan memiliki pendekatan yang menurut saya baik tetapi tidak benar-benar memiliki umpan balik yang baik untuk menentukan seberapa sukses saya dengan mereka. Lagi pula, inilah yang saya lakukan.

Pertama saya mencoba memberikan definisi yang sederhana. Distribusi sampel adalah distribusi yang akan dimiliki statistik uji jika proses sampel diulang berkali-kali. Tergantung pada distribusi populasi dari mana data diasumsikan berasal.

Walaupun saya pikir ini tentang definisi sesederhana yang saya bisa berikan, saya sadari itu tidak terlalu sederhana dan pemahaman konsep tidak akan langsung muncul dalam banyak kasus. Jadi ikuti ini dengan contoh dasar yang memperkuat apa yang dikatakan dengan definisi.

22

Kemudian saya akan menindaklanjuti ini dengan aplikasi penting, teorema batas pusat. Dalam istilah yang paling sederhana teorema limit pusat mengatakan bahwa untuk banyak distribusi yang tidak normal, distribusi sampel untuk rata-rata sampel akan mendekati distribusi normal ketika ukuran sampel n besar. Untuk menggambarkan hal ini, ambil distribusi seperti seragam (distribusi bimodal juga bagus untuk dilihat) dan perlihatkan seperti apa distribusi sampling untuk mean untuk ukuran sampel 3, 4, 5, 10, dan 100. Siswa dapat melihat bagaimana bentuk distribusi berubah dari sesuatu yang tidak terlihat normal sama sekali untuk n kecil menjadi sesuatu yang sangat mirip dengan distribusi normal untuk n besar.

Untuk meyakinkan siswa bahwa distribusi pengambilan sampel ini benar-benar memiliki bentuk-bentuk ini mintalah siswa melakukan simulasi membuat banyak sampel dengan berbagai ukuran dan menghitung rata-rata sampel. Kemudian mintalah mereka menghasilkan histogram untuk estimasi rata-rata ini. Saya juga menyarankan menerapkan demonstrasi fisik yang menunjukkan bagaimana ini bekerja menggunakan papan quincunx. Saat melakukan ini, Anda menunjukkan bagaimana perangkat menghasilkan sampel dari jumlah uji coba Bernoulli independen di mana probabilitas berbelok ke kiri atau kanan pada setiap level sama dengan 1/2. Tumpukan yang dihasilkan di bagian bawah mewakili histogram untuk distribusi sampling ini (binomial) dan bentuknya dapat terlihat normal setelah sejumlah besar bola mendarat di bagian bawah quincunx,


Terima kasih atas saran yang berharga. Saya sangat menyukai ide demonstrasi fisik yang sebenarnya dan pasti akan mencoba menerapkan sesuatu seperti ini (dengan asumsi saya dapat mengalihkan mereka dari facebook cukup lama ...), meskipun koneksi ke jumlah uji coba independen Bernoulli mungkin sedikit lebih dari mereka kepala! Terima kasih.
smillig

1
Tetapi melihat bentuk bentuk distribusi normal dari percobaan benar-benar membuka mata. Saya pertama kali melihat salah satu dari ini diperagakan di Science Museum di Chicago ketika saya masih kecil (sekitar 10 tahun). Tidak tahu apa-apa tentang statistik tetapi tidak pernah lupa kurva.
Michael R. Chernick

1

Saya pikir akan lebih baik untuk memasukkan 'populasi' jumlah di dalam tas (mulai misalnya dari 1-10). Anda bisa membuat ubin sendiri, atau menggunakan koin, bermain kartu dll.

Mintalah siswa untuk duduk berkelompok (5 atau lebih) dan masing-masing mengambil nomor dari tas. Setiap kelompok kemudian menghitung nilai rata-rata untuk kelompok mereka. Beri tahu mereka bahwa sebelumnya Anda menghitung mean populasi, plotkan pada histogram dan dapatkan anggota dari masing-masing kelompok untuk datang dan plot sampel rata-rata mereka pada histogram di sekitar ini. Minta mereka melakukan latihan ini beberapa kali untuk 'membangun histogram'.

Anda kemudian dapat secara grafis menunjukkan variasi dalam mean sampel di sekitar rata-rata populasi. Tentukan variasi dalam mean sampel dibandingkan dengan mean populasi. Saya pikir siswa dengan jelas ingat melakukan latihan yang praktis dan konsep variasi pengambilan sampel akan kembali kepada mereka dengan lebih mudah sebagai hasilnya. Ini mungkin terdengar agak kekanak-kanakan tetapi siswa kadang-kadang hanya suka perubahan untuk melakukan sesuatu yang aktif .... tidak ada banyak peluang untuk melakukan ini dalam statistik.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.