Apa contoh yang baik untuk ditunjukkan kepada mahasiswa sarjana?


9

Saya akan mengajar statistik sebagai asisten pengajar untuk paruh kedua semester ini untuk mahasiswa sarjana berorientasi-CS. Sebagian besar siswa mengambil kelas tidak memiliki insentif untuk mempelajari subjek dan hanya mengambilnya untuk persyaratan utama. Saya ingin membuat subjek menarik dan bermanfaat, bukan hanya kelas yang mereka pelajari untuk mendapatkan B + untuk lulus.

Sebagai mahasiswa PhD matematika murni, saya hanya tahu sedikit tentang sisi kehidupan nyata yang diterapkan. Saya ingin meminta beberapa aplikasi statistik sarjana kehidupan nyata. Contoh yang saya cari adalah yang (dalam semangat) seperti:

1) Menampilkan teorema limit pusat berguna untuk data sampel besar tertentu.

2) Berikan contoh tandingan bahwa teorema batas pusat tidak berlaku (katakanlah, yang mengikuti distribusi Cauchy).

3) Menunjukkan bagaimana pengujian hipotesis bekerja dalam contoh kehidupan nyata yang terkenal menggunakan uji-Z, uji-t atau sesuatu.

4) Menunjukkan bagaimana overfitting atau salah hipotesis awal dapat memberikan hasil yang salah.

5) Menunjukkan bagaimana p-value dan interval kepercayaan bekerja dalam kasus kehidupan nyata (terkenal) dan di mana mereka tidak bekerja dengan baik.

6) Demikian pula tipe I, kesalahan tipe II, kekuatan statistik, tingkat penolakan , dll.α

Masalah saya adalah bahwa sementara saya memiliki banyak contoh di sisi probabilitas (lemparan koin, lemparan dadu, kehancuran penjudi, martingales, jalan acak, paradoks tiga tahanan, masalah ruang monty, metode probabilitas dalam desain algoritma, dll), saya tidak tahu banyak contoh kanonik di sisi statistik. Yang saya maksud adalah contoh serius dan menarik yang memiliki nilai pedagogis, dan tidak dibuat-buat secara artifisial yang tampaknya sangat terlepas dari kehidupan nyata. Saya tidak ingin memberikan kesan yang salah kepada siswa bahwa tes-Z dan uji-t adalah segalanya. Tetapi karena latar belakang matematika murni saya, saya tidak tahu cukup contoh untuk membuat kelas menarik dan bermanfaat bagi mereka. Jadi saya mencari bantuan.

Tingkat murid saya adalah sekitar kalkulus I dan kalkulus II. Mereka bahkan tidak dapat menunjukkan varians normal standar adalah 1 menurut definisi karena mereka tidak tahu bagaimana mengevaluasi kernel Gaussian. Jadi segala sesuatu yang sedikit teoretis atau komputasi langsung (seperti distribusi hypergeometrik, hukum arcsin dalam 1D random walk) tidak akan berfungsi. Saya ingin menunjukkan beberapa contoh yang mereka dapat mengerti tidak hanya "bagaimana", tetapi juga "mengapa". Kalau tidak, saya tidak yakin apakah saya akan membuktikan apa yang saya katakan dengan intimidasi.


2
n=100n=1000n=1010

3
Teorema Berry-Esseen (yang saya harap Anda tidak ajarkan pada tingkat itu) dapat digunakan dengan sampel terbatas. Tentu saja secara informal, sarana sampel dari distribusi tertentu menjadi semakin normal seiring dengan meningkatnya ukuran sampel, tetapi kami tidak dapat mengatakan "itu adalah teorema batas pusat", karena CLT tidak benar-benar mengatakan apa-apa tentang itu. Selain itu, untuk menunjukkan hal-hal yang semakin mendekati distribusi normal, Anda perlu urutan ukuran sampel. Dalam pengumpulan data dunia nyata yang hanya umum dalam data yang dikumpulkan dari waktu ke waktu (jadi jika Anda mengasumsikan iid, Anda mungkin mengalami kesulitan).
Glen_b -Reinstate Monica

2
Ada data nyata (dari percobaan - jika yang agak buatan) set - 40000 lemparan koin - ditautkan dari sini
Glen_b -Reinstate Monica

1
Anda dapat menunjukkan kepada mereka sesuatu tentang bagaimana perilaku sampel berarti dalam situasi tertentu dengan peningkatan ukuran sampel - itu cukup berguna; itu hanya tidak sepenuhnya akurat untuk menghubungkannya ke CLT. Data lemparan koin mungkin berguna untuk itu (seperti data yang mereka hasilkan sendiri dengan cara yang sama). Anda mungkin ingin membaca informasi di tautan sebelum Anda mendapatkan data, karena ada fitur penting dari data (yang juga merupakan motivasi untuk mengumpulkannya di tempat pertama).
Glen_b -Reinstate Monica

1
Contoh dari hampir setiap hal yang Anda daftarkan disediakan dalam teks statistik intro yang bagus, seperti Freedman, Pisani, & Purves . (Saya ditautkan ke Edisi Ketiga, yang dapat dengan mudah Anda temukan digunakan di bawah US $ 10. Edisi mana pun akan baik-baik saja; edisi terbaru mungkin memiliki lebih banyak contoh terkini.)
whuber

Jawaban:


1

Salah satu cara yang baik adalah menginstal R ( http://www.r-project.org/ ) dan menggunakan contohnya untuk mengajar. Anda dapat mengakses bantuan dalam R dengan perintah "? T.test" dll. Di akhir setiap file bantuan adalah contoh. Untuk t.test, misalnya:

> t.test(extra ~ group, data = sleep)

        Welch Two Sample t-test

data:  extra by group
t = -1.8608, df = 17.776, p-value = 0.07939
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
 -3.3654832  0.2054832
sample estimates:
mean in group 1 mean in group 2 
           0.75            2.33 

>  plot(extra ~ group, data = sleep)

masukkan deskripsi gambar di sini


1

Saya menyarankan aplikasi teorema limit pusat untuk pra-penentuan ukuran sampel dan menemukan jawaban untuk pertanyaan seperti "apakah saya mengirimkan cukup kuesioner" dll.

http://web.as.uky.edu/statistics/users/pbreheny/580-F10/notes/9.pdf memberikan contoh dunia nyata yang baik tentang bagaimana menerapkan teorema batas pusat. Strategi didaktik mungkin:

A) teori

* memperjelas perbedaan antara distribusi pengambilan sampel dan distribusi perkiraan, misalnya dengan distribusi "datar" dari menggulung dadu versus distribusi rata-rata dadu N (gunakan R atau biarkan siswa bahkan bermain sendiri dengan Excel menggambar tunggal) -distribusi nilai versus distribusi cara)

* perlihatkan perhitungan berbasis rumus dari persentil untuk distribusi rata-rata (saat Anda mempelajari matematika, Anda mungkin ingin menurunkan rumus) - titik ini sesuai dengan slide 10-17 dalam presentasi yang ditautkan di atas

dan kemudian (seperti pada slide 20 dari presentasi yang ditautkan di atas):

B) aplikasi

* menunjukkan bagaimana teorema limit pusat membantu menentukan ukuran sampel untuk ukuran yang diinginkan dalam perkiraan rata-rata

Aplikasi ini B) adalah apa yang menurut pengalaman saya non-ahli statistik dari ahli statistik - menjawab pertanyaan dari jenis "apakah saya punya cukup data?"


1

Karena Anda mengajar siswa CS, aplikasi bagus dari Central Limit Theorem mungkin untuk memperkirakan rata-rata dari kumpulan data besar (yaitu> 100 juta catatan). Mungkin instruktif untuk menunjukkan bahwa tidak perlu menghitung rata-rata untuk seluruh dataset, tetapi sebaliknya untuk mengambil sampel dari dataset dan menggunakan sampel mean untuk memperkirakan rata-rata dari seluruh dataset / database. Anda bisa mengambil langkah ini lebih jauh jika Anda ingin dan mensimulasikan set data yang memiliki nilai yang berbeda secara drastis untuk berbagai subkelompok. Anda kemudian dapat meminta siswa mengeksplorasi pengambilan sampel bertingkat untuk mendapatkan perkiraan yang lebih akurat.

Sekali lagi, karena ada siswa CS, Anda mungkin ingin melakukan bootstrap untuk mendapatkan interval kepercayaan juga atau untuk memperkirakan variasi statistik yang lebih kompleks. Ini adalah persimpangan statistik dan komputer yang bagus karena, menurut pendapat saya dan mungkin mengarah ke minat yang lebih besar dalam materi pelajaran.


1

Saya mulai dengan mengetik komentar tetapi terlalu panjang ...

σ

Jadi, menurut saya, mereka akan menyukainya jika Anda menyajikan kesimpulan dari sudut pandang "belajar", dan jika Anda menyajikan tes dari sudut pandang "teori keputusan" atau "klasifikasi" - singkatnya, mereka seharusnya menyukai algoritma. Untuk grok algoritma!

Juga, cobalah untuk menemukan set data terkait CS; misalnya durasi koneksi dan jumlah permintaan per unit waktu ke server html dapat membantu menggambarkan banyak konsep.

Mereka akan senang mempelajari teknik simulasi. Generator Lehmer mudah diimplementasikan. Tunjukkan pada mereka cara mensimulasikan distribusi lain dengan membalikkan cdf. Jika Anda suka ini, tunjukkan pada mereka algoritma Ziggurat Marsaglia. Oh, dan generator MWC256 oleh Marsaglia adalah permata kecil. Tes Diehard oleh Marsaglia (tes untuk keadilan generator seragam) dapat membantu untuk menggambarkan banyak konsep probabilitas dan statistik. Anda bahkan dapat memilih untuk menyajikan teori probabilitas berdasarkan "aliran (independen) ganda acak, oups, maksudku realita" - ini agak kurang ajar, tetapi bisa besar.

t

Jika Anda cukup menguasai subjek Anda, jangan ragu untuk menjadi orisinal. Kuliah "klasik" tidak masalah ketika Anda mengajarkan sesuatu yang tidak Anda kenal sepenuhnya. Semoga berhasil, dan jika Anda mengeluarkan beberapa catatan kuliah, tolong beri tahu saya!


1

Anda mengatakan ini adalah siswa ilmu komputer. Apa minat mereka, apakah ini terutama ilmu komputer teoretis, atau siswa terutama termotivasi dengan mempersiapkan pekerjaan? Anda juga dapat memberi tahu kami apa deskripsi kursusnya!

Tetapi, apa pun jawaban Anda untuk pertanyaan-pertanyaan itu, Anda bisa mulai dengan beberapa statistik praktis yang terjadi dalam konteks informatika, seperti (misalnya) desain web. Situs ini dari waktu ke waktu memiliki pertanyaan tentang ini, seperti tingkat Konversi dari waktu ke waktu atau /stats/96853/comparing-sales-person-conversion-rates atau AB Menguji faktor lain selain tingkat konversi .

Ada banyak pertanyaan di sini seperti ini, sepertinya dari orang yang terlibat dalam desain web. Situasinya adalah Anda memiliki beberapa halaman web (katakanlah, Anda menjual sesuatu). "Tingkat konversi", seperti yang saya mengerti, adalah persentase pengunjung yang pergi ke beberapa tugas yang disukai (seperti membeli, atau beberapa tujuan lain yang Anda miliki untuk pengunjung Anda). Maka Anda, sebagai perancang web, bertanya apakah tata letak halaman Anda memengaruhi perilaku ini. Jadi, Anda memprogram dua (atau lebih) versi halaman web, memilih versi mana yang akan disajikan secara acak kepada beberapa pelanggan baru, dan dapat membandingkan tingkat konversi, dan akhirnya memilih untuk mengimplementasikan versi dengan tingkat konversi tertinggi.

Ini adalah masalah desain percobaan perbandingan, dan Anda memerlukan metode statistik untuk membandingkan persentase, atau mungkin secara langsung tabel kontingensi desain versus konversi / tanpa konversi. Contoh itu dapat menunjukkan kepada mereka bahwa statistik sebenarnya dapat berguna bagi mereka dalam beberapa pekerjaan pengembangan web! Dan, dari sisi statistik, terbuka untuk banyak pertanyaan menarik tentang validitas asumsi ...

Untuk terhubung dengan apa yang Anda katakan tentang teorema batas pusat, Anda dapat bertanya berapa banyak pengamatan yang Anda butuhkan sebelum Anda dapat memperlakukan persentase seperti yang didistribusikan secara normal, dan minta mereka mempelajari bahwa menggunakan simulasi ...

Anda dapat mencari di situs ini untuk pertanyaan statistik lain yang diajukan oleh tipe programmer ...


-2

Saya menyarankan agar, sebelum contoh yang baik, lebih baik fokus pada definisi yang jelas. Dalam pengalaman saya, probabilitas sarjana dan statistik adalah kursus yang diisi dengan kata-kata yang tidak dipahami oleh siswa. Sebagai percobaan, tanyakan kepada siswa yang baru saja menyelesaikan kursus probabilitas apa "variabel acak" itu. Mereka mungkin memberi Anda contoh, tetapi saya ragu sebagian besar akan memberi Anda definisi yang jelas tentang itu. Apa sebenarnya "probabilitas"? Apa itu "distribusi"? Terminologi dalam statistik bahkan lebih membingungkan. Sebagian besar buku sarjana yang saya lihat melakukan pekerjaan yang sangat buruk ketika menjelaskan ini. Contoh dan perhitungan bagus, tetapi tanpa definisi yang jelas itu tidak membantu seperti yang dipikirkan orang. Berbicara dari pengalaman saya, inilah mengapa saya membenci teori probabilitas sebagai sarjana. Meskipun minat saya sejauh mungkin dilepaskan dari kemungkinan, saya sekarang menghargai subjek, karena saya akhirnya belajar sendiri apa arti sebenarnya dari semua terminologi. Saya minta maaf bahwa ini bukan apa yang Anda minta, tetapi mengingat bahwa Anda mengajar kelas seperti itu saya pikir ini akan menjadi saran yang berguna.


1
Saya tidak yakin bahwa saya setuju - setidaknya tidak dalam sebagian besar / semua kasus. Untuk beberapa orang, pemahaman konseptual dapat, seperti yang Anda sarankan, mendahului aplikasi untuk contoh-contoh tertentu, tetapi untuk siswa lain, pemahaman konseptual (terutama untuk topik-topik rumit) hanya dapat terjadi melalui penggunaan contoh yang sangat mencerahkan.
jsakaluk

Ketika saya masih sarjana, saya biasanya tidak terlalu sulit membaca matematika pascasarjana dan menyelesaikan masalah di sana. Saya tahu apa yang saya lakukan dan apa yang harus saya lakukan. Teori probabilitas, atau statistik, "lebih mudah" daripada mata pelajaran yang saya pelajari. Tetapi saya tidak tahu apa yang saya lakukan atau mengapa saya harus melakukannya. Buku-buku teks itu sendiri sama sekali tidak membantu saya. Setelah membacanya saya tidak begitu mengerti kosa kata. Tentu, saya bisa melakukan perhitungan tetapi pada akhirnya, saya hanya melihatnya sebagai subjek kosong. Jika saya memiliki kebingungan ini, al fortiorti, siswa cenderung non-matematika juga.
Nicolas Bourbaki

5
Saya bertanya-tanya apakah ini mungkin saran yang lebih bermanfaat untuk mengajar mungkin untuk siswa yang sangat cerdas pada gelar matematika murni daripada untuk mengajar statistik terapan untuk jurusan CS.
Silverfish

@Siverfish Saya tidak yakin apakah saran saya hanya berlaku untuk siswa matematika. Seseorang dapat mengembangkan bahasa teori ukuran dan menunjukkan bagaimana probabilitas dinyatakan di dalamnya, tanpa masuk ke dalam teori. Ini benar-benar tidak ada bedanya dengan kalkulus dasar. Sebagian besar buku setidaknya mendefinisikan istilah mereka tetapi mereka tidak masuk ke teori mereka. Jika siswa memahami bahwa statistik adalah masalah kebalikan dari probabilitas, dan bahwa, misalnya, kami "peduli" tentang rata-rata karena mendekati nilai yang diharapkan dari variabel acak, maka mereka mungkin lebih menghargainya.
Nicolas Bourbaki
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.