Pertimbangkan yang berikut dari hlm. 254-256 dari Sauro, J., & Lewis, JR (2016). Mengkuantifikasi Pengalaman Pengguna: Statistik Praktis untuk Penelitian Pengguna, 2nd Ed. Cambridge, MA: Morgan-Kaufmann (Anda dapat melihat ke dalam di https://www.amazon.com/Quantifying-User-Experience-Second-Statistics/dp/0128023082/ ).
APAKAH ANDA PERLU MENGUJI SETIAP 30 PENGGUNA?
DI SATU SISI
Mungkin sebagian besar dari kita yang telah mengambil kelas statistik pengantar (atau mengenal seseorang yang mengambil kelas seperti itu) telah mendengar aturan praktis bahwa untuk memperkirakan atau membandingkan cara, ukuran sampel Anda harus setidaknya 30. Menurut teorema limit pusat, ketika ukuran sampel meningkat, distribusi rata-rata menjadi lebih dan lebih normal, terlepas dari normalitas distribusi yang mendasarinya. Beberapa studi simulasi telah menunjukkan bahwa untuk berbagai variasi distribusi (tetapi tidak semua — lihat Bradley, 1978), distribusi rata-rata menjadi mendekati normal ketika n = 30.
Pertimbangan lain adalah bahwa sedikit lebih mudah untuk menggunakan skor-z daripada skor-t karena skor-z tidak memerlukan penggunaan derajat kebebasan. Seperti ditunjukkan pada Tabel 9.1 dan Gambar 9.2, pada saat Anda memiliki sekitar 30 derajat kebebasan, nilai t mendekati nilai z. Akibatnya, mungkin ada perasaan bahwa Anda tidak harus berurusan dengan sampel kecil yang memerlukan statistik sampel kecil (Cohen, 1990). ...
DI SAMPING ITU
Ketika biaya sampel mahal, karena biasanya dalam banyak jenis penelitian pengguna (misalnya, pengujian kegunaan yang dimoderasi), penting untuk memperkirakan ukuran sampel yang dibutuhkan seakurat mungkin, dengan pemahaman bahwa itu adalah perkiraan. Kemungkinan 30 adalah sampel yang tepat untuk keadaan tertentu sangat rendah. Seperti ditunjukkan dalam bab-bab kami tentang estimasi ukuran sampel, pendekatan yang lebih tepat adalah dengan mengambil rumus untuk menghitung tingkat signifikansi dari uji statistik dan, menggunakan aljabar untuk menyelesaikan n, mengubahnya menjadi rumus estimasi ukuran sampel. Rumus tersebut kemudian memberikan panduan khusus tentang apa yang harus Anda ketahui atau perkirakan untuk situasi tertentu untuk memperkirakan ukuran sampel yang diperlukan.
Gagasan bahwa bahkan dengan distribusi-t (berlawanan dengan distribusi-z) Anda harus memiliki ukuran sampel minimal 30 tidak konsisten dengan sejarah perkembangan distribusi. Pada tahun 1899, William S. Gossett, lulusan baru dari New College di Oxford dengan gelar dalam bidang kimia dan matematika, menjadi salah satu ilmuwan pertama yang bergabung dengan tempat pembuatan bir Guinness. “Dibandingkan dengan para raksasa pada zamannya, ia menerbitkan sangat sedikit, tetapi kontribusinya sangat penting. ... Sifat dari proses pembuatan bir, dengan variabilitasnya dalam suhu dan bahan-bahan, berarti bahwa tidak mungkin untuk mengambil sampel besar dalam jangka panjang ”(Cowles, 1989, hlm. 108–109).
Ini berarti bahwa Gossett tidak dapat menggunakan skor-z dalam karyanya — mereka tidak bekerja dengan baik dengan sampel kecil. Setelah menganalisis kekurangan distribusi-z untuk uji statistik dengan sampel kecil, ia mengerjakan penyesuaian yang diperlukan sebagai fungsi derajat kebebasan untuk menghasilkan tabelnya, yang diterbitkan dengan nama samaran “Mahasiswa” karena kebijakan Guinness yang melarang publikasi. oleh karyawan (Salsburg, 2001). Dalam pekerjaan yang menyebabkan publikasi tabel, Gossett melakukan versi awal simulasi Monte Carlo (Stigler, 1999). Dia menyiapkan 3.000 kartu berlabel pengukuran fisik yang diambil pada penjahat, mengocoknya, kemudian membagikannya menjadi 750 kelompok ukuran 4 - ukuran sampel jauh lebih kecil dari 30.
REKOMENDASI KAMI
Kontroversi ini mirip dengan argumen "lima sudah cukup" versus "delapan tidak cukup" yang dibahas dalam Bab 6, tetapi diterapkan pada penelitian sumatif dan bukan formatif. Untuk penelitian apa pun, jumlah pengguna yang akan diuji tergantung pada tujuan pengujian dan jenis data yang Anda rencanakan untuk kumpulkan. "Angka ajaib" 30 memiliki beberapa alasan empiris, tetapi menurut kami, itu sangat lemah. Seperti yang dapat Anda lihat dari banyak contoh dalam buku ini yang memiliki ukuran sampel tidak sama dengan 30 (kadang-kadang lebih sedikit, kadang lebih), kami tidak menganggap aturan ini sangat dihargai. Seperti yang dijelaskan dalam bab ukuran sampel untuk penelitian sumatif, ukuran sampel yang sesuai untuk penelitian tergantung pada jenis distribusi, variabilitas data yang diharapkan, tingkat kepercayaan dan kekuatan yang diinginkan,
Seperti diilustrasikan pada Gambar 9.2, ketika menggunakan distribusi t dengan sampel yang sangat kecil (misalnya, dengan derajat kebebasan kurang dari 5), nilai t yang sangat besar mengkompensasi ukuran sampel kecil sehubungan dengan kontrol kesalahan Tipe I ( mengklaim perbedaan adalah signifikan ketika sebenarnya tidak). Dengan ukuran sampel yang kecil ini, interval kepercayaan Anda akan jauh lebih luas daripada apa yang akan Anda dapatkan dengan sampel yang lebih besar. Tetapi begitu Anda berhadapan dengan lebih dari 5 derajat kebebasan, ada sedikit perbedaan absolut antara nilai z dan nilai t. Dari perspektif pendekatan t to z, hanya ada sedikit keuntungan yang diperoleh 10 derajat kebebasan.
Tidak jauh lebih rumit untuk menggunakan distribusi-t daripada distribusi-z (Anda hanya perlu memastikan untuk menggunakan nilai yang tepat untuk derajat kebebasan), dan alasan untuk pengembangan distribusi-t adalah untuk memungkinkan analisis sampel kecil. Ini hanyalah salah satu cara yang kurang jelas di mana praktisi kegunaan mendapat manfaat dari ilmu pengetahuan dan praktik pembuatan bir. Sejarawan statistik secara luas menganggap publikasi Gossett tentang uji-Student sebagai peristiwa penting (Box, 1984; Cowles, 1989; Stigler, 1999). Dalam sebuah surat kepada Ronald A. Fisher (salah satu bapak statistik modern) yang berisi salinan awal tabel, Gossett menulis, "Anda mungkin satu-satunya orang yang akan menggunakannya" (Box, 1978). Gossett melakukan banyak hal dengan benar, tetapi tentu saja dia salah.
REFERENSI
Box, GEP (1984). Pentingnya praktik dalam pengembangan statistik. Technometrics, 26 (1), 1-8.
Box, JF (1978). Fisher, kehidupan seorang ilmuwan. New York, NY: John Wiley.
Bradley, JV (1978). Kekokohan? Jurnal Inggris Matematika dan Statistik Psikologi, 31, 144-152.
Cohen, J. (1990). Hal-hal yang telah saya pelajari (sejauh ini). American Psychologist, 45 (12), 1304-1312.
Cowles, M. (1989). Statistik dalam psikologi: Perspektif historis. Hillsdale, NJ: Lawrence Erlbaum.
Salsburg, D. (2001). Wanita itu mencicipi teh: Bagaimana statistik merevolusi sains di abad kedua puluh. New York, NY: WH Freeman.
Stigler, SM (1999). Statistik di atas meja: Sejarah konsep dan metode statistik. Cambridge, MA: Harvard University Press.