Misalkan Anda telah diberi beberapa data dari rancangan acak kelompok dengan 4 kali pengulangan dan 23 kali perawatan. Setelah pemeriksaan awal data, Anda perhatikan bahwa untuk 8 perawatan semua pengulangan adalah identik, yang jelas salah. Setelah melaporkan masalah, Anda diberi tahu bahwa itu karena kebingungan dari orang yang bertanggung jawab atas data tersebut, yang nantinya akan mengirimkan kepada Anda "versi yang benar" dari data tersebut. Versi data yang dikoreksi akan menjadi seperti ini:
Nilai Rep pengobatan A 1 5727.000 A 2 5400.000 A 3 5800.000 A 4 5473.000 B 1 4618.000 B 2 4844.000 B 3 4966.000 B 4 4496.000 ... Z 1 4329.345 Z 2 4597.275 Z 3 4833.246 Z 4 4199.098
Hal pertama yang akan menarik perhatian saya dalam data tersebut adalah fakta bahwa hanya delapan perawatan yang masalahnya dilaporkan tidak memiliki fraksi desimal (semua perawatan yang tersisa baik-baik saja). Jadi saya akan memutuskan untuk memberi mereka melihat lebih dekat dan mengurangi setiap pengamatan dari mean sampel dalam perawatan, menemukan sesuatu seperti
Nilai Rep Pengobatan Delta A 1 5727.000 +127 A 2 5400.000 -200 A 3 5800.000 +200 A 4 5473.000 -127 B 1 4618.000 -113 B 2 4844.000 +113 B 3 4966.000 +235 B 4 4496.000 -235 ... Z 1 4329.345 ... Z 2 4597.275 ... Z 3 4833.246 ... Z 4 4199.098 ...
Setelah melihat bahwa perbedaannya simetris di sekitar rata-rata, saya akan segera memanggil orang yang bertanggung jawab atas proyek tersebut, dan melaporkan masalahnya. Tentu saja, saya juga akan menyerah bekerja pada proyek itu.
Meskipun buktinya cukup meyakinkan, akan lebih baik untuk melampirkan probabilitas pada laporan, hanya untuk memberikan gambaran seberapa buruk data itu terlihat. Jadi saya akan memikirkan sesuatu seperti yang berikut dan saya ingin tahu apakah akan ada kesalahan dalam pemikiran saya:
Katakanlah jika data itu sah, akan masuk akal untuk menganggap normalitas untuk data semacam itu, berdasarkan pengalaman dari analisis sebelumnya dari data semacam itu.
Jadi, mari kita mendefinisikan 4 variabel acak normal untuk masing-masing dari empat repetisi dalam setiap perawatan: Simetri (dengan toleransi 0,5) yang diamati di atas dapat dinyatakan sebagai peristiwa: Masih ada padanan lainnya cara di mana sampel dapat diatur untuk memenuhi simetri (X1 + X3 - X4 - X2; X1 + X4 - X2 - X3) sehingga probabilitas simetri (S) akan menjadi:
Ketidaksetaraan itu hanya karena saya tidak ingin menghapus persimpangan.
Jika kita mendefinisikan variabel acak Y sebagai berikut:
Maka dari itu:
Katakanlah dari residual model dengan data itu, saya memperkirakan sebagai 350. Dari itu, saya akan menggunakan CDF y untuk menghitung probabilitas Y jatuh antara -0,5 dan 0,5, yang akan menjadi P (A ) = 0,0005699175
pnorm(0.5, sd = 700, lower = TRUE) - pnorm(-0.5, sd = 700, lower = TRUE)
Dengan demikian, probabilitas S adalah:
Karena tidak akan ada efek blok yang jelas dan data akan berasal dari percobaan acak, akan masuk akal untuk mengasumsikan independensi statistik. Mari kita anggap bahwa dari 8 perawatan yang dicurigai, 3 memiliki simetri ini. Kemudian, dengan asumsi independensi, kita dapat menghitung probabilitas peristiwa semacam itu (sebut saja D) dari distribusi binomial:
D: 3 dari 8 perawatan memiliki simetri pengamatan di sekitar mean sampel.
Saya bukan ahli statistik, jadi saya ingin tahu apakah ada kesalahan dalam alasan itu dan apakah Anda juga akan melaporkan data sebagai penipuan.