Merancang tes untuk seorang paranormal yang mengatakan dia dapat mempengaruhi gulungan dadu

Katakanlah saya memiliki seorang teman (sebut saja dia "George") yang mengatakan bahwa dia dapat mengendalikan lemparan dadu menggunakan pikirannya (yaitu, membuat dadu lebih mungkin jatuh pada angka tertentu yang dia pikirkan).

Bagaimana saya bisa merancang tes yang ketat secara ilmiah untuk menentukan apakah dia benar-benar dapat melakukan ini? (Saya tidak benar-benar berpikir dia bisa, tentu saja, tetapi saya ingin dia menyetujui rincian tes, Amazing Randi-style, sebelum tes dimulai.) Saya ingin mengurangi (sangat mungkin) post-test-alasan bahwa dia akan datang dengan.

Inilah yang saya miliki sejauh ini:

Tentukan teknik fisik dadu-linting (yang dadu, cangkir pengocok, permukaan pendaratan, dll)
Tentukan "sesi tes", yang terdiri dari X gulungan dadu. Ini harus cukup kecil untuk dilakukan dalam satu duduk, tetapi cukup besar untuk menentukan (setelah analisis) dalam kepercayaan 95% -99% apakah dadu jatuh adil, atau disukai satu sisi
Jalankan sesi Y pada dadu yang dipilih (tanpa pengaruh dari George), sebagai "kontrol" untuk memastikan bahwa dadu menunjukkan hasil "adil" sendiri
Jalankan sesi Z dengan George. Sebelum masing-masing, gulirkan dadu yang terpisah untuk menentukan angka apa yang akan "difokuskan" George selama seluruh sesi itu.
Kompilasi dan analisis hasilnya.
George membuat beberapa alasan untuk penampilannya yang suram.

Jadi pertanyaan saya untuk Anda:

Adakah kekurangan atau masalah dengan keseluruhan metodologi saya? Adakah yang George mungkin akan keberatan?
Haruskah saya menggunakan D6? Atau D20? Apakah itu penting? Apakah mati dengan lebih banyak wajah membutuhkan lebih banyak gulungan untuk menghasilkan hasil yang sama percaya diri? Atau sebaliknya? Saya lebih suka gulungan lebih sedikit daripada lebih banyak, karena pertimbangan praktis :)
Apa nilai yang masuk akal untuk X , Y , dan Z ? Mereka tidak sepenuhnya tidak berhubungan; jika nilai X yang saya pilih hanya memungkinkan kepercayaan 95% untuk satu sesi, maka 1 dari setiap 20 sesi bisa "gagal", bahkan tanpa pengaruh George
Bagaimana saya mendefinisikan "sukses" atau "kegagalan" untuk sesi individu? (Saya memang menemukan pertanyaan ini yang melewati rincian uji chi-squared, jadi saya pikir itu metodologi evaluasi saya, tetapi apa yang dimaksud dengan ambang batas kepercayaan yang masuk akal?)
Bagaimana cara menetapkan "sukses" atau "gagal" untuk keseluruhan tes? George mungkin "memenangkan" satu sesi secara kebetulan, tetapi berapa banyak sesi Z yang harus dia lewati untuk lulus seluruh tes?

Saya mungkin akan menganalisis hasil ini dalam spreadsheet MS Excel, jika itu ada bedanya.

probability experiment-design dice

— BradC
sumber

Jika dia hanya memanipulasi dadu dengan pikirannya maka seseorang harus melemparkannya. Saya pikir hal-hal seperti D6 atau D20 harus diserahkan kepada George. Manipulasi macam apa yang George katakan bisa dia lakukan? Apakah dia mengatakan dia bisa membuat nomor tertentu yang dia inginkan? Jika demikian, maka keberhasilan akan menjadi contoh dari angka itu sedangkan kegagalan akan menjadi hal lain.

— Yohanes

@ John - Dia hanya mengklaim bahwa dia dapat membuat nomor itu muncul lebih sering daripada yang seharusnya, bukan karena itu akan selalu muncul nomor itu.

— BradC

(Awalnya menanyakan versi pertanyaan ini di math.stackexchange.com/q/57624/14626 )

— BradC

jawaban Anda pada matematika oleh Michael Hardy dan TonyK keduanya cukup baik.

— John

Saya tidak akan puas dengan tingkat kepercayaan serendah 95% atau bahkan 99%; klaim luar biasa cenderung membutuhkan bukti luar biasa. Atau untuk menempatkannya dalam konteks yang lebih Bayesian, keyakinan saya sebelumnya tentang dia memiliki kemampuan seperti itu sangat rendah sehingga saya akan membutuhkan sejumlah bukti konyol untuk mengubah keyakinan posterior saya secara bermakna.

— Michael McGowan

Jawaban:

Saya akan merekomendasikan menganalisis ini dengan cara berikut:

Hitung setiap peran di mana George berhasil memprediksi hasilnya sebagai keberhasilan, dan setiap peran lainnya sebagai kegagalan. Kemudian, Anda dengan mudah menghitung probabilitas keberhasilan untuk George, dan interval kepercayaan 95% atau 99%. Apakah dia mengklaim dapat memprediksi hasilnya "dua kali lebih baik" daripada secara acak melempar dadu? Kemudian:

H0: p> = 1/3

H1: p <1/3

(dengan asumsi 6-sisi mati).

Dari sana, cukup mudah untuk melakukan uji hipotesis. Juga, Anda dapat menghitung kekuatan apriori dengan cukup mudah (bahkan dalam sesuatu seperti Excel). Pilih sejumlah gulungan (seperti 10), lalu buat tabel dengan kemungkinan keberhasilan sebagai baris (0-10). Kemudian, untuk setiap keberhasilan, hitung probabilitas dia akan memiliki banyak keberhasilan (jika dia hanya menebak, yang kita asumsikan sedang dia lakukan). Juga, untuk setiap nilai, tentukan apakah itu akan mengarah pada penolakan atau penerimaan nol. Kemudian, untuk menemukan kekuatan, Anda bisa menambahkan semua probabilitas di mana null akan ditolak.

— random_forest_fanatic
sumber

D20 akan membutuhkan lebih banyak gulungan untuk level signifikansi yang sama agar George berhasil jika Anda perlu menjalankan uji chi-square. Saya tidak berpikir Anda perlu menjalankan uji chis-square penuh. Anda hanya perlu memeriksa apakah dadu memutar nomor "terpilih" lebih sering daripada kebetulan. Saya hanya akan menggunakan cdf dari binomial untuk menghitung nilai p dari menggulirkan angka yang dipilih lebih sering daripada kebetulan dengan sebagai parameter binomial untuk D6. Saya pikir mudah untuk menentukan angka berdasarkan nilai-p yang Anda butuhkan untuk kesuksesan George. Saya bahkan tidak yakin Anda perlu sesi Z. Mengapa tidak menjalankan satu sesi saja untuk setiap sisi dadu. Apakah mengacak sisi yang dipilih bahkan penting untuk hipotesis yang Anda minati? $\theta=\frac{1}{6}$ $X$

— highBandWidth
sumber

Mengacak sisi yang dipilih mungkin tidak masalah, saya hanya khawatir tentang A) Menghitung setiap kemungkinan bias yang benar dalam dadu dan B) Memastikan ada satu sesi anomali tunggal (bahwa 1 dari 20 karena keacakan sebenarnya yang saya bicarakan) tidak diambil sebagai konfirmasi kemampuan psikisnya. Mungkin 6 sesi, satu untuk setiap angka, akan cukup, selama X saya (dan tingkat kepercayaan diri) cukup tinggi.

— BradC