Berikut adalah empat set angka yang berbeda:
A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}}
Menggunakan uji-t dua sampel tanpa mengasumsikan varians yang sama, saya membandingkan B, C, dan D dengan A dan mendapatkan nilai-p berikut:
0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)
Saya merasa aneh bahwa nilai-p dari tes AD lebih buruk daripada tes AC: perbedaan antara rata-rata jauh lebih besar DAN varian D jauh lebih rendah daripada varian C. Secara intuitif (setidaknya untuk intuisi saya ), kedua fakta ini harus mendorong nilai-p lebih rendah.
Bisakah seseorang menjelaskan apakah ini merupakan perilaku yang diinginkan atau diharapkan dari uji-t atau apakah itu harus dilakukan lebih dengan set data khusus saya (mungkin ukuran sampel sangat rendah?). Apakah uji-t tidak sesuai untuk set data tertentu ini?
Dari sudut pandang komputasi murni, alasan untuk nilai-p yang lebih buruk tampaknya adalah derajat kebebasan, yang dalam perbandingan AD adalah 2,018 sementara itu adalah 3,566 dalam perbandingan AC. Tapi tentu saja, jika Anda hanya melihat angka-angka itu, tidakkah Anda berpikir bahwa ada bukti kuat untuk menolak hipotesis nol dalam kasus AD dibandingkan dengan AC?
Beberapa mungkin menyarankan bahwa ini bukan masalah di sini karena semua nilai p cukup rendah. Masalah saya adalah bahwa 3 tes ini adalah bagian dari serangkaian tes yang saya lakukan. Setelah mengoreksi beberapa pengujian, perbandingan AD tidak menghasilkan potongan, sedangkan perbandingan AC tidak. Bayangkan memplot angka-angka itu (katakan plot-bar dengan bar kesalahan seperti yang sering dilakukan para ahli biologi) dan mencoba membenarkan mengapa C berbeda secara signifikan dari A tetapi D tidak ... yah, saya tidak bisa.
Perbarui: mengapa ini sangat penting
Izinkan saya mengklarifikasi mengapa pengamatan ini dapat memiliki dampak besar pada penafsiran studi sebelumnya. Dalam bioinfomatika, saya telah melihat uji-t diterapkan pada ukuran sampel kecil dalam skala besar (pikirkan ekspresi gen diferensial ratusan atau ribuan gen, atau efek dari banyak obat berbeda pada garis sel, hanya menggunakan 3-5 ulangan ). Prosedur yang biasa dilakukan adalah dengan melakukan banyak tes-t (satu untuk setiap gen atau obat) diikuti dengan beberapa pengujian koreksi, biasanya FDR. Mengingat pengamatan di atas dari perilaku uji-t Welch, ini berarti bahwa beberapa kasus terbaik sedang disaring secara sistematis. Meskipun kebanyakan orang akan melihat data aktual untuk perbandingan di bagian atas daftar mereka (yang dengan nilai p terbaik), saya tidak tahu siapa pun yang akan melihat daftar semua perbandingan di mana hipotesis nol tidak ada t ditolak.