Uji t Welch memberikan nilai p lebih buruk untuk perbedaan yang lebih ekstrem


8

Berikut adalah empat set angka yang berbeda:

A = {95.47, 87.90, 99.00}
B = {79.2, 75.3, 66.3}
C = {38.4, 40.4, 32.8}
D = {1.8, 1.2, 1.1}}

Menggunakan uji-t dua sampel tanpa mengasumsikan varians yang sama, saya membandingkan B, C, dan D dengan A dan mendapatkan nilai-p berikut:

0,015827 (A vs B)
0,000283 (A vs C)
0,001190 (A vs D)

Saya merasa aneh bahwa nilai-p dari tes AD lebih buruk daripada tes AC: perbedaan antara rata-rata jauh lebih besar DAN varian D jauh lebih rendah daripada varian C. Secara intuitif (setidaknya untuk intuisi saya ), kedua fakta ini harus mendorong nilai-p lebih rendah.

Bisakah seseorang menjelaskan apakah ini merupakan perilaku yang diinginkan atau diharapkan dari uji-t atau apakah itu harus dilakukan lebih dengan set data khusus saya (mungkin ukuran sampel sangat rendah?). Apakah uji-t tidak sesuai untuk set data tertentu ini?

Dari sudut pandang komputasi murni, alasan untuk nilai-p yang lebih buruk tampaknya adalah derajat kebebasan, yang dalam perbandingan AD adalah 2,018 sementara itu adalah 3,566 dalam perbandingan AC. Tapi tentu saja, jika Anda hanya melihat angka-angka itu, tidakkah Anda berpikir bahwa ada bukti kuat untuk menolak hipotesis nol dalam kasus AD dibandingkan dengan AC?

Beberapa mungkin menyarankan bahwa ini bukan masalah di sini karena semua nilai p cukup rendah. Masalah saya adalah bahwa 3 tes ini adalah bagian dari serangkaian tes yang saya lakukan. Setelah mengoreksi beberapa pengujian, perbandingan AD tidak menghasilkan potongan, sedangkan perbandingan AC tidak. Bayangkan memplot angka-angka itu (katakan plot-bar dengan bar kesalahan seperti yang sering dilakukan para ahli biologi) dan mencoba membenarkan mengapa C berbeda secara signifikan dari A tetapi D tidak ... yah, saya tidak bisa.

Perbarui: mengapa ini sangat penting

Izinkan saya mengklarifikasi mengapa pengamatan ini dapat memiliki dampak besar pada penafsiran studi sebelumnya. Dalam bioinfomatika, saya telah melihat uji-t diterapkan pada ukuran sampel kecil dalam skala besar (pikirkan ekspresi gen diferensial ratusan atau ribuan gen, atau efek dari banyak obat berbeda pada garis sel, hanya menggunakan 3-5 ulangan ). Prosedur yang biasa dilakukan adalah dengan melakukan banyak tes-t (satu untuk setiap gen atau obat) diikuti dengan beberapa pengujian koreksi, biasanya FDR. Mengingat pengamatan di atas dari perilaku uji-t Welch, ini berarti bahwa beberapa kasus terbaik sedang disaring secara sistematis. Meskipun kebanyakan orang akan melihat data aktual untuk perbandingan di bagian atas daftar mereka (yang dengan nilai p terbaik), saya tidak tahu siapa pun yang akan melihat daftar semua perbandingan di mana hipotesis nol tidak ada t ditolak.


1
Ingat, rumus Welch adalah perkiraan. Studi simulasi menunjukkan "koreksi Welch menjadi terlalu konservatif ketika ukuran sampel sangat tidak setara," yang merupakan kasus dengan perbandingan AD.
whuber

1
Ukuran sampel sama dalam hal ini @whuber. Apakah maksud Anda varians sampel?
ALiX

1
Terima kasih, ALiX, Anda benar. Untuk kasus varian yang sangat tidak sama dan ukuran sampel yang sama, saya harus mengutip kesimpulan yang berbeda (yang bahkan lebih buruk!): "... kesalahan tipe I ... menjadi meningkat ke berbagai derajat, sehingga tes tidak valid dan seharusnya tidak digunakan. "
whuber

Saya ingin tahu apakah data Anda dihitung dari rna-seq? Jika demikian, bolehkah saya menyarankan Anda melihat ke DESeq (paket R / Bioconductor)? genomebiology.com/2010/11/10/R106
bdemarest

Jawaban:


3

Ya, itu adalah derajat kebebasan. Statistik t sendiri meningkat ketika kami membandingkan kelompok B, C, D ke A; pembilangnya menjadi lebih besar dan penyebutnya menjadi lebih kecil.

Mengapa pendekatan Anda tidak berhasil? Nah, perkiraan Satterthwaite untuk derajat kebebasan, dan distribusi referensi (seperti namanya!) Hanyalah perkiraan. Ini akan bekerja dengan baik jika Anda memiliki lebih banyak sampel di setiap kelompok, dan tidak data yang sangat berat; 3 pengamatan per kelompok sangat kecil untuk sebagian besar tujuan. (Juga, sementara nilai-p berguna untuk melakukan tes, nilai-nilai itu tidak mengukur bukti dan tidak memperkirakan parameter dengan interpretasi langsung dalam hal data.)

Jika Anda benar-benar ingin menghitung distribusi statistik uji yang tepat - dan nilai p yang dikalibrasi lebih baik - ada metode yang dikutip di sini yang dapat digunakan. Namun, mereka mengandalkan asumsi Normality, sebuah asumsi yang Anda tidak memiliki kemampuan yang cukup untuk memeriksa, di sini.


Lebih banyak sampel saja tidak akan membantu: Saya akan mendapatkan nilai-p yang lebih rendah, tetapi urutan nilai-p akan sama. Lihat pembaruan saya mengapa ini penting dalam beberapa aplikasi.
ALiX

Saya setuju fenomena ini bisa menjadi penting, tetapi lebih banyak sampel per kelompok akan membantu; asimptotik, tes ini memberikan nilai-p yang akurat. Namun, dengan kelompok-kelompok kecil ada metode yang tepat (misalnya SAM, oleh Tibshirani) yang mendapatkan validitas statistik mereka dari analisis berbasis permutasi.
tamu

Jika ada perbedaan besar antara varian kedua kelompok, peningkatan ukuran sampel tidak akan membantu dalam arti bahwa urutan nilai-p akan salah (yaitu, AC masih akan memiliki nilai-p lebih rendah dari AD). SAM tidak dapat digunakan jika Anda menguji efek dari banyak senyawa pada konsentrasi yang berbeda (ini harus menjadi aplikasi ideal uji-t). T-test Welch bagi saya tampaknya cacat secara mendasar : tujuannya adalah untuk menangani varian yang tidak sama, tetapi semakin beragam variasinya, semakin buruk kinerjanya (tingkat perkiraan kebebasan rusak).
ALiX

1
Jika Anda ingin perbandingan berpasangan dari berbagai tingkat konsentrasi, dan sedang menguji tingkat ekspresi gen di atas banyak gen, maka SAM dapat digunakan untuk setiap perbandingan berpasangan, dan akan memberi Anda pernyataan jujur ​​tentang signifikansi statistik untuk setiap perbandingan. Maka Anda dapat, jika Anda mau, gunakan ini untuk memberi peringkat perbandingan. Juga, tes Welch tidak cacat secara mendasar. Tentu, itu tidak bekerja dengan baik dengan n = 3, tapi ini bukan apa yang diklaimnya untuk dilakukan. Sebuah pompa sepeda tidak ada harapan untuk mengupas kentang, tetapi ini tidak berarti Anda dapat menyimpulkan bahwa itu adalah "cacat mendasar".
tamu

1
Urutannya berpotensi salah, apa pun yang Anda lakukan, jadi itu tidak membantu. Jika Anda ingin memesan dengan signifikansi statistik dari perbedaan rata-rata antara kelompok dalam data aktual Anda, dan memiliki sampel ukuran sedang, nilai-p dari uji Welch akan baik-baik saja. Dengan ukuran sampel yang kecil, tidak, itu tidak akan baik-baik saja, tetapi mengingat itu dikembangkan sebagai perkiraan dan bekerja lebih baik daripada banyak pesaing, ini bukan alasan untuk kritik.
tamu

1

Ada cukup banyak pertanyaan ini, dan saya cukup yakin bahwa beberapa di antaranya di luar pemahaman saya. Jadi, sementara saya memiliki solusi yang mungkin untuk 'masalah' dan beberapa spekulasi, Anda mungkin perlu memeriksa 'pekerjaan' saya.

Anda tertarik pada bukti. Fisher mengusulkan penggunaan nilai p sebagai bukti tetapi bukti dalam dataset terhadap hipotesis nol lebih mudah (masuk akal?) Ditunjukkan dengan fungsi kemungkinan daripada nilai p. Namun, nilai p yang lebih ekstrim adalah bukti kuat.

Ini solusi saya: Jangan gunakan uji-Welch, tetapi alih-alih ubah data dengan transformasi akar-persegi untuk menyamakan varians dan kemudian gunakan uji-t Student standar. Transformasi itu berfungsi baik pada data Anda dan merupakan salah satu pendekatan standar untuk data yang heteroscedastic. Urutan nilai p sekarang sesuai dengan intuisi Anda dan akan berfungsi sebagai bukti.

Jika Anda menggunakan nilai p sebagai bukti daripada berusaha melindungi terhadap kesalahan positif palsu jangka panjang, maka argumen untuk menyesuaikan nilai p untuk beberapa perbandingan menjadi cukup lemah, menurut saya.

Sekarang, bagian spekulatif. Seperti yang saya pahami, uji-t Welch adalah solusi untuk masalah Fisher-Behrens (pengujian berarti di mana data memiliki varian yang tidak sama), tetapi ini adalah solusi yang tidak disukai oleh Fisher. Mungkin itu adalah Neyman-Pearsonian dalam filosofi dasarnya. Bagaimanapun, jumlah bukti dalam nilai ap dari uji-t tergantung pada nilai p DAN pada ukuran sampel. (Itu tidak diakui secara luas, mungkin karena bukti dalam nilai ap dari uji-z tidak tergantung pada ukuran sampel.) Saya menduga bahwa uji Welch mengacaukan sifat bukti dari nilai p dengan penyesuaian derajat kebebasan.


Terima kasih telah menunjukkan transformasi akar kuadrat sebagai solusi. Saya akan memeriksanya.
ALiX

(lanjutan) Saya tidak terlalu mengerti komentar Anda tentang nilai-p dan beberapa pengujian. Apakah ada kontradiksi antara menggunakan nilai-p sebagai bukti dan penyesuaian untuk beberapa pengujian? Dan komentar terakhir Anda tentang bukti dalam nilai-p dari uji-t tergantung pada ukuran sampel: bukankah derajat kebebasan disesuaikan dengan ukuran sampel? Dan di samping itu, bagaimana hal ini memengaruhi data tertentu ini jika ukuran sampelnya sama untuk semua perbandingan?
ALiX

@AliX Bukti terhadap hipotesis nol dikuantifikasi terbaik oleh fungsi kemungkinan. Untuk uji-t, ketinggian fungsi kemungkinan yang berhubungan dengan nilai p tertentu tergantung pada ukuran sampel. Sebaliknya, dengan uji-z, ketinggian fungsi kemungkinan tidak terpengaruh oleh ukuran sampel. JIKA Anda tertarik pada bukti maka saya sarankan Anda melihat Bukti Statistik: Paradigma Kemungkinan oleh Richard Royall.
Michael Lew

1

Setelah menggali, saya pikir vonis terakhir saya kira-kira seperti ini:

Untuk menyederhanakan diskusi, mari kita pertimbangkan hanya kasus ketika ukuran sampel sama. Dalam hal itu, perkiraan derajat kebebasan dapat ditulis sebagai

(s12n+s22n)2s14n2(n1)+s24n2(n1)=...=(n1)(1+2s12s22s14+s24),

dimana s12 dan s22 adalah varians sampel dan nadalah ukuran sampel. Karena itu, derajat kebebasannya adalah(n1)2 ketika varians sampel sama dan mendekati (n1)karena ukuran sampel menjadi lebih tidak merata. Ini berarti bahwa derajat kebebasan akan berbeda dengan faktor hampir 2 hanya berdasarkan varian sampel. Bahkan untuk ukuran sampel berukuran cukup (katakanlah 10 atau 20) situasi yang digambarkan dalam pos utama dapat dengan mudah terjadi.

Ketika banyak uji-t dilakukan, menyortir perbandingan berdasarkan nilai-p dapat dengan mudah menghasilkan perbandingan terbaik yang tidak mencapai puncak daftar, atau dikecualikan setelah disesuaikan untuk beberapa pengujian.

Pendapat pribadi saya adalah bahwa ini adalah cacat mendasar dalam uji-t Welch karena ini dirancang untuk perbandingan antara sampel dengan varian yang tidak sama, namun semakin tidak sama variannya, semakin banyak Anda kehilangan daya (dalam arti bahwa pemesanan -nilai akan salah).

Satu-satunya solusi yang dapat saya pikirkan adalah dengan menggunakan beberapa pengujian berbasis permutasi sebagai gantinya atau mengubah data sehingga varians dalam tes Anda tidak terlalu jauh satu sama lain.


1
Saya tidak berpikir itu harus disebut "cacat mendasar." Semuanya relatif terhadap sesuatu. Welch's t-test keluar sebagai tanggapan terhadap kesalahan tipe I dari uji-t dari varian spooled yang diremehkan, jadi ini merupakan cara yang lebih baik untuk mengendalikan kesalahan tipe I "dibandingkan dengan" t-test spooled variance. Tetapi ketika datang ke MCP dan nilai-p sangat rendah, itu pasti memiliki masalah.
KH Kim

2
Bagaimana Anda akan mengatur permutasi Anda? Jika sampel benar-benar berasal dari populasi yang berbeda dalam varians kemudian bahkan di bawah nol, label grup tidak sembarangan - saman, jika suatu nilai dekat dengan nilai rata-rata, itu jauh lebih mungkin berasal dari grup dengan varian yang lebih kecil. Jadi Anda tampaknya tidak dapat membuat argumen bahwa Anda dapat mengubah tanda label di bawah nol.
Glen_b -Reinstate Monica

0

Sejauh yang saya tahu, saya mendengar uji-t Welch yang menggunakan perkiraan Satterthwaite

diverifikasi untuk uji signifikansi 0,05.

Yang berarti ketika P (kombinasi linear dari distribusi chi-squared> c) = 0,05,

kita bisa mendapatkan perkiraan c.

Jadi, saya pikir p-value cukup dapat diandalkan sekitar 0,05,

Dan jelas tidak begitu ketika mendapat kurang dari 0,05.

p1 = 0 p2 = 0 untuk (m dalam 1:50) {a <-c (-m + 95,47, -m + 87,90, -m + 99,00) c <-c (38,4, 40,4, 32,8) d <-c (1.8, 1.2, 1.1) p1 [m] = t.test (a, c, var.eqaul = F)p.valuep2[m]=t.test(a,d,var.eqaul=F)p.value} plot (1:50, p1, col = "hitam") poin (1:50, p2, col = "red")

Anda dapat melihat nilai-p menjadi lebih benar saat mendekati 0,05 ...

Jadi, kita tidak boleh menggunakan nilai-p yang jauh lebih kecil dari 0,05 ketika menggunakan uji-Welch.

Jika digunakan, saya pikir kita harus menulis makalah tentang itu.

Bagaimanapun, saya sedang menulis tentang "Statistik" dan tema ini menarik.

Saya berharap dapat menggunakan data Anda menulis buku dengan izin Anda.

Apakah Anda akan membiarkan saya menggunakan data Anda?

Dan saya akan berterima kasih jika Anda bisa memberi tahu sumber data dan konteks dari mana

mereka datang!


Saya melakukan riset tentang ini dan saya menemukan perkiraan berjalan seperti ini. Anda ingin mengetahui distribusi chi_1 ^ 2 (df1) + b chi_2 ^ 2 (df2) tetapi distribusi yang tepat sangat rumit sehingga pendekatannya masuk. Dan biarkan chi_1 ^ 2 + b chi_2 ^ 2 = c chi_3 ^ 2 (df3), dan atur df3 sehingga rata-rata dan momen kedua dari dua distribusi adalah sama. jadi p = 0,5 tepat tetapi karena semakin jauh dari itu perbedaan b2 p tepat dan perkiraan p semakin besar. Saya ingat ketika t Welch dilakukan, R selalu mencetak "p-value tidak tepat" kurasa
KH Kim

Saya hanya menganalisis data, dan karena itu, data itu sebenarnya bukan milik saya. Tetapi begitu data dipublikasikan (harus segera), Anda harus dapat menggunakannya sesuka Anda.
ALiX
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.