Apa yang harus dilakukan ketika rata-rata dua sampel berbeda secara signifikan tetapi perbedaannya tampaknya terlalu kecil untuk diperhitungkan

13

Saya punya dua sampel ( dalam kedua kasus). Berarti berbeda sekitar dua kali lipat dari std. dev. Nilai dihasilkan adalah sekitar 10. Sementara itu bagus untuk mengetahui bahwa saya telah meyakinkan menunjukkan bahwa berarti tidak sama, menurut saya ini didorong oleh n besar. Melihat histogram data saya tentu tidak merasa bahwa nilai-p kecil benar-benar mewakili data dan jujur saja tidak benar-benar merasa nyaman mengutipnya. Saya mungkin mengajukan pertanyaan yang salah. Apa yang saya pikirkan adalah: ok, artinya berbeda tetapi apakah itu benar-benar penting karena distribusi memiliki tumpang tindih yang signifikan? $n \approx 70$ $T$

Apakah ini tempat pengujian Bayesian berguna? Jika demikian, di mana tempat yang baik untuk memulai, sedikit googling belum menghasilkan sesuatu yang bermanfaat, tetapi saya mungkin tidak mengajukan pertanyaan yang tepat. Jika ini salah, adakah yang punya saran? Atau apakah ini hanya sebuah poin untuk diskusi yang bertentangan dengan analisis kuantitatif?

hypothesis-testing t-test

— Bowler
sumber

Saya hanya ingin menambahkan ke semua jawaban lain bahwa pernyataan pertama Anda salah: Anda TIDAK secara meyakinkan menunjukkan bahwa caranya berbeda . Nilai-p uji-t memberi tahu Anda apakah probabilitas untuk mengamati data Anda atau nilai yang lebih ekstrem kemungkinan / tidak mungkin diberikan hipotesis nol (yang untuk uji-t adalah , yaitu, : { "Berarti sama"}), yang tidak berarti bahwa berarti, pada kenyataannya, berbeda . Juga, saya berasumsi bahwa Anda juga melakukan uji-F untuk menguji kesetaraan varians sebelum melakukan uji t pooled varians, kan?

μ_{A} = μ_{B}

$\mu_A=\mu_B$

H_{0}

$H_0$

— Néstor

Pertanyaan Anda sangat bagus karena memunculkan perbedaan penting dan itu menunjukkan bahwa Anda benar-benar memikirkan data Anda daripada mencari beberapa bintang pada hasil statistik dan menyatakan diri Anda selesai. Seperti yang ditunjukkan beberapa jawaban, signifikansi statistik tidak sama dengan bermakna . Dan ketika Anda memikirkannya, mereka tidak bisa: bagaimana prosedur statistik mengetahui bahwa perbedaan rata-rata signifikan 0,01 berarti sesuatu di Bidang A, tetapi kecil artinya di Lapangan B?

— Wayne

Cukup adil, langauge tidak tepat tetapi ketika nilai-p seperti yang saya dapatkan, saya cenderung tidak terlalu cerewet tentang kata-kata. Saya memang melakukan F-test (dan QQ-plot). Cukup dekat untuk jazz, seperti kata mereka.

— Bowler

1

FWIW, jika kemampuan Anda terpisah 2 SD, itu sepertinya perbedaan yang cukup besar bagi saya. Itu akan tergantung pada bidang Anda, tentu saja, tetapi itu adalah perbedaan yang orang akan dengan mudah melihat dengan mata telanjang (misalnya, ketinggian rata-rata pria & wanita AS usia 20-29 berbeda sekitar 1,5 SD.) IMO, jika distribusi tidak tumpang tindih sama sekali, Anda tidak benar-benar perlu melakukan analisis data apa pun; minimal, w / sekecil 6, akan <0,05 jika distribusi tidak tumpang tindih.

N

$N$

p

$p$

— gung - Reinstate Monica

Saya setuju perbedaannya besar meskipun ternyata tidak sopan.

— Bowler

12

Biarkan menunjukkan rata-rata populasi pertama dan menunjukkan rata-rata populasi kedua. Tampaknya Anda telah menggunakan dua sampel -test untuk menguji apakah . Hasil signifikan menyiratkan bahwa , tetapi perbedaannya tampaknya kecil untuk aplikasi Anda. $\mu_1$ $\mu_2$ $t$ $\mu_1=\mu_2$ $\mu_1\neq\mu_2$

Apa yang Anda temui adalah fakta bahwa signifikan secara statistik seringkali dapat menjadi sesuatu yang lain daripada signifikan untuk aplikasi . Walaupun perbedaannya mungkin signifikan secara statistik, mungkin masih belum bermakna .

Pengujian Bayesian tidak akan menyelesaikan masalah itu - Anda masih akan menyimpulkan bahwa ada perbedaan.

Namun mungkin ada jalan keluar. Misalnya, untuk hipotesis satu sisi Anda dapat memutuskan bahwa jika adalah unit lebih besar dari maka itu akan menjadi perbedaan yang berarti yang cukup besar untuk masalah bagi aplikasi Anda. $\mu_1$ $\Delta$ $\mu_2$

Dalam hal ini Anda akan menguji apakah daripada apakah . The -statistic (dengan asumsi varians yang sama) akan dalam kasus itu menjadi di mana adalah estimasi standar deviasi yang dikumpulkan. Di bawah hipotesis nol, statistik ini - dengan derajat kebebasan. $\mu_1-\mu_2\leq \Delta$ $\mu_1-\mu_2=0$ $t$

T = \frac{{\bar{x}}_{1} - {\bar{x}}_{2} - Δ}{s_{p} \sqrt{1 / n_{1} + 1 / n_{2}}}

$T=\frac{\bar{x}_1-\bar{x}_2-\Delta}{s_p\sqrt{1/n_1+1/n_2}}$

s_{p}

$s_p$

t

$t$

n_{1} + n_{2} - 2

$n_1+n_2-2$

Cara mudah melaksanakan tes ini adalah untuk mengurangi dari pengamatan Anda dari populasi pertama dan kemudian melaksanakan rutin satu sisi dua-sample -test. $\Delta$ $t$

— MånsT
sumber

8

Adalah sah untuk membandingkan beberapa pendekatan, tetapi tidak dengan tujuan memilih salah satu yang mendukung keinginan / kepercayaan kita.

Jawaban saya untuk pertanyaan Anda adalah: Ada kemungkinan bahwa dua distribusi tumpang tindih sementara mereka memiliki cara yang berbeda, yang tampaknya menjadi masalah Anda (tetapi kami perlu melihat data dan konteks Anda untuk memberikan jawaban yang lebih tepat).

Saya akan menggambarkan ini menggunakan beberapa pendekatan untuk membandingkan cara normal .

1. -test $t$

Pertimbangkan dua sampel simulasi ukuran dari dan , maka nilai- kira-kira seperti dalam kasus Anda (Lihat kode R di bawah). $70$ $N(10,1)$ $N(12,1)$ $t$ $10$

rm(list=ls())
# Simulated data
dat1 = rnorm(70,10,1)
dat2 = rnorm(70,12,1)

set.seed(77)

# Smoothed densities
plot(density(dat1),ylim=c(0,0.5),xlim=c(6,16))
points(density(dat2),type="l",col="red")

# Normality tests
shapiro.test(dat1)
shapiro.test(dat2)

# t test
t.test(dat1,dat2)

Namun kepadatan menunjukkan tumpang tindih yang cukup besar. Tetapi ingat bahwa Anda menguji hipotesis tentang cara, yang dalam hal ini jelas berbeda tetapi, karena nilai , ada tumpang tindih kepadatan. $\sigma$

masukkan deskripsi gambar di sini

2. Kemungkinan profil $\mu$

Untuk definisi kemungkinan dan kemungkinan Profil, lihat 1 dan 2 .

Dalam kasus ini, kemungkinan profil dari sampel ukuran dan rata-rata sampel hanyalah . $\mu$ $n$ $\bar{x}$ $R_p(\mu)=\exp\left[-n(\bar{x}-\mu)^2\right]$

Untuk data yang disimulasikan, ini dapat dihitung dalam R sebagai berikut

# Profile likelihood of mu
Rp1 = function(mu){
n = length(dat1)
md = mean(dat1)
return( exp(-n*(md-mu)^2) )
}

Rp2 = function(mu){
n = length(dat2)
md = mean(dat2)
return( exp(-n*(md-mu)^2) )
}

vec=seq(9.5,12.5,0.001)
rvec1 = lapply(vec,Rp1)
rvec2 = lapply(vec,Rp2)

# Plot of the profile likelihood of mu1 and mu2
plot(vec,rvec1,type="l")
points(vec,rvec2,type="l",col="red")

Seperti yang Anda lihat, interval kemungkinan dan tidak tumpang tindih pada tingkat yang wajar. $\mu_1$ $\mu_2$

3. Posterior menggunakan Jeffrey sebelumnya $\mu$

Pertimbangkan Jeffreys sebelum dari $(\mu,\sigma)$

π (μ, σ) \propto \frac{1}{σ^{2}}

$\pi(\mu,\sigma)\propto \dfrac{1}{\sigma^2}$

Poster untuk setiap set data dapat dihitung sebagai berikut $\mu$

# Posterior of mu
library(mcmc)

lp1 = function(par){
n=length(dat1)
if(par[2]>0) return(sum(log(dnorm((dat1-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

lp2 = function(par){
n=length(dat2)
if(par[2]>0) return(sum(log(dnorm((dat2-par[1])/par[2])))- (n+2)*log(par[2]))
else return(-Inf)
}

NMH = 35000
mup1 = metrop(lp1, scale = 0.25, initial = c(10,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]
mup2 = metrop(lp2, scale = 0.25, initial = c(12,1), nbatch = NMH)$batch[,1][seq(5000,NMH,25)]

# Smoothed posterior densities
plot(density(mup1),ylim=c(0,4),xlim=c(9,13))
points(density(mup2),type="l",col="red")

Sekali lagi, interval kredibilitas untuk sarana tidak tumpang tindih pada tingkat yang wajar.

Sebagai kesimpulan, Anda dapat melihat bagaimana semua pendekatan ini menunjukkan perbedaan berarti (yang merupakan kepentingan utama), meskipun tumpang tindih distribusi.

$\star$ Pendekatan perbandingan yang berbeda

Menilai oleh kekhawatiran Anda tentang tumpang tindih kepadatan, kuantitas lain yang menarik mungkin , probabilitas bahwa variabel acak pertama lebih kecil dari variabel kedua. Kuantitas ini dapat diperkirakan secara nonparametrik seperti pada jawaban ini . Perhatikan bahwa tidak ada asumsi distribusi di sini. Untuk data yang disimulasikan, penaksir ini adalah , menunjukkan beberapa tumpang tindih dalam pengertian ini, sedangkan berbeda secara signifikan. Silakan, lihat kode R yang ditunjukkan di bawah ini. ${\mathbb P}(X<Y)$ $0.8823825$

# Optimal bandwidth
h = function(x){
n = length(x)
return((4*sqrt(var(x))^5/(3*n))^(1/5))
}

# Kernel estimators of the density and the distribution
kg = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(dnorm((x[i]-data)/hb))/hb
return(r )
} 

KG = function(x,data){
hb = h(data)
k = r = length(x)
for(i in 1:k) r[i] = mean(pnorm((x[i]-data)/hb))
return(r ) 
} 

# Baklizi and Eidous (2006) estimator
nonpest = function(dat1B,dat2B){
return( as.numeric(integrate(function(x) KG(x,dat1B)*kg(x,dat2B),-Inf,Inf)$value))  
}

nonpest(dat1,dat2)

Saya harap ini membantu.

— Komunitas
sumber

2

(+1) Terima kasih atas balasan yang sangat berguna tentang metode baysian. Juga tautan P (X <Y) menjawab masalah lain yang pernah saya tanyakan dalam analisis yang sama.

— Bowler

7

Menjawab Pertanyaan yang Tepat

ok, caranya berbeda tetapi apakah itu benar-benar penting karena distribusi memiliki tumpang tindih yang signifikan?

Setiap tes yang menanyakan apakah cara kelompok berbeda akan, ketika berfungsi dengan benar, memberi tahu Anda apakah cara berbeda. Ini tidak akan memberi tahu Anda bahwa distribusi data itu sendiri berbeda, karena itu adalah pertanyaan yang berbeda. Itu pertanyaan tentu tergantung pada apakah cara yang berbeda tetapi juga pada banyak hal lain yang mungkin (tidak lengkap) diringkas sebagai varians, miring, dan kurtosis.

Anda mencatat dengan benar bahwa kepastian di mana rata-rata bergantung pada jumlah data yang harus Anda perkirakan, sehingga memiliki lebih banyak data akan memungkinkan Anda melihat perbedaan rata-rata dalam distribusi yang hampir tumpang tindih. Tapi Anda bertanya-tanya apakah

seperti p-value kecil benar-benar mewakili data

Memang tidak, setidaknya tidak secara langsung. Dan ini dengan desain. Ini mewakili (kira-kira berbicara) tentang kepastian yang dapat Anda miliki bahwa pasangan statistik sampel tertentu dari data (bukan data itu sendiri) berbeda.

Jika Anda ingin merepresentasikan data itu sendiri dengan cara yang lebih formal daripada sekadar menunjukkan histogram dan menguji momen itu, maka mungkin sepasang plot kepadatan mungkin bisa membantu. Ini lebih tergantung pada argumen yang Anda gunakan untuk membuat tes.

Versi Bayesian

Dalam semua hal ini, 'tes' perbedaan dan uji-T Bayes akan berperilaku dengan cara yang sama karena mereka mencoba melakukan hal yang sama. Satu-satunya keuntungan yang dapat saya pikirkan untuk menggunakan pendekatan Bayesian adalah: a) bahwa akan mudah untuk melakukan tes yang memungkinkan varians yang mungkin berbeda untuk masing-masing kelompok, dan b) bahwa itu akan fokus pada memperkirakan kemungkinan ukuran perbedaan dalam rata-rata daripada menemukan nilai p untuk beberapa uji perbedaan. Yang mengatakan, keuntungan ini sangat kecil: misalnya dalam b) Anda selalu dapat melaporkan interval kepercayaan untuk perbedaan.

Tanda kutip di atas 'tes' disengaja. Tentu saja mungkin untuk melakukan pengujian hipotesis Bayesian, dan orang-orang melakukannya. Namun, saya akan menyarankan bahwa keunggulan komparatif dari pendekatan ini adalah dalam fokus membangun model data yang masuk akal dan mengkomunikasikan aspek-aspek penting dengan tingkat ketidakpastian yang sesuai.

— conjugateprior
sumber

3

Pertama-tama ini bukan masalah untuk menguji pengujian yang sering dilakukan. Masalahnya terletak pada hipotesis nol bahwa artinya sama persis. Oleh karena itu jika populasi berbeda dalam berarti dengan jumlah kecil dan ukuran sampel cukup besar peluang untuk menolak hipotesis nol ini sangat tinggi. Oleh karena itu nilai p untuk tes Anda ternyata sangat kecil. Pelakunya adalah pilihan hipotesis nol. Pilih d> 0 dan ambil hipotesis nol untuk menjadi bahwa berarti berbeda dengan kurang dari d dalam nilai absolut dengan kurang dari d. Anda memilih d sehingga perbedaan nyata harus cukup besar untuk ditolak. Masalahmu hilang. Pengujian Bayesian tidak menyelesaikan masalah Anda jika Anda bersikeras pada hipotesis nol tentang persamaan hak yang berarti.

— Michael R. Chernick
sumber

Saya menulis jawaban saya pada saat yang sama dengan dua lainnya.

— Michael R. Chernick