Apa yang terjadi dengan signifikansi statistik dalam regresi ketika ukuran data raksasa?


13

Saya membaca pertanyaan ini mengenai regresi skala besar ( tautan ) di mana whuber menunjukkan poin yang menarik sebagai berikut:

"Hampir semua uji statistik yang Anda jalankan akan sangat kuat sehingga hampir pasti untuk mengidentifikasi efek" signifikan ". Anda harus lebih fokus pada kepentingan statistik, seperti ukuran efek, daripada signifikansi."

--- whuber

Saya bertanya-tanya apakah ini adalah sesuatu yang dapat dibuktikan atau hanya beberapa fenomena umum dalam praktek?

Setiap pointer ke bukti / diskusi / simulasi akan sangat membantu.


1
Ukuran efek penting. (+1 untuk jawaban Glen_b). Untuk memberikan contoh cepat: jika kita gemuk kita tidak akan mengubah pola makan kita yang ada untuk diet lebih mahal baru jika mengakibatkan penurunan berat badan 0,05 kg setelah satu bulan bahkan jika itu memiliki -nilai ,0000000001 . Kita akan tetap gemuk, hanya lebih miskin. Untuk semua yang kita tahu penurunan berat badan yang kecil mungkin hanya karena klinik kesehatan bahwa rekaman di mana diambil bergerak dari tanah bangunan tanpa lift ke lantai empat gedung yang sama. (Pertanyaan bagus +1)p0.0000000001
usεr11852 mengatakan Reinstate Monic

Jawaban:


10

Ini cukup umum.

Bayangkan ada efek kecil, tetapi tidak nol (yaitu beberapa penyimpangan dari nol yang dapat diambil tes).

Pada ukuran sampel yang kecil, kemungkinan penolakan akan sangat dekat dengan tingkat kesalahan tipe I (noise mendominasi efek kecil).

Ketika ukuran sampel bertambah, efek yang diperkirakan akan menyatu dengan efek populasi tersebut, sementara pada saat yang sama ketidakpastian dari efek yang diperkirakan akan menyusut (normalnya ), sampai kemungkinan situasi nol cukup dekat dengan efek yang diperkirakan masih masuk dalam sampel yang dipilih secara acak dari populasi, berkurang menjadi nol secara efektif.n

Yang mengatakan, dengan titik nulls, akhirnya penolakan menjadi tertentu, karena di hampir semua situasi nyata ada yang pada dasarnya selalu akan menjadi beberapa jumlah penyimpangan dari nol.


"... karena di hampir semua situasi nyata pada dasarnya selalu ada sejumlah penyimpangan dari nol." Jadi itu ada di sana dan orang bahkan bisa melihatnya. Itu akan menjadi properti yang agak bagus atau bukan?
Trilarion

"Null" di sini mengacu pada hipotesis nol bahwa koefisiennya sama dengan nol?
Arash Howaida

Saya pikir jawaban Glen_b adalah umum dan berlaku untuk setiap pengujian hipotesis dengan titik nol. Dalam konteks regresi, ya, nolnya adalah koefisiennya sama dengan nol. Pemahaman saya sendiri ...
Bayesric

4

Ini bukan bukti, tetapi tidak sulit untuk menunjukkan pengaruh ukuran sampel dalam praktik. Saya ingin menggunakan contoh sederhana dari Wilcox (2009) dengan perubahan kecil:

Bayangkan bahwa untuk ukuran umum kecemasan, seorang peneliti mengklaim bahwa populasi mahasiswa memiliki rata-rata setidaknya 50. Sebagai pemeriksaan pada klaim ini, anggaplah bahwa sepuluh mahasiswa secara acak sampel dengan tujuan pengujian dengan α = .05 . (Wilcox, 2009: 143)H0:μ50α=.05

Kita dapat menggunakan uji-t untuk analisis ini:

T=X¯μos/n

Dengan asumsi sampel yang berarti ( ) adalah 45 dan deviasi standar sampel ( s ) adalah 11,X¯s

T=455011/10=1.44.

Jika Anda melihat tabel yang berisi nilai kritis distribusi Student dengan ν derajat kebebasantν , Anda akan melihat bahwa untuk , P ( T - 1,83 ) = 0,05 . Jadi dengan T = - 1,44 , kita gagal menolak hipotesis nol. Sekarang, mari kita asumsikan kita memiliki mean sampel dan standar deviasi yang sama, tetapi sebaliknya 100 observasi:v=101P(T1.83)=.05T=1.44

T=455011/100=4.55

Untuk , P ( T - 1,66 )v=1001P(T1.66)=.05s/nT=β^jβj(0)se(β^j)


Wilcox, RR, 2009. Statistik Dasar: Memahami Metode Konvensional dan Wawasan Modern . Oxford University Press, Oxford.


1
Terima kasih atas jawabannya. Jawaban Anda memberikan demo konkret jawaban Glen_b: ketika ukuran sampel sangat besar, penyimpangan kecil dari nol (selalu ada penyimpangan kecil dalam praktik) akan ditangkap sebagai efek signifikan.
Bayesric

2

Dalam regresi, untuk model keseluruhan, tesnya adalah F. Di sini

F=RSS1RSS2p2p1RSS2np2
RSS1RSS2

1
Terima kasih atas jawabannya. Namun, saya skeptis tentang "ketika N semakin besar, F semakin besar"; ketika N meningkat, RSS2 meningkat juga, tidak jelas bagi saya mengapa F akan menjadi lebih besar.
Bayesric

@Peter Flom ini tidak nyata tetapi dapatkah Anda melihat di sini stats.stackexchange.com/questions/343518/…
user3022875
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.