Bagaimana cara melakukan uji-t dengan sampel besar?


11

Saya memiliki dua populasi, Satu dengan N = 38.704 (jumlah pengamatan) dan lainnya dengan N = 1.313.662. Set data ini memiliki ~ 25 variabel, semuanya bersambungan. Saya mengambil rata-rata dari setiap set data dan menghitung statistik uji menggunakan rumus

t = rata-rata perbedaan / kesalahan std

Masalahnya adalah tingkat kebebasan. Dengan rumus df = N1 + N2-2 kita akan memiliki lebih banyak kebebasan daripada yang bisa ditangani tabel. Ada saran tentang ini? Cara memeriksa statistik t di sini. Saya tahu bahwa uji-t digunakan untuk menangani sampel tetapi bagaimana jika kita menerapkan ini pada sampel besar.

Jawaban:


20

chl telah menyebutkan perangkap beberapa perbandingan ketika melakukan secara bersamaan 25 tes dengan kumpulan data yang sama. Cara mudah untuk mengatasinya adalah dengan menyesuaikan ambang nilai p dengan membaginya dengan jumlah tes (dalam kasus ini 25). Rumus yang lebih tepat adalah: Nilai p yang disesuaikan = 1 - (nilai 1 - p) ^ (1 / n). Namun, dua formula yang berbeda memperoleh nilai p yang disesuaikan hampir sama.

Ada masalah besar lainnya dengan latihan pengujian hipotesis Anda. Anda pasti akan mengalami kesalahan Tipe I (false positive) di mana Anda akan menemukan beberapa perbedaan yang sangat sepele yang sangat signifikan pada level 99,9999%. Ini karena ketika Anda menangani sampel dengan ukuran besar (n = 1.313.662), Anda akan mendapatkan kesalahan standar yang sangat mendekati 0. Itu karena akar kuadrat dari 1.313.662 = 1.146. Jadi, Anda akan membagi standar deviasi dengan 1.146. Singkatnya, Anda akan menangkap perbedaan kecil yang mungkin sepenuhnya tidak penting.

Saya akan menyarankan Anda menjauh dari kerangka pengujian hipotesis ini dan sebagai gantinya melakukan analisis tipe Ukuran Efek. Dalam kerangka kerja ini, ukuran jarak statistik adalah standar deviasi. Berbeda dengan kesalahan standar, deviasi standar tidak menyusut secara artifisial berdasarkan ukuran sampel. Dan, pendekatan ini akan memberi Anda perasaan yang lebih baik tentang perbedaan materi antara set data Anda. Ukuran Efek juga jauh lebih fokus pada interval kepercayaan di sekitar perbedaan rata-rata rata-rata yang jauh lebih informatif daripada pengujian hipotesis yang berfokus pada signifikansi statistik yang seringkali tidak signifikan sama sekali. Semoga itu bisa membantu.


4
+1 untuk memunculkan ide-ide kunci: (1) kami dapat menjamin cara akan berbeda ketika dataset sebesar ini dan (2) beberapa analisis lain cenderung lebih tepat dan berguna. Tetapi karena kita tidak tahu tentang tujuan analisis, kita harus berhati-hati dalam membuat rekomendasi khusus.
whuber

Terima kasih Gaetan..tolong ... Saya pikir apa yang saya ambil dari ini adalah bahwa standar deviasi adalah ukuran yang lebih baik ketika Anda memiliki sampel besar seperti milik saya .. tolong beri tahu saya jika saya melewatkan sesuatu.
ayush biyani

1
ayush ... Anda benar. Itu pada dasarnya. Dan, ini karena kesalahan standar Anda akan menjadi sangat kecil (karena ukuran sampel yang besar). Ini pada gilirannya melebih-lebihkan jarak statistik antara tes Anda dan kelompok kontrol. Dan, menyebabkan Anda akhirnya mengalami Kesalahan Tipe I (mengungkap perbedaan yang sangat kecil hingga tidak penting). Ini adalah masalah umum dalam pengujian hipotesis dengan sampel besar.
Sympa

14

Distribusi t siswa semakin dekat dan semakin dekat dengan distribusi normal standar ketika derajat kebebasan semakin besar. Dengan 1313662 + 38704 - 2 = 1352364 derajat kebebasan, distribusi- t akan dapat dibedakan dari distribusi normal standar, seperti yang dapat dilihat pada gambar di bawah ini (kecuali mungkin Anda berada di ekor yang sangat ekstrim dan Anda tertarik membedakan nilai p benar-benar kecil dari yang lebih kecil). Jadi, Anda dapat menggunakan tabel untuk distribusi normal standar dan bukan tabel untuk distribusi- t .

teks alternatif


Kawan, terima kasih atas jawabannya. Saya punya data untuk dianalisis. Bagaimana cara melampirkan data ke ini. Banyak yang bertanya pada kalian, terima kasih banyak. Mengharapkan balasan secepatnya.
ayush biyani

4
Hah? Anda mengatakan dalam pertanyaan Anda sudah menghitung statistik-t, dan chl telah memberikan kode sampel R. Apa lagi yang kamu inginkan? Ngomong-ngomong, saya tidak yakin Anda memiliki hak untuk mengharapkan atau meminta balasan secepatnya; kami tidak dibayar untuk ini lho.
onestop

1
@ayush Untuk pertanyaan Anda sebelumnya, saya memberikan jawaban lengkap untuk pertanyaan Anda (IMHO) - lalu saya memberikan beberapa tindak lanjut atas komentar Anda sebelum berhenti ketika saya pikir Anda menanyakan pertanyaan lain yang bukan tujuan dari opsi komentar di sini . Jadi, saya sarankan agar Anda menyatakan dengan jelas apakah pertanyaan Anda terkait dengan pertimbangan teoretis atau analisis data terapan (dalam kasus terakhir, beri kami contoh yang dapat direproduksi) atau pisahkan pertanyaan Anda. BTW, Anda masih memiliki opsi untuk menerima jawaban yang menurut Anda berguna (sekali lagi, tulis pertanyaan awal Anda, bukan komentar yang mengikuti).
chl

2
@ayush Ah, dan saya baru menyadari bahwa Anda tidak pernah memilih jawaban yang diberikan kepada Anda (meskipun Anda memiliki cukup perwakilan sekarang).
chl

@ chl-- yeah..bahkan saya menyadari kesalahan saya ini dan akan memperbaikinya pasti di posting yang akan datang..Terima kasih untuk menunjukkan ini..Pertimbangkan untuk beberapa hari seorang amatir yang naif ..
ayush biyani

10

The distribusi cenderung ke (gaussian) distribusi ketika adalah besar (pada kenyataannya, ketika , mereka hampir identik, lihat gambar yang disediakan oleh @onestop). Dalam kasus Anda, saya akan mengatakan bahwa SANGAT besar, sehingga Anda bisa menggunakan -test. Sebagai konsekuensi dari ukuran sampel, setiap perbedaan SANGAT kecil akan dinyatakan signifikan. Jadi, ada baiknya bertanya pada diri sendiri apakah tes ini (dengan set data lengkap) benar-benar menarik.ztzn > 30 n znn>30nz

Hanya untuk memastikan, karena set data Anda mencakup 25 variabel, Anda membuat 25 tes? Jika demikian, Anda mungkin perlu mengoreksi beberapa perbandingan agar tidak menaikkan tingkat kesalahan tipe I (lihat utas terkait di situs ini).

BTW, perangkat lunak R akan memberi Anda nilai-p yang Anda cari, tidak perlu bergantung pada Tabel:

> x1 <- rnorm(n=38704)
> x2 <- rnorm(n=1313662, mean=.1)
> t.test(x1, x2, var.equal=TRUE)

    Two Sample t-test

data:  x1 and x2 
t = -17.9156, df = 1352364, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0 
95 percent confidence interval:
 -0.1024183 -0.0822190 
sample estimates:
  mean of x   mean of y 
0.007137404 0.099456039 
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.