Good-of-fit untuk ukuran sampel yang sangat besar


12

Saya mengumpulkan sampel kategori data yang sangat besar (> 1.000.000) setiap hari dan ingin melihat data yang terlihat "berbeda" secara signifikan antar hari untuk mendeteksi kesalahan dalam pengumpulan data.

Saya pikir menggunakan tes good-of-fit (khususnya, G-test) akan menjadi cocok (pun intended) untuk ini. Distribusi yang diharapkan diberikan oleh distribusi hari sebelumnya.

Tapi, karena ukuran sampel saya sangat besar, tes ini memiliki daya yang sangat tinggi dan mengeluarkan banyak positif palsu. Dengan kata lain, fluktuasi harian yang sangat kecil sekalipun akan memberikan nilai p mendekati nol.

Saya akhirnya mengalikan statistik pengujian saya dengan beberapa konstan (0,001), yang memiliki interpretasi yang bagus dari pengambilan sampel data pada tingkat itu. Artikel ini tampaknya setuju dengan pendekatan ini. Mereka mengatakan itu:

Chi square paling dapat diandalkan dengan sampel antara sekitar 100 hingga 2500 orang

Saya mencari beberapa komentar yang lebih otoritatif tentang ini. Atau mungkin beberapa solusi alternatif untuk false positive ketika menjalankan tes statistik pada set data besar.


3
Itu pertanyaan yang bagus. Namun, tidak ada dasar yang dapat didukung secara obyektif untuk pendekatan ad hoc Anda . Itu tidak berarti itu akan berkinerja buruk - tetapi sangat menyarankan ada prosedur yang lebih baik. Untuk menemukannya, akan membantu jika Anda dapat mengedit pertanyaan ini untuk menjelaskan jenis kesalahan apa yang Anda coba identifikasi, termasuk seberapa besar kesalahan itu, berapa banyak dari mereka yang mungkin terjadi, dan apa akibatnya dari (a) gagal mengidentifikasi beberapa kesalahan dan (b) menandai data yang benar sebagai kesalahan.
whuber

2
Dari sudut pandang matematika, uji good-of-fit dengan sangat besar baik-baik saja - hanya saja hipotesis nol yang sesuai tidak terlalu menarik: Mengapa Anda ingin mengajukan pertanyaan "ya / tidak" ketika Anda bisa dapatkan jawaban "berapa banyak"? Dalam kasus Anda, setiap hari, Anda dapat memperkirakan perubahan proporsi untuk setiap kategori, menambahkan interval kepercayaan masing-masing dan melihat apakah mereka tidak mencapai wilayah toleransi yang telah ditentukan sekitar 0.n
Michael M

Penggunaan istilah seperti 'signifikan' dan 'false positive' tampaknya bertentangan dengan makna statistik dari istilah-istilah tersebut, terutama jika Anda melakukan tes dengan benar *. Saya sarankan Anda menghindari ketentuan-ketentuan itu kecuali Anda menggunakannya secara ketat dalam pengertian teknis. Masalah dasar Anda adalah menggunakan tes hipotesis dalam situasi di mana mungkin tidak masuk akal untuk melakukannya; dalam bahasa Inggris yang sederhana, non-teknis, apa pertanyaan aktual yang Anda minati?* (khususnya, menggunakan hari sebelumnya sebagai 'populasi' tidak benar, jika Anda tidak mengizinkan variabilitasnya - umumnya sama seperti hari ini)
Glen_b -Reinstate Monica

Jawaban:


4

Tes ini mengembalikan hasil yang benar. Distribusi tidak sama dari hari ke hari. Ini, tentu saja, tidak ada gunanya bagimu. Masalah yang Anda hadapi sudah lama diketahui. Lihat: Karl Pearson dan RA Fisher tentang Tes Statistik: Pertukaran 1935 dari Alam

Alih-alih, Anda dapat melihat kembali data sebelumnya (baik milik Anda atau dari tempat lain) dan dapatkan distribusi perubahan harian untuk setiap kategori. Kemudian Anda memeriksa apakah perubahan saat ini kemungkinan telah terjadi mengingat distribusi itu. Sulit untuk menjawab lebih spesifik tanpa mengetahui tentang data dan jenis kesalahan, tetapi pendekatan ini tampaknya lebih cocok untuk masalah Anda.


4

Mari kita pergi dan membunuh sapi suci 5%.

Anda telah (dengan benar) menunjukkan bahwa masalahnya adalah kekuatan uji yang sangat bersemangat. Anda mungkin ingin mengkalibrasi ulang ke arah kekuatan yang lebih relevan, seperti mengatakan nilai yang lebih tradisional yaitu 80%:

  1. Tentukan ukuran efek yang ingin Anda deteksi (mis., 0,2% shift)
  2. 1β=80%)
  3. Kembalilah dari teori tes Pearson yang ada untuk menentukan level yang akan membuat tes Anda praktis.

p1=p2=p3=p4=p5=0.2p+δ/n=(0.198,0.202,0.2,0.2,0.2)n=106δ=(2,+2,0,0,0)k=

λ=jδj2/pj=4/0.2+4/0.2=40
λN(μ=λ+k=44,σ2=2(k+2λ)=168)44+13Φ1(0.8)=44+130.84=54.91χ42
Prob[χ42>54.91]=3.31011

χ2

Perlu diingat bahwa perkiraan, baik untuk nol dan alternatif, dapat bekerja buruk di bagian ekor, lihat diskusi ini .


2

Dalam kasus ini, profesor saya menyarankan untuk menghitung Cramér's V yang merupakan ukuran asosiasi berdasarkan statistik chi-squared. Ini akan memberi Anda kekuatan dan membantu Anda memutuskan apakah tes ini hipersensitif. Tapi, saya tidak yakin apakah Anda dapat menggunakan V dengan jenis statistik yang akan diuji kembali oleh G2.

Ini harus menjadi rumus untuk V:

ϕc=χ2n(k1)

nkk


0

Salah satu pendekatan adalah untuk membuat tes goodness-of fit lebih bermakna dengan melakukan mereka pada blok data yang lebih kecil.

α=0.05α

α


Bisakah Anda menguraikan pengertian di mana pendekatan ini akan "lebih bermakna?"
whuber

Ini signifikansi statistik vs signifikansi dunia nyata. Dengan menggunakan 10 ^ 3 bukannya 10 ^ 6 sampel, kekuatan dari satu tes sengaja dikurangi, sehingga penolakan hipotesis nol akan cenderung sesuai dengan kurangnya besar. Ini membuat hasil dari satu tes lebih bermakna karena OP tidak peduli tentang "fluktuasi harian minor". Untuk 10 ^ 6 sampel, tes mungkin selalu menolak H0 karena perbedaan kecil, sehingga tidak jelas apakah hasil tes mewakili informasi yang bermakna.
CJ Stoneking

1
Terima kasih: komentar Anda menimbulkan masalah menarik dan penting yang mulai memunculkan apa yang saya pikir merupakan pertanyaan mendasar yang sebenarnya; yaitu, bagaimana seharusnya seseorang mengukur perbedaan di antara data untuk mendeteksi kesalahan dan seberapa besar perbedaan yang menjadi perhatian? Meskipun jawaban Anda mungkin sesuai dalam beberapa keadaan, tampaknya tidak mungkin bahwa itu akan secara efektif mendeteksi banyak jenis kesalahan yang dapat terjadi dalam data dan juga membuka pertanyaan (alami) tentang ukuran blok data yang harus digunakan.
whuber

@whuber, bisakah masalahnya didefinisikan ulang sedemikian rupa sehingga nol dan penyimpangannya adalah ukuran data yang invarian tetapi mencari beberapa representasi kualitatif?
Vass
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.