Perbandingan ekor dari dua distribusi sampel


13

Saya memiliki dua set data yang kira-kira berpusat di sekitar nol tetapi saya menduga mereka memiliki ekor yang berbeda. Saya tahu beberapa tes untuk membandingkan distribusi ke distribusi normal, tetapi saya ingin membandingkan langsung dua distribusi.

Apakah ada tes sederhana untuk membandingkan kegemukan ekor dari 2 distribusi ?

Terima kasih
fRed


Apakah tag "gendut" benar-benar bermakna (untuk pertanyaan di masa mendatang)?
chl

@ chl Anda memberi tahu saya, saya tentu saja tidak berpengalaman seperti Anda dalam statistik. Tapi IMO itu adalah bias klasik untuk meremehkan pentingnya ekor. Sudahkah Anda membaca karya Mandelbrot? Ekor lemak sangat penting dalam statistik terapan untuk keuangan dan krisis kredit 2008 datang untuk beberapa bagian dari beberapa model penetapan harga yang mengasumsikan normal dan meremehkan ekor gemuk dari beberapa distribusi korelasi. Kita dapat membahasnya di utas lain :)
RockScience

1
Pertanyaan ini berpotensi menarik tetapi beberapa klarifikasi akan diterima. Apakah Anda khawatir tentang satu ekor atau keduanya? Bagaimana Anda mengukur "kegemukan"? (Apakah Anda bersedia mengubah dan mengubah skala dua distribusi untuk membuat perbandingan, misalnya?) Bagaimana Anda mengukur penyimpangan dalam "kegemukan"? Jika Anda merenungkan tes hipotesis, lalu apa yang akan menjadi hipotesis alternatif, tepatnya?
whuber

@ RockScience, saya punya dua distribusi dan hanya ingin membandingkan ekornya, apakah Anda berhasil melakukannya? Saya tahu Anda dapat menghitung kurtosis tetapi bagaimana Anda menguji bahwa kedua ekornya berbeda?
user2380782

Jawaban:



2

Membangun sebuah ambang, mengatakan lambda, kita dapat menguji kesetaraan dua cara atau varian dari dua distribusi yang dibatasi pada wilayah ekor (\ lambda, infinity) berdasarkan pada dua set data pengamatan yang jatuh di wilayah ekor ini. Tentu saja, dua sampel t-test atau F-test mungkin OK tetapi tidak poweful karena variabel acak terbatas pada wilayah ekor ini tidak normal bahkan yang asli.


Teori nilai ekstrem mempelajari distribusi terpotong seperti itu: tanpa gejala, distribusi ekor biasanya milik keluarga Pareto umum . Seseorang juga dapat mencoba menyesuaikan data dengan kelompok distribusi ini dan membandingkan parameternya.
Vincent Zoonekynd

@Vincent A tail mungkin memiliki hampir semua distribusi. Teori nilai ekstrim mengatakan sedikit tentang ekor: ia berfokus pada distribusi maxima (atau minimum) sampel iid, yang merupakan hal yang sangat berbeda.
whuber

1

Bagaimana kalau pas dengan distribusi lambda umum dan interval kepercayaan bootstrap pada parameter ke-3 dan ke-4?


2
Mengapa keluarga distribusi ini sangat baik untuk masalah ini dan bukan keluarga lain seperti distribusi Pearson?
whuber

1

Uji Chi Square (uji Goodness-of-Fit) akan sangat baik dalam membandingkan ekor dari dua distribusi karena ini disusun untuk membandingkan dua distribusi dengan ember nilai (secara grafis diwakili oleh histogram). Dan, ekor akan terdiri dari ember yang paling jauh.

Meskipun tes ini berfokus pada keseluruhan distribusi, bukan hanya ekor yang dapat dengan mudah Anda amati berapa banyak nilai Chi Square atau divergensi berasal dari perbedaan dalam kegemaran ekor.

Perhatikan bahwa histogram yang diturunkan sebenarnya dapat memberi Anda informasi yang jauh lebih banyak secara visual mengenai masing-masing ekor yang berlemak daripada tes signifikansi statistik terkait. Mengatakan kegemukan ekor berbeda secara statistik. Adalah hal lain untuk mengamatinya secara visual. Mereka mengatakan gambar bernilai ribuan kata. Kadang-kadang juga bernilai ribuan angka (masuk akal mengingat bahwa grafik merangkum semua angka).


3
Sepertinya saya bahwa uji Chi Square akan sangat buruk dalam mengidentifikasi perbedaan ekor. Jika ekor ditutupi oleh banyak tempat sampah, maka - karena mereka adalah ekor! - mungkin ada beberapa data di salah satu tempat sampah, membatalkan perkiraan chi-squared. Jika ekornya ditutupi oleh beberapa tempat sampah, maka Anda kehilangan hampir semua kekuatan untuk membedakan bentuknya, dan apa yang Anda lakukan untuk melakukan diskriminasi mungkin tidak terlalu relevan atau berguna. (Satu masalah yang kita hadapi di sini adalah "kegemukan ekor" belum didefinisikan, jadi pertanyaannya terlalu samar untuk dijawab dengan baik.)
whuber

@whuber, saya tidak bisa mengatakan apakah saya setuju dengan komentar Anda karena saya tidak sepenuhnya mengerti salah satu poin Anda. Apa yang Anda maksud dengan "invalidating the chi-squared approximation"?
Sympa

Uji chi-kuadrat didasarkan pada pendekatan teori normal terhadap distribusi sebenarnya dari statistik chi-kuadrat. Biasanya perkiraan ini menjadi buruk ketika populasi bin turun di bawah 5.
whuber

@whuber, terima kasih atas penjelasannya. Mengingat hal itu, saya merasa frasa pertama komentar awal Anda mungkin tidak bernuansa seperti yang Anda rawat ("uji Chi Square akan sangat buruk dalam mengidentifikasi perbedaan ekor"). Mungkin pernyataan yang lebih tepat adalah "itu tergantung ..." Tes ini memiliki beberapa kelebihan, termasuk memaksa Anda untuk menentukan nampan yang relevan. Dan, sama pentingnya memfasilitasi pembangunan histogram. Memang jika Anda memiliki kurang dari 5 pengamatan dalam sebuah bin, Anda akan kehilangan keakuratan seperti yang Anda jelaskan dengan baik.
Sympa

@ Gaetan saya sangat menghargai perhatian terhadap nuansa, tetapi dalam hal ini penilaian tampaknya dibenarkan. Dibandingkan dengan banyak metode lain yang tersedia untuk membandingkan distribusi, tes Chi Squared tidak bertahan dengan baik. Jika Anda "menentukan nampan yang relevan" berdasarkan data itu sendiri, tes tidak valid. Juga, histogram biasanya bukan cara yang berguna untuk melihat ekor distribusi. Namun, saya enggan mengusulkan alternatif karena masalahnya tidak jelas: apa artinya dua distribusi memiliki "kegemukan ekor" yang sama? Kurtosis adalah satu kemungkinan, tetapi ini adalah ukuran kasar.
whuber
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.