Tes Goodness of fit: pertanyaan tentang tes Anderson-Darling dan kriteria Cramér-von Mises


10

Saya membaca halaman web untuk uji kelayakan , ketika saya datang ke tes Anderson – Darling dan kriteria Cramér – von Mises .

Sejauh ini saya mengerti maksudnya; tampaknya tes Anderson-Darling dan kriteria Cramér-von Mises serupa, hanya berdasarkan pada fungsi bobot yang berbeda dengan . Juga ada varian kriteria Cramér-von Mises bernama tes Watson .w

Pada dasarnya saya punya dua pertanyaan di sini

  1. Tidak banyak hasil Google tentang kedua metode ini; apakah mereka masih canggih? atau diganti dengan beberapa pendekatan yang lebih baik?

    Agak mengejutkan, karena menurut makalah ini tentang perbandingan daya Shapiro-Wilk, Kolmogorov-Smirnov, Lilliefors dan tes Anderson-Darling , AD berkinerja cukup baik; selalu lebih baik daripada Lilliefors dan KS, dan sangat dekat dengan tes SW, yang secara khusus dirancang untuk distribusi normal.

  2. Apa interval kepercayaan untuk tes seperti itu?

    Untuk tes AD, CM dan Watson, saya melihat variabel statistik uji didefinisikan pada halaman wiki, tetapi tidak menemukan interval kepercayaan.

    KαK

Jawaban:


4

Tidak ada satu pun yang canggih untuk kebaikan (misalnya, tidak ada tes UMP di seluruh alternatif umum yang akan ada, dan benar-benar tidak ada yang mendekati - bahkan tes omnibus yang sangat dihormati memiliki kekuatan mengerikan dalam beberapa situasi).

Secara umum ketika memilih statistik uji Anda memilih jenis penyimpangan yang paling penting untuk dideteksi dan menggunakan statistik uji yang bagus dalam pekerjaan itu. Beberapa tes dilakukan dengan sangat baik pada berbagai alternatif yang menarik, menjadikannya pilihan standar yang layak, tetapi itu tidak menjadikan mereka "canggih".

Anderson Darling masih sangat populer, dan dengan alasan yang bagus. Tes Cramer-von Mises jauh lebih sedikit digunakan akhir-akhir ini (mengejutkan saya karena biasanya lebih baik daripada Kolmogorov-Smirnov, tetapi lebih sederhana daripada Anderson-Darling - dan sering memiliki kekuatan yang lebih baik daripada pada perbedaan "di tengah" dari distribusi)

Semua tes ini mengalami bias terhadap beberapa jenis alternatif, dan mudah untuk menemukan kasus di mana Anderson-Darling jauh lebih buruk (sangat, sangat) daripada tes lainnya. (Seperti yang saya sarankan, itu lebih 'kuda untuk kursus' dari satu tes untuk mengatur semuanya). Seringkali ada sedikit pertimbangan yang diberikan untuk masalah ini (apa yang terbaik untuk mengambil penyimpangan yang paling penting bagi saya?), Sayangnya.

Anda mungkin menemukan beberapa nilai dalam beberapa posting ini:

Apakah Shapiro-Wilk adalah tes normalitas terbaik? Mengapa mungkin lebih baik daripada tes lain seperti Anderson-Darling?

2 Sampel Kolmogorov-Smirnov vs Anderson-Darling vs Cramer-von-Mises (sekitar dua sampel tes tetapi banyak pernyataan tetap

Motivasi untuk jarak Kolmogorov antara distribusi (diskusi lebih teoretis tetapi ada beberapa poin penting tentang implikasi praktis)


Saya tidak berpikir Anda akan dapat membentuk interval kepercayaan untuk cdf dalam statistik Cramer-von Mises dan Anderson Darline, karena kriteria didasarkan pada semua penyimpangan daripada hanya yang terbesar.


Saya mengambil "keadaan seni" berarti sesuatu yang menemukan penggunaan yang tidak usang. Adanya beberapa definisi good-of-fit harus memberi sinyal kepada kita bahwa good-of-fit bukan konsep tunggal. Pertimbangkan bahwa "baik" tergantung pada "mengapa" kami melakukan regresi. Misalkan kita menyesuaikan Model A ke data B untuk mendapatkan prediktor terbaik dari efek C. Kemudian "baik" adalah prediktor terbaik dari C bukan B. Namun, paling sering pertanyaan tentang bagaimana B dan C berbeda diabaikan.
Carl

1
@Carl Anda mungkin ingin memeriksa kamus (atau wikipedia) tentang apa yang biasanya dianggap artistik - interpretasi Anda terhadap frasa itu bukan cara kebanyakan orang membaca frasa. Kamus mengatakan hal-hal seperti ini: " tahap terbaru dalam pengembangan, menggabungkan ide-ide terbaru " dan " tingkat perkembangan tertinggi pada waktu tertentu " dan " terdepan, menggunakan teknologi terbaru ". Dalam konteks ini - menguji goodness of fit - frasa ini menyiratkan "yang terbaik yang bisa kita lakukan sekarang". Saya bersikeras itu bukan sesuatu yang dapat Anda katakan tentang tes tunggal. ...
ctd

2
... mis. Kita dapat mengatakan bahwa tes populer seperti Shapiro-Wilk (sementara sangat populer dalam menguji normalitas) memiliki pesaing dengan kekuatan yang lebih baik (mis. lihat Shapiro & Chen 1995) - tetapi tidak dalam setiap situasi. Tidak ada satu pun pilihan tes terbaik (dan karenanya, tidak ada 'keadaan seni' yang sebenarnya). Tentu saja saya setuju bahwa yang terbaik (canggih) tergantung pada keadaan --- itulah inti dari jawaban saya; jawaban yang mungkin banyak sekali - sesuatu yang baik dalam satu situasi mungkin sangat buruk di situasi lain. Perlu diketahui kapan tes berkinerja baik daripada meminta "apa yang terbaik" seolah-olah itu adalah satu hal.
Glen_b -Reinstate Monica

Benar, definisi Anda lebih tepat. Namun, ada lebih banyak metode daripada tes metode, dan "keadaan seni" sebagian besar fiksi, yaitu, "seni" tidak memiliki "negara" semua yang dimilikinya adalah protagonis. Setiap respons terhadap posisi samar seperti itu samar-samar. Saya bilang 'ya' dan Anda bilang 'tidak' dan kami berdua mengatakan hal yang sama.
Carl

BTW, pertanyaannya adalah "state of the art" atau "diganti" yang saya ambil berarti "usang, atau tidak usang". Jadi ada konteks untuk jawaban saya yang konteksnya adalah "Silakan asumsikan bahwa 'keadaan seni' dan 'ganti' adalah antonim, dan silakan pilih salah satu dari itu." Anda benar bahwa itu bukan antonim, saya menjawab dalam konteks dan Anda memilih untuk mengajukan pertanyaan. Jadi, jawabanku adalah yang sopan. Dan, saya akan memilih jawaban Anda, karena saya pikir itu informatif, jika tidak terlalu sopan.
Carl

2

n=400 adalah uji kepadatan fungsi kumulatif yang lebih kuat dari uji Kolmogorov-Smirnov dan dapat memiliki daya lebih besar atau lebih kecil dari uji-t. Chi-squared memiliki kesulitan dengan jumlah sel yang rendah, sehingga batasan jangkauan digunakan untuk pemasangan ekor.

** Pertanyaan 1: ... apakah ... kedua metode ini ... masih mutakhir? atau diganti dengan beberapa pendekatan yang lebih baik? Pertanyaan 2 Apa interval kepercayaan untuk tes seperti itu? **

Jawab: Mereka canggih. Namun, terkadang kami menginginkan interval kepercayaan bukan probabilitas. Ketika membandingkan metode ini satu sama lain, kita berbicara tentang kekuatan daripada interval kepercayaan. Kadang-kadang good-of-fit dianalisis menggunakan AIC, BIC dan kriteria lain yang berbeda dengan probabilitas pemasangan yang baik, dan kadang-kadang kriteria good-of-fit tidak relevan, misalnya, ketika good-of-fit bukan kriteria untuk pemasangan . Dalam kasus terakhir, target regresi kami mungkin kuantitas fisik yang tidak terkait dengan pemasangan, misalnya, lihat Tk-GV .


NB Tes Anderson-Darling adalah versi berbobot dari tes Cramer-von Mises; &, seperti itu, cocok untuk distribusi berkelanjutan.
Scortchi
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.