Apakah ada tes statistik yang parametrik dan non-parametrik?

20

Apakah ada tes statistik yang parametrik dan non-parametrik? Pertanyaan ini ditanyakan oleh panel wawancara. Apakah ini pertanyaan yang valid?

nonparametric terminology parametric

— Biostat
sumber

1

Mempelajari entri wikipedia untuk statistik nonparametrik mungkin cukup untuk mempersiapkan Anda untuk pewawancara. Anda dapat menjawab pertanyaan dengan pertanyaan, seperti pada "apa yang Anda maksud dengan non-parametrik? Model bebas distribusi atau statistik urutan peringkat?"

— jrhorn424

3

Sebagai titik tolak, mungkin membantu Anda, serta responden Anda, untuk berkonsultasi dengan otoritas ( bukan Internet!) Mengenai definisi. "Kasus parametrik ... adalah semua di mana kelas dari semua [keadaan alam] dapat direpresentasikan dalam bentuk vektor terdiri dari sejumlah komponen nyata dengan cara alami. (... distribusi dan fungsi kerugian bergantung pada dengan cara yang cukup mulus.) Semua masalah lain disebut nonparametrik . - JC Kiefer, Pengantar Inferensi Statistik, hlm. 23.

θ

$\theta$

θ

$\theta$

— whuber

Salah satu Profesor mengatakan kepada saya bahwa 'Tes Chi-Square' memiliki kedua perilaku (yaitu, parametrik dan nonparametrik juga). Saya tidak mengerti sama sekali, mengapa 'uji chi square' memiliki kedua perilaku tersebut.

— Biostat

3

Bukan tes yang parametrik, melainkan modelnya . Distribusi Chi-square muncul dalam kedua situasi (dalam cara alami dalam model linear umum dengan asumsi distribusi normal, dan sebagai perkiraan untuk perbedaan kemungkinan log - keduanya aplikasi parametrik - dan juga sebagai perkiraan untuk multinomial distribusi yang muncul dalam banyak aplikasi nonparametrik), sehingga ada banyak tes berbeda yang berbagi nama "chi-squared." Ini mungkin yang disarankan komentar profesor Anda.

— whuber

@whuber: Apakah komentar terakhir Anda berarti bahwa uji chi-square untuk kebaikan tidak sesuai?

— Tim

6

Pada dasarnya sulit untuk mengatakan dengan tepat apa yang dimaksud dengan "tes parametrik" dan "tes non-parametrik", meskipun ada banyak contoh konkret di mana sebagian besar akan setuju pada apakah tes itu parametrik atau non-parametrik (tetapi tidak pernah keduanya) . Pencarian cepat memberikan tabel ini , yang saya bayangkan mewakili perbedaan praktis yang umum di beberapa bidang antara tes parametrik dan non-parametrik.

Tepat di atas tabel yang dimaksud ada komentar:

"... data parametrik memiliki distribusi normal yang mendasarinya .... Yang lainnya adalah non-parametrik."

Ini mungkin merupakan kriteria yang diterima di beberapa area bahwa kita menganggap normal dan menggunakan ANOVA, dan ini parametrik, atau kita tidak menganggap normalitas dan menggunakan alternatif non-parametrik.

Ini mungkin bukan definisi yang sangat baik, dan menurut saya itu tidak benar, tetapi mungkin praktis. Sebagian besar karena tujuan akhir dalam ilmu sosial, katakanlah, adalah untuk menganalisis data, dan apa gunanya untuk dapat merumuskan model parametrik berdasarkan distribusi yang tidak normal dan kemudian tidak dapat menganalisis data?

Definisi alternatif, adalah mendefinisikan "tes non-parametrik" sebagai tes yang tidak mengandalkan asumsi distribusi dan tes parametrik seperti yang lainnya.

Definisi pertama dan juga definisi terakhir yang disajikan mendefinisikan satu kelas tes dan kemudian mendefinisikan kelas lainnya sebagai pelengkap (apa pun). Menurut definisi, ini mengesampingkan bahwa tes dapat parametrik maupun non-parametrik.

Yang benar adalah bahwa definisi yang terakhir juga bermasalah. Bagaimana jika ada asumsi "non-parametrik" alami tertentu, seperti simetri, yang dapat dikenakan? Apakah itu akan mengubah statistik uji yang sebaliknya tidak bergantung pada asumsi distribusi apa pun menjadi uji parametrik? Sebagian besar akan mengatakan tidak!

Oleh karena itu ada tes di kelas tes non-parametrik yang diizinkan untuk membuat beberapa asumsi distribusi selama mereka tidak "terlalu parametrik". Batas antara tes "parametrik" dan "non-parametrik" telah menjadi kabur, tetapi saya percaya bahwa sebagian besar akan menjunjung tinggi bahwa salah satu tes adalah parametrik atau non-parametrik, mungkin bisa juga mengatakan bahwa keduanya tidak masuk akal. $-$

Mengambil sudut pandang yang berbeda, banyak tes parametrik adalah (setara dengan) tes rasio kemungkinan. Ini memungkinkan teori umum, dan kami memiliki pemahaman terpadu tentang sifat distribusi tes rasio kemungkinan pada kondisi keteraturan yang sesuai. Tes non-parametrik yang, sebaliknya, tidak setara dengan tes rasio kemungkinan per se tidak ada kemungkinan dan tanpa metodologi pemersatu berdasarkan kemungkinan kita harus hasil distribusi Turunkan berdasarkan kasus per kasus. Teori kemungkinan empiris $-$ $-$ dikembangkan terutama oleh Art Owen di Stanford, bagaimanapun, kompromi yang sangat menarik. Ini menawarkan pendekatan berbasis kemungkinan untuk statistik (poin penting bagi saya, karena saya menganggap kemungkinan sebagai objek yang lebih penting daripada nilai , katakanlah) tanpa perlu asumsi distribusi parametrik yang khas. Gagasan mendasar adalah penggunaan cerdik dari distribusi multinomial pada data empiris, metodenya sangat "parametrik" namun valid tanpa membatasi asumsi parametrik. $p$

Tes berdasarkan pada kemungkinan empiris, IMHO, nilai-nilai tes parametrik dan generalisasi tes non-parametrik, maka di antara tes yang dapat saya pikirkan, mereka mendekati kualifikasi untuk menjadi parametrik dan non-parametrik, meskipun saya ingin tidak menggunakan terminologi ini.

— NRH
sumber

+1 Komentar yang sangat menarik. Sejauh batas menjadi "kabur," saya menganggap itu sebagai pernyataan yang benar tentang persepsi, tetapi tidak ada kekaburan dalam definisi itu sendiri: perbedaan antara parametrik dan non-parametrik sejelas dan setajam antara antara, katakanlah, terbatas dan tak terbatas.

— whuber

@whuber, mengenai apa yang "kabur", saya secara khusus merujuk pada fakta bahwa mungkin ada asumsi distribusi untuk tes non-parametrik juga, jadi definisi kedua saya tidak bekerja baik. Jika saya harus mencoba definisi yang tajam, tes parametrik didasarkan pada model yang dapat ditentukan oleh subset ruang Euclidean dimensi terbatas. Apa yang saya pikir paling "kabur" adalah bahwa tidak jelas, bagi saya, seberapa jauh dari "tidak ada asumsi distribusi" Anda bisa pergi sebelum asumsi non-parametrik menjadi masalah sebanyak asumsi parametrik.

— NRH

@whuber, sekarang saya membaca komentar Anda untuk pertanyaan dengan referensi ke Kiefer, dan ya itu jelas merupakan ide yang baik untuk berkonsultasi dengan otoritas untuk definisi formal! Saya sebenarnya lebih peduli dengan apa yang orang umumnya maksud ketika mereka mengatakan "non-parametrik", dan saya kira hanya sedikit yang memiliki definisi Kiefer di pikiran mereka.

— NRH

Lihat kutipan saya dari Kiefer dalam komentar untuk pertanyaan asli. Secara khusus, "non-parametrik" tidak berarti "tidak ada asumsi distribusi." Sebaliknya, tes non-parametrik yang paling terkenal semuanya membuat asumsi distribusi. Saya rasa saya benar-benar memahami perasaan "kabur" Anda: Saya memilih analogi terbatas / tak terhingga untuk menghormati itu, karena dalam praktiknya sejumlah besar parameter (tetapi terbatas) mungkin dianggap tak terbatas.

— whuber

2

Parametrik digunakan dalam (setidaknya) dua arti: A - Untuk menyatakan Anda mengasumsikan keluarga dari distribusi kebisingan hingga parameter itu. B - Untuk menyatakan Anda mengasumsikan hubungan fungsional spesifik antara variabel penjelas dan hasil.

Beberapa contoh:

Regresi kuantil dengan tautan linier akan memenuhi syarat sebagai B-parametrik dan A-non-parametrik.
Spline smoothing dari deret waktu dengan Gaussian noise dapat berkualitas sebagai A-non-parametrik dan B-parametrik.

Istilah "semi-parametrik" biasanya merujuk pada kasus B dan berarti Anda tidak mengasumsikan keseluruhan hubungan fungsional, tetapi Anda memiliki asumsi yang lebih ringan seperti "aditif dalam beberapa transformasi yang mulus dari prediktor".

Anda juga dapat memiliki asumsi yang lebih ringan pada distribusi suara - seperti "semua momen terbatas", tanpa secara spesifik menentukan bentuk distribusi. Sepengetahuan saya, tidak ada istilah untuk jenis asumsi ini.

Perhatikan bahwa jawabannya berkaitan dengan asumsi yang mendasari di balik proses menghasilkan data. Ketika mengatakan "a-parametric test", yang biasanya mengacu pada non-parametrik dalam arti A. Dalam hal ini yang Anda maksudkan, maka saya akan menjawab "tidak". Tidak mungkin menjadi parametrik dan non-parametrik dalam arti yang sama pada saat yang sama.

— JohnRos
sumber

Dua makna dalam paragraf pertama sering memiliki perlakuan terpadu dalam literatur: yaitu, tampaknya tidak ada perbedaan mendasar atau penting di antara mereka. BTW, kasus "semua saat terbatas" jelas merupakan masalah non-parametrik.

— Whuber

@whuber: definisi dalam Keifer tampaknya mencakup kedua kasus (saya akui- saya tidak pernah membacanya dan saya masih mencari pengecualian). Di sisi lain, istilah mengubah artinya. "Empirical-Bayes" tidak lagi berarti untuk apa Robbins menggunakannya pada tahun 1955. Anda tidak dapat mengabaikan fakta bahwa ada lebih dari satu interpretasi yang beredar.

— JohnRos

OK, tapi kita harus sedikit pemilih: sudah jelas banyak interpretasi dan definisi definisi "parametrik" dan "non-parametrik" adalah ekspresi ketidaktahuan, bukan pemahaman. Bisakah Anda mengutip definisi alternatif yang sekaligus jelas, teliti, dan berwibawa (tepatnya, otoritatif dalam arti bahwa itu akan diterima tanpa pertanyaan oleh jurnal peer-review yang kredibel)?

— whuber

1

@whuber: Saya menerima tantangan! :-) Meskipun perlu dicatat, karena semua peneliti memulai pencarian mereka di Wikipedia, itu adalah masalah waktu sampai jurnal yang ditinjau sejawat yang selaras dengan definisi Wiki. ("Jika Anda tidak bisa mengalahkan mereka ...")

— JohnRos

1

The Artikel Wikipedia mengutip Wolfowitz dari tahun 1940-an, yang tidak hanya adalah yang pertama untuk menggunakan "non-parametrik," tetapi juga merupakan salah satu nenek moyang intelektual langsung Kiefer ini. Saya tidak berpikir kita akan menemukan perbedaan nyata di sana. (Kiefer hanya menambahkan persyaratan teknis tentang fungsi kerugian.) Namun, saya menduga bahwa sangat sedikit (jika ada) peneliti asli yang menggunakan Wikipedia sebagai titik tolak, terutama di bidang dengan dasar matematika!

— whuber

1

Saya kira itu tergantung pada apa yang mereka maksud dengan "parametrik dan non-parametrik"? Pada saat yang sama persis keduanya, atau perpaduan keduanya?

Banyak yang menganggap model bahaya proporsional Cox sebagai semi-parametrik, karena tidak memperkirakan bahaya baseline secara parametrik.

Atau Anda dapat memilih untuk melihat banyak statistik non-parametrik sebagai parametrik besar-besaran.

— Fomite
sumber

7

Ini sepertinya menghindar. Pertanyaannya adalah menyelidiki apakah kita menghargai perbedaan antara "parametrik" dan "non-parametrik," apakah itu jelas atau tidak. Jawaban yang baik akan menerangi perbedaan itu, bukan membingungkannya.

— whuber

1

@whuber "pertanyaan" mana? Panel, atau OP? Karena dalam pikiran saya, OP tidak menyelidiki perbedaan apa pun. Yang berarti tergantung pada di mana orang menarik garis. Saya tidak berpikir memberikan contoh umum dan filosofis untuk "Yah, itu tergantung" adalah menghindar. Saya pikir itu jawaban. Suka atau tidaknya seseorang ingin menganggap "parametrik" sebagai parametrik sepenuhnya, atau hanya memiliki parameter.

— Fomite

Poin tentang "pertanyaan mana" yang baik. Saya pikir di mana saya mulai mengalami masalah dengan balasan Anda adalah bahwa hal itu membuat perbedaan yang menurut sumber daya saya tidak masuk akal ("campuran" tidak masuk akal, serta gagasan bahwa "statistik" dapat bersifat parametrik), yang menunjukkan Anda menggunakan definisi "parametrik" dan "non-parametrik" yang berbeda dari saya. Meskipun Anda menekankan bahwa jawaban harus bergantung pada arti istilah-istilah ini, Anda sebenarnya tidak menawarkan definisi untuk membuat komentar Anda selanjutnya jelas atau dapat dimengerti.

— whuber

@whuber Cukup adil. Saya menemukan pertanyaan asli agak tidak masuk akal, begitu juga melakukan apa yang saya bisa. Pertanyaannya sekarang memiliki jawaban yang lebih baik yang membuat beberapa asumsi tentang apa arti OP.

— Fomite

0

Bradley, dalam Uji Statistik Distribusi Bebas Gratis (1968, hlm. 15-16) - lihat pertanyaan ini untuk kutipan) mengklarifikasi perbedaan antara tes bebas-distribusi dan nonparametrik , yang katanya sering disatukan satu sama lain, dan memberikan contoh uji distribusi bebas parametrik sebagai tes Masuk untuk median. Tes ini tidak membuat asumsi tentang distribusi yang mendasari populasi sampel dari nilai variate, sehingga bebas distribusi . Namun, jika median yang dipilih benar, nilai-nilai di atas dan di bawahnya harus dipilih pada probabilitas yang sama, menguji sampel acak dari $p=0.5$

Memperbarui

$(A \cap \neg A)$

— Avraham
sumber

1

Saya suka awal jawaban ini karena membuat perbedaan yang menarik dan mendukungnya dengan referensi yang baik. Namun, bagi saya kelihatannya sisa dari jawaban tersebut membingungkan asumsi tentang data dengan sifat statistik uji. Asumsi tes tanda memang "bebas distribusi." Namun, fakta bahwa distribusi sampling dari statistik uji adalah binomial adalah masalah yang sepenuhnya terpisah dan tidak menjadikan prosedur parametrik!

— whuber

Nah, Bradley sendiri menyebut uji tanda distribusi bebas tetapi parametrik pada halaman 15. Kotak komentar terlalu kecil untuk membawa dua kalimat kunci secara keseluruhan. Silakan baca jawaban lainnya, khususnya kalimat yang mulai "Secara kasar ..." dan "Agar sepenuhnya jelas ...". Terima kasih.

— Avraham

Jika demikian halnya dengan Bradley, maka makna dari istilah-istilah ini telah berubah sejak saat itu atau (saya benci mengatakannya) Anda salah menafsirkan apa yang ia tulis. (Saya tidak punya akses ke salinan yang bisa saya periksa.) Jelas bukan masalahnya sekarang - juga belum selama setidaknya 30 tahun terakhir - "parametrik" merujuk pada distribusi statistik uji. Lihat kutipan Wolfowitz di artikel Wikipedia .

— whuber

2

F

$F$

Ω

$\Omega$

θ

$\theta$

2

Untuk apa itu layak, saya melihat dua teks statistik lain, Probabilitas dan Statistik DeGroot (2nd ed, pp 520-521) dan Pengantar Larson untuk Teori Probabilitas dan Inferensi Statistik (edisi ke-3, pp.508-509) dan keduanya menggunakan Istilah parametrik berarti apa yang oleh Bradly disebut bebas-distribusi , yang seperti Kiefer, saya rasa. Jadi, untuk menjawab OP, itu tergantung pada bagaimana Anda mendefinisikan "parametrik".

— Avraham