Apakah data binning valid sebelum korelasi Pearson?

Apakah dapat diterima untuk menyimpan data, menghitung rata-rata sampah, dan kemudian mendapatkan koefisien korelasi Pearson berdasarkan rata-rata ini? Tampaknya prosedur yang agak mencurigakan bagi saya dalam hal itu (jika Anda menganggap data sebagai sampel populasi) sebaran rata-rata ini akan menjadi kesalahan standar rata-rata dan karenanya sangat ketat jika besar. Jadi Anda mungkin akan mendapatkan koefisien korelasi yang jauh lebih baik daripada dari data primer, dan itu keliru. Di sisi lain, orang sering rata-rata mereplikasi pengukuran sebelum perhitungan korelasi yang tidak jauh berbeda. $n$

correlation binning

— James
sumber

Apa tujuan binning dalam kasus khusus ini?

— chl

Tidak ada titik jelas untuk binning sebelum korelasi kecuali Anda tertarik untuk melihat langsung hubungan antara variabel binned.

— Nick Cox

Menyimpan data yang kontinu dan kemudian menghitung korelasi seperti memotong kaki Anda dan kemudian mendapatkan tongkat ketiak.

— Peter Flom

Dugaan saya adalah bahwa binning dilakukan untuk membuat korelasinya terlihat lebih baik dari pada kenyataannya. Data primer memberikan korelasi yang buruk tetapi, ketika binned dan rata-rata, itu terlihat jauh lebih baik. Saya berpikir bahwa karena setiap nilai rata-rata nampan akan memiliki kesalahan standar kecil (ada 100 poin di setiap nampan), nilai-nilai rata-rata memberikan korelasi yang tampaknya indah.

— James

Kenapa berhenti di situ? Dengan hanya menggunakan dua tempat sampah, Anda selalu bisa mendapatkan koefisien korelasi % :-). Sebaliknya, rata-rata pengukuran ulangan adalah berbeda karena memanggil model yang berbeda dari perilaku data dan mengarah ke kesimpulan yang berbeda (sekitar harapan ulangan daripada ulangan sendiri).

100

$100$

— whuber

Jawaban:

Tidak persis sama dengan pertanyaan Anda, tetapi pada catatan terkait, saya ingat pernah membaca sebuah artikel beberapa waktu yang lalu (baik The American Statistician atau majalah Chance, sekitar tahun 2000 dan 2003) yang menunjukkan bahwa untuk setiap dataset dari 2 variabel di mana mereka cukup banyak tidak berkorelasi Anda dapat menemukan cara untuk bin variabel "prediktor", kemudian mengambil rata-rata variabel respon dalam setiap bin dan tergantung pada bagaimana Anda melakukan binning menunjukkan hubungan positif atau hubungan negatif dalam tabel atau plot sederhana.

— Greg Snow
sumber

Artikel bagus yang Anda singgung adalah @Article {wai06fin, author = {Wainer, Howard}, title = {Menemukan apa yang tidak ada melalui hasil binning yang disayangkan: {The} {Mendel} efek}, jurnal = {Peluang}, tahun = 2006, volume = 19, angka = 1, halaman = {49-56}, annote = {dapat menemukan tempat sampah yang menghasilkan asosiasi positif atau negatif; terutama berkaitan ketika efeknya kecil; `` Dengan empat parameter, saya dapat memuat seekor gajah; dengan lima, aku bisa membuatnya menggoyang kopernya. '' - John von Neumann}}

— Frank Harrell

@ FrankHarrell, terima kasih untuk referensi, saya ingat beberapa tahun libur.

— Greg Snow

Mari kita perhatikan dua variabel ( , ). Ketika Anda mengatakan bin data, dan Anda "bin" pada , maksud Anda mengulangi pengukuran untuk sama untuk mendapatkan nilai sesuai ? Jika Anda mengulangi pengukuran seperti ini, maka kesalahan rata-rata akan berkurang dengan , dan saya pikir Anda bebas melakukan apa pun yang Anda inginkan dengannya. Pastikan Anda menggunakan koefisien korelasi tertimbang jika Anda mempertimbangkan titik data dengan bilah galat yang sangat berbeda. $X_i$ $Y_i$ $X_i$ $X_i$ $Y_i'$ $\sqrt{n}$

Sekarang katakanlah Anda tidak mengulangi pengukuran , tetapi sebaliknya mempertimbangkan dan yang sesuai dan -binning pada dan mendapatkan nilai yang disimpan di dalam . Saya pikir dalam situasi ini solusinya akan tergantung pada hubungan antara ukuran tempat sampah, kesalahan pada pengukuran, dan kemiringan korelasi. Saya berharap bahwa jika dan kecil, situasinya akan sama dengan paragraf sebelumnya. Kalau tidak, mungkin menguntungkan untuk bin atau tidak; itu akan mengubah hasil karena cov ( , $X_i$ $X_i\pm\delta$ $Y_i\pm\delta'$ $\delta$ $\delta$ $\delta$ $\delta´$ $X_{i,bin}$ $Y_{i,bin}$ ) akan berbeda dari nilai - nilai yang tidak dicentang, tapi saya pikir itu masih berlaku untuk melakukannya. Saya pikir Anda tidak melanggar asumsi apa pun; Saya hanya akan memastikan itu menguntungkan untuk melakukannya, dan saya akan menguji signifikansinya melalui uji permutasi (untuk menghindari membuat asumsi pada distribusi koefisien).

— pedrofigueira
sumber

Satu-satunya cara saya dapat memahami apa yang Anda tulis adalah bahwa jika seseorang memiliki terlalu banyak waktu di tangan mereka dan ingin melewatkan waktu seharian, ini lebih baik daripada kejahatan jalanan.

— Frank Harrell

-1

Alasan utama untuk bin data adalah untuk memungkinkan kemungkinan hubungan nonlinear antara variabel. Korelasi Pearson mengukur kekuatan hubungan linier , sehingga tidak berfungsi dengan baik ketika hubungannya tidak linier.

Jelas ada banyak cara yang lebih baik untuk menangani masalah ini daripada binning. Misalnya, Anda mungkin cocok dengan model regresi nonlinier atau lokal dan mengkorelasikan nilai respons yang diprediksi dan yang sebenarnya (meskipun ini mengasumsikan bahwa pendekatan respons-prediktor valid, sedangkan korelasinya simetris). Binning hanyalah cara memecahkan masalah nonlinier yang mungkin digunakan orang tanpa latar belakang statistik atau alat statistik.

— Hong Ooi
sumber

Binning sama sekali tidak ada hubungannya dengan membantu menemukan hubungan nonlinear.

— Frank Harrell