EDIT: Karena pertanyaan ini telah meningkat, ringkasan: menemukan set data yang bermakna dan dapat ditafsirkan berbeda dengan statistik campuran yang sama (rata-rata, median, midrange dan dispersinya yang terkait, dan regresi).
Kuartet Anscombe (lihat Tujuan memvisualisasikan data dimensi tinggi? ) Adalah contoh terkenal dari empat dataset - , dengan rata-rata marginal / standar deviasi yang sama (pada empat dan empat , secara terpisah) dan kesesuaian linear OLS yang sama , regresi dan jumlah kuadrat residu, dan koefisien korelasi . The -jenis statistik (marginal dan sendi) dengan demikian sama, sedangkan dataset sangat berbeda.x yℓ 2
EDIT (dari komentar OP) Membiarkan ukuran dataset kecil terpisah, izinkan saya mengusulkan beberapa interpretasi. Set 1 dapat dilihat sebagai hubungan linear standar (affine, to be correct) dengan noise terdistribusi. Set 2 menunjukkan hubungan yang bersih yang bisa menjadi puncak dari kecocokan derajat yang lebih tinggi. Set 3 menunjukkan ketergantungan statistik linier yang jelas dengan satu outlier. Set 4 lebih rumit: upaya untuk "memprediksi" dari tampaknya gagal. Desain dapat mengungkapkan fenomena histeresis dengan rentang nilai yang tidak mencukupi, efek kuantisasi ( dapat dikuantifikasi terlalu banyak), atau pengguna telah mengganti variabel dependen dan independen.x x x
Jadi fitur ringkasan menyembunyikan perilaku yang sangat berbeda. Set 2 bisa lebih baik ditangani dengan polinomial fit. Set 3 dengan metode tahan outlier ( atau sejenisnya), serta Set 4. Orang mungkin bertanya-tanya apakah fungsi biaya lain atau indikator perbedaan dapat diselesaikan, atau setidaknya meningkatkan diskriminasi dataset. EDIT (dari komentar OP): posting blog Regresi Curious menyatakan bahwa:ℓ 1
Secara kebetulan, saya diberi tahu bahwa Frank Anscombe tidak pernah mengungkapkan bagaimana dia menghasilkan set data ini. Jika Anda pikir itu tugas yang mudah untuk mendapatkan semua statistik ringkasan dan hasil regresi yang sama, maka cobalah!
Dalam Kumpulan Data yang dibangun untuk tujuan yang serupa dengan kuartet Anscombe , beberapa set data menarik diberikan, misalnya dengan histogram berbasis kuantil yang sama. Saya tidak melihat campuran hubungan yang bermakna dan statistik campuran.
Pertanyaan saya adalah: apakah ada bivariat (atau trivariat, untuk menjaga visualisasi) kumpulan data seperti Anscombe sehingga, di samping memiliki statistik jenis sama :
- plot mereka dapat ditafsirkan sebagai hubungan antara dan , seolah-olah seseorang mencari hukum antara pengukuran,y
- mereka memiliki sifat marginal yang sama (lebih kuat) (median dan median penyimpangan absolut yang sama),
- mereka memiliki kotak pembatas yang sama: min yang sama, maks (dan karenanya -type statistik mid-range dan mid-span).
Kumpulan data tersebut akan memiliki ringkasan plot "kotak-dan-kumis" yang sama (dengan min, maks, median, median absolut penyimpangan / MAD, rata-rata dan std) pada setiap variabel, dan masih akan sangat berbeda dalam interpretasi.
Akan lebih menarik jika beberapa regresi paling mutlak adalah sama untuk dataset (tapi mungkin aku sudah meminta terlalu banyak). Mereka bisa berfungsi sebagai peringatan ketika berbicara tentang vs kuat tidak regresi yang kuat, dan bantuan keep dalam kutipan pikiran Richard Hamming ini:
Tujuan dari komputasi adalah wawasan, bukan angka
EDIT (dari komentar OP) isu-isu serupa ditangani data Pembangkit dengan Identik Statistik tapi Berbeda Graphics , Sangit Chatterjee & Aykut Firata, Amerika Statistician 2007, atau Cloning Data: menghasilkan dataset dengan persis beberapa yang sama linier fit regresi, J. Aust. N.-Z. Stat. J. 2009.
Dalam Chatterjee (2007), tujuannya adalah untuk menghasilkan pasangan novel dengan cara yang sama dan standar deviasi dari dataset awal, sambil memaksimalkan fungsi objektif "perbedaan / perbedaan" yang berbeda. Seperti fungsi-fungsi ini dapat non-cembung atau non-terdiferensiasi, mereka menggunakan algoritma genetika (GA). Langkah-langkah penting terdiri dalam orto-normalisasi, yang sangat konsisten dengan melestarikan mean dan (unit-) varians. Angka-angka kertas (setengah isi kertas) menempatkan input dan data output GA. Pendapat saya adalah bahwa keluaran GA kehilangan banyak interpretasi intuitif asli.
Dan secara teknis, median maupun midrange tidak terpelihara, dan makalah ini tidak menyebutkan prosedur renormalisasi yang akan mempertahankan , dan .ℓ 1 ℓ ∞