Apakah diperbolehkan menggunakan rata-rata pada dataset untuk meningkatkan korelasi?


9

Saya memiliki dataset dengan variabel dependen dan independen. Keduanya bukan deret waktu. Saya memiliki 120 pengamatan. Koefisien korelasi adalah 0,43

Setelah perhitungan ini, saya telah menambahkan kolom untuk kedua variabel dengan rata-rata untuk setiap 12 pengamatan, menghasilkan 2 kolom baru dengan 108 pengamatan (pasangan). Koefisien korelasi kolom-kolom ini adalah 0,77

Sepertinya saya memperbaiki korelasinya dengan cara ini. Apakah ini boleh dilakukan? Apakah saya meningkatkan kekuatan penjelasan variabel independen dengan menggunakan rata-rata?


4
Yang Anda lakukan hanyalah menjalankan data melalui filter penghalusan. Ini dilakukan sepanjang waktu dalam pemrosesan sinyal dan sangat dapat diterima dan biasanya diperlukan sebelum data bahkan dapat digunakan. Ini menghilangkan kebisingan yang selalu lazim dalam pengukuran elektronik. Namun, apakah itu dapat diterima untuk masalah khusus Anda tergantung pada spesifik dari apa yang Anda coba capai dan mungkin sebagian besar berapa banyak "noise" versus "kualitas" dalam data Anda. Saya hanya memperhatikan "Keduanya bukan deret waktu" jadi saya curiga bahwa apa yang Anda lakukan tidak ada artinya karena mengubah urutan perubahan hasil
Dunk

Terima kasih semua. Variabel dependen saya adalah seri hasil bulanan dari sistem taruhan (hasil ini tidak terkait). Variabel independen adalah hasil dari indikator yang saya buat. Indikator ini menghasilkan skor mengenai seberapa ekstrim skor pertandingan olahraga pada bulan tertentu (hasil olahraga ini tidak terkait). Saya curiga bahwa apa yang saya lakukan tidak ada artinya, walaupun itu mengejutkan saya bahwa koefisien korelasi meningkat sangat banyak.
user2165379

2
Saya tidak yakin tetapi saya pikir rata-rata data apa pun akan memberikan hasil yang serupa. Saya akan berpikir bahwa rata-rata mengurangi dampak outlier. Dengan demikian, korelasinya harus ditingkatkan. Meskipun, saya berani bertaruh bahwa beberapa ahli matematika dapat datang dengan data yang dipilih dengan baik yang akan menyebabkan dampak sebaliknya, tetapi saya tidak akan mengharapkan data seperti itu terjadi di dunia nyata.
Dunk

Saya tidak bisa melihat apakah Anda menentukan untuk apa data ini. Namun, secara umum, saat menyajikan data Anda ke audiens yang Anda tentukan, memberikan pengungkapan tentang bagaimana data itu diperoleh merupakan praktik yang baik.
Jon Milliken

3
Apa korelasi dari nilai rata-rata yang dimaksudkan untuk diwakili? Ini tentu saja bukan lagi perkiraan yang wajar dari korelasi antara variabel-variabel asli.
Glen_b -Reinstate Monica

Jawaban:


15

Mari kita lihat dua vektor, yang pertama

    2 6 2 6 2 6 2 6 2 6 2 6

dan vektor kedua adalah

   6 2 6 2 6 2 6 2 6 2 6 2

Menghitung korelasi Pearson yang akan Anda dapatkan

cor(a,b)
[1] -1

Namun jika Anda mengambil rata-rata pasangan berturut-turut untuk nilai-nilai kedua vektor identik. Vektor identik memiliki korelasi 1.

  4 4 4 4 4 4  

Contoh sederhana ini menggambarkan kelemahan metode Anda.

Sunting : Untuk menjelaskannya secara lebih umum: Koefisien korelasi dihitung dengan cara berikut.

E[(X-μX)(Y-μY)]σX σY

XYXμXYμY


1
μσ

Terima kasih. Apakah ini berarti bahwa hasil saya 'meningkat' tersanjung dengan menggunakan rata-rata dan selalu lebih baik menggunakan pengamatan tanpa rata-rata?
user2165379

Untuk pengujian hipotesis Anda harus melihat data itu sendiri dan bukan pada rata-rata. Di domain lain, statistik deskriptif mungkin merupakan alat yang berguna. Anda juga harus melihat ukuran statistik deskriptif lainnya seperti kuantil (terutama median) dan momen yang lebih tinggi (terpusat), seperti varians, skewness, dan kurtosis. Namun dalam kasus kami ini tidak berguna. Vektor a dan b memiliki kuantil yang sama, momen yang sama dan momen terpusat yang sama.
Ferdi

1
Rata-rata cenderung meningkatkan korelasi dengan menghapus quasi-random scatter tetapi rata-rata yang cukup menyimpang dapat mendorong korelasi menuju nol.
Nick Cox

Terima kasih. Jadi jika rata-rata cenderung meningkatkan korelasi secara umum, ini berarti itu bukan perbaikan? Atau apakah ini merupakan peningkatan karena quasi random scatter dihilangkan?
user2165379

10

Rata-rata bisa menarik atau nyaman. Ini juga bisa menjadi sumber penipuan, penipuan paling buruk, jadi selangkah hati-hati bahkan ketika ada alasan yang jelas untuk rata-rata.

1

Ada beberapa situasi di mana rata-rata bisa masuk akal. Misalnya, jika variasi musiman sedikit atau tidak ada minat, maka rata-rata ke nilai tahunan membuat dataset berkurang di mana Anda bisa fokus pada nilai-nilai tahunan tersebut.

Dalam berbagai bidang, para peneliti dapat tertarik pada korelasi pada skala yang sangat berbeda, misalnya antara pengangguran dan kejahatan untuk individu, kabupaten, negara bagian, negara (menggantikan istilah apa pun yang paling masuk akal).

Minat, dan sering juga merupakan sumber utama masalah inferensi, adalah dalam menafsirkan apa yang terjadi pada skala atau tingkat yang berbeda. Misalnya, korelasi yang tinggi antara tingkat pengangguran dan tingkat kejahatan untuk daerah tidak selalu berarti bahwa pengangguran memiliki kecenderungan lebih tinggi untuk menjadi penjahat; Anda perlu data tentang individu untuk menjelaskan hal itu. Penyediaan data dapat menjadi canggung secara maksimal karena data hanya tersedia pada skala yang paling tidak menarik, mungkin karena masalah ekonomi atau kerahasiaan.

Saya perhatikan juga bahwa banyak pengukuran berada di tempat pertama sering rata-rata selama interval waktu kecil dan / atau interval ruang kecil, sehingga data sering tiba rata-rata dalam hal apa pun.


3
Saya menggemakan jawaban @ Ferdi dalam menggarisbawahi bahwa ada banyak cara berbeda untuk rata-rata. Ini menciptakan sumber tambahan ketidakpastian. Kesulitannya sangat akut dalam menggabungkan area kecil menjadi lebih besar.
Nick Cox
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.