Korelasi antara dua variabel dengan ukuran tidak sama


9

Dalam masalah yang sedang saya kerjakan, saya memiliki dua variabel acak, X dan Y. Saya perlu mencari tahu seberapa dekat keduanya berkorelasi, tetapi mereka memiliki dimensi yang berbeda. Peringkat ruang baris X adalah 4350, dan peringkat ruang baris Y secara substansial lebih besar, dalam puluhan ribu. Baik X dan Y memiliki jumlah kolom yang sama.

Saya perlu ukuran korelasi antara dua variabel, dan Pearson r membutuhkan X dan Y untuk memiliki dimensi yang sama (setidaknya R memerlukan dua rv untuk menjadi).

Apakah saya memiliki harapan untuk melakukan korelasi antara keduanya, atau haruskah saya menemukan cara untuk memangkas pengamatan dari Y?

 EDIT

Menambahkan informasi dari komentar, yang seharusnya ada dalam pertanyaan.

Saya kira saya lupa menyebutkan ini. X dan Y adalah harga saham. Perusahaan X telah menjadi perusahaan publik untuk periode waktu yang jauh lebih pendek daripada Y. Saya ingin tahu seberapa berkorelasi harga X dan Y. Saya pasti bisa mendapatkan korelasi untuk periode waktu dimana X dan Y keduanya ada. Saya ingin tahu apakah mengetahui harga saham selama beberapa tahun tambahan Y bahwa X tidak ada memberi saya informasi tambahan.


2
Ini tidak terdengar seperti Anda memiliki pengamatan (atau "kasus") di mana Anda mengamati realisasi X dan Y. Bagaimana Anda mengetahui X yang terkait dengan Y?
Stephan Kolassa

1
Saya kira saya lupa menyebutkan ini. X dan Y adalah harga saham. Perusahaan X telah menjadi perusahaan publik untuk periode waktu yang jauh lebih pendek daripada Y. Saya ingin tahu seberapa berkorelasi harga X dan Y. Saya pasti bisa mendapatkan korelasi untuk periode waktu dimana X dan Y keduanya ada. Saya ingin tahu apakah mengetahui harga saham selama beberapa tahun tambahan Y bahwa X tidak ada memberi saya informasi tambahan.
Christopher Aden

2
@Christopher Saya sarankan Anda memperbarui pertanyaan Anda untuk mencerminkan komentar Anda di atas. Juga, agar korelasi menjadi bermakna, diperlukan dimensi yang lebih dari sekadar sama; pengukuran sebenarnya harus berasal dari kasus yang sama, yang dalam kasus Anda mungkin adalah titik waktu yang sama.
Jeromy Anglim

2
Saya komentar kedua Jeromy tentang memperbarui pertanyaan ...
Stephan Kolassa

Pertanyaan lain: Anda menyebutkan bahwa X dan Y memiliki jumlah kolom yang sama. Apakah itu masing-masing? Atau apakah Anda memiliki beberapa seri untuk X dan Y (harga di bursa saham berbeda atau semacamnya)?
Stephan Kolassa

Jawaban:


10

Tidak ada jumlah imputasi, analisis deret waktu, model GARCH, interpolasi, ekstrapolasi, atau algoritme mewah lainnya yang akan melakukan apa pun untuk membuat informasi di tempat yang tidak ada (walaupun mereka dapat membuat ilusi itu ;-). Sejarah harga Y sebelum X dipublikasikan tidak berguna untuk menilai korelasi selanjutnya.

Kadang-kadang (seringkali persiapan untuk IPO) analis menggunakan informasi akuntansi internal (atau catatan transaksi saham swasta) untuk merekonstruksi secara retrospektif harga hipotetis untuk saham X sebelum go public. Dapat dibayangkan informasi tersebut dapat digunakan untuk meningkatkan perkiraan korelasi, tetapi mengingat sifat yang sangat tentatif dari backcast seperti itu, saya ragu upaya itu akan membantu kecuali pada awalnya ketika hanya ada beberapa hari atau minggu harga untuk X tersedia.


Klarifikasi: Saya tidak menyebutkan GARCH untuk menangani masalah data yang hilang (yang tentu saja tidak masuk akal) - tetapi untuk memperbaiki perhitungan korelasi sederhana antara deret waktu pada waktu di mana keduanya ada.
Stephan Kolassa

@Stephan: Oke. Saya sebutkan terutama untuk menunjukkan saya tidak mengabaikan Anda!
whuber

1
Terima kasih. Ini sesuai dengan apa yang saya cari. Saya pikir backcasting tidak akan banyak berguna (atau kelayakan) untuk menambahkan beberapa minggu ekstra X ketika kerangka waktu bersama antara X dan Y sudah sekitar 16 tahun.
Christopher Aden

2
@Christopher: !! Dengan 16 tahun (penutupan harian?) Anda memiliki data yang cukup tidak hanya untuk menemukan korelasi, tetapi juga untuk mengeksplorasi bagaimana perubahannya dari waktu ke waktu. (Ini saya percaya adalah semangat balasan @Stephan Kolassa.)
whuber

Saya setuju. Menggunakan teknik untuk mencari tahu nilai-nilai X apa yang akan diambil sebelum IPO-nya tampaknya rentan terhadap kesalahan. Saya mungkin juga mempertanyakan relevansi data yang berusia 16 tahun untuk memprediksi tren modern.
Christopher Aden

10

Jadi masalahnya adalah salah satu data yang hilang (tidak semua Y memiliki X yang sesuai, di mana korespondensi dioperasikan melalui titik waktu). Saya tidak berpikir ada banyak yang harus dilakukan di sini daripada hanya membuang Y Anda tidak memiliki X untuk dan menghitung korelasi pada pasangan penuh.

Anda mungkin ingin membaca tentang rangkaian waktu keuangan, meskipun saya tidak memiliki referensi yang bagus pada saat ini (ide, siapa pun?). Harga saham sering menunjukkan volatilitas yang bervariasi waktu, yang dapat dimodelkan, misalnya oleh GARCH . Bisa dibayangkan bahwa dua seri waktu X dan Y Anda menunjukkan korelasi positif selama periode volatilitas rendah (ketika ekonomi tumbuh, semua harga saham cenderung meningkat), tetapi korelasi negatif ketika volatilitas keseluruhan tinggi (pada 9/11, maskapai mabuk selama uang melarikan diri ke investasi yang lebih aman). Jadi hanya menghitung korelasi keseluruhan mungkin terlalu tergantung pada kerangka waktu pengamatan Anda.

UPDATE: Saya pikir Anda mungkin ingin melihat model VAR (vector autoregressive) .


Untuk referensi seri waktu keuangan dasar, Anda dapat melihat jawaban saya di sini: stats.stackexchange.com/questions/328/… . Teks Tsay adalah salah satu yang paling populer.
Shane

2

@Jeromy Anglim menentukan ini dengan benar. Memiliki informasi tambahan ketika hanya satu dari rangkaian waktu yang ada tidak akan memberikan nilai di sini. Dan pada prinsipnya, data harus diambil sampel pada saat yang sama agar menjadi bermakna menggunakan langkah-langkah korelasi konvensional.

Sebagai masalah yang lebih umum, saya akan menambahkan bahwa ada teknik untuk menangani data time series yang tidak beraturan. Anda dapat mencari "korelasi seri waktu yang tidak beraturan". Beberapa pekerjaan baru-baru ini telah dilakukan pada "Volatilitas dan Korelasi Realisasi" (Andersen, Bollerslev, Diebold, dan Labys 1999) menggunakan data frekuensi tinggi.


1

Mengingat informasi tambahan dalam komentar Anda, saya akan merekomendasikan untuk melihat dua korelasi. Yang pertama adalah periode waktu yang umum di mana perusahaan berada. Jadi, jika ada sekitar 2 tahun sebelumnya, Anda hanya akan membuang data itu dan melihat sisanya. Yang kedua adalah periode waktu relatif. Di yang kedua Anda tidak mengkorelasikan waktu aktual tetapi waktu diukur sejak perusahaan go public.

Yang pertama akan sangat dipengaruhi oleh kekuatan ekonomi umum yang dibagi dalam periode waktu yang sama. Yang terakhir akan dipengaruhi oleh properti yang dibagikan oleh perusahaan saat mereka berubah setelah IPO.


0

Cara lain untuk memecahkan masalah seperti itu adalah dengan memasukkan data yang hilang untuk seri pendek menggunakan model deret waktu yang mungkin atau mungkin tidak masuk akal dalam konteks tertentu.

Dalam konteks Anda, memasukkan harga saham ke masa lalu akan berarti bahwa Anda mengajukan pertanyaan kontra faktual berikut: Apa yang akan menjadi harga saham perusahaan X jika sudah go public n tahun di masa lalu daripada ketika itu benar-benar go public? Pemangkasan data seperti itu berpotensi dilakukan dengan memperhitungkan harga saham perusahaan terkait, tren pasar umum, dll. Tetapi, analisis semacam itu mungkin tidak masuk akal atau mungkin tidak diperlukan mengingat tujuan proyek Anda.


0

Yah banyak tergantung pada asumsi yang Anda buat. Jika Anda berasumsi bahwa data itu diam maka lebih banyak data untuk seri satu akan memberi Anda perkiraan volatilitas yang lebih baik. Estimasi ini dapat digunakan untuk meningkatkan estimasi korelasi. Jadi statemen yang mengikuti salah:

"Sejarah harga Y sebelum X dipublikasikan tidak berguna untuk menilai korelasi mereka selanjutnya"


Saya pikir tentang ini. Secara teori mungkin berhasil, tetapi akan sangat tidak baik, jadi lebih baik untuk menghindari.
kjetil b halvorsen

-1

Ini terdengar seperti masalah untuk algoritma pembelajaran mesin. Oleh karena itu, saya akan mencoba mencari serangkaian fitur yang menggambarkan aspek tertentu dari tren dan melatihnya. Seluruh teori pembelajaran mesin sedikit rumit untuk kotak jawaban ini, tetapi akan berguna bagi Anda untuk membacanya.

Tapi jujur, saya pikir sudah ada di luar sana. Di mana uang dapat dihasilkan, orang menaruh pikiran di dalamnya.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.