Metode pengukuran kekuatan hubungan non-linear sewenang-wenang antara dua variabel?


8

Metode apa yang ada untuk mengukur kekuatan hubungan yang sewenang-wenang dan sangat linier antara dua variabel berpasangan? Dengan sangat non-linear, maksud saya hubungan yang tidak dapat secara masuk akal atau andal dimodelkan dengan regresi ke model yang dikenal. Saya sangat tertarik dengan deret waktu, tetapi saya membayangkan hal apa pun yang berfungsi untuk data dua-variasi akan berfungsi di sini (jika kita memperlakukan dua deret waktu sebagai satu set titik data pasangan)

Dua yang saya ketahui adalah Mean Square Difference (mis. Mean square error , memperlakukan satu deret waktu sebagai nilai "yang diharapkan", dan satu sebagai yang diamati), sebagai dan Jarak Kovarian . Apa yang ada di sana?

Klarifikasi: Saya pada dasarnya bertanya tentang ketergantungan antara seri, di mana korelasi linier atau korelasi non-linear sederhana (setelah log, exp, trigonometri, transformasi analitik sederhana lainnya) tidak terlalu berarti.


Jika fokus Anda adalah pada peramalan, Anda harus menyadari perbedaan antara kecocokan model yang baik dan kemampuan prediksi yang dihasilkan bahkan dari model linear multivariat sederhana. Saya memposting pertanyaan tentang subjek terkait di sini: stats.stackexchange.com/questions/25381/… .
Robert Kubrick

Model non-linear adalah area yang luas. Saya menduga Anda mungkin juga tertarik pada pengenalan pola yang merupakan sepupu dekat dari pemodelan non-linier ketika diterapkan pada peramalan. Bisakah Anda membuat pertanyaan lebih spesifik, mungkin dengan contoh masalah Anda?
Robert Kubrick


1
Tidak sepenuhnya jelas untuk menjadi apa yang Anda coba ukur, tetapi saya akan mencoba memberi Anda info yang mungkin bisa membantu. Ada langkah-langkah korelasi seperti Cronback's Alpha yang dapat digunakan untuk menilai konsistensi internal / hubungan antara satu set variabel. Anda juga dapat menggunakan hal-hal seperti model aditif umum (GAM) untuk menguji apakah taksiran fungsional konstan. Ini berarti tidak ada hubungan antara variabel Anda. Lihat jawabannya di sini untuk diskusi tentang ini: stats.stackexchange.com/questions/35893/…
StatsStudent

1
@StatsStudent terima kasih atas tautannya, ini sangat membantu. Saya pikir itu adalah jawaban terbaik sejauh ini, jika Anda memindahkannya ke jawaban dan tidak ada yang lebih baik muncul sampai batas waktu, saya akan memberi Anda poin.
Allen Wang

Jawaban:


2

Regresi linear lama yang polos memiliki interpretasi non-parametrik yang bagus sebagai tren linier rata-rata di semua pasangan pengamatan; lihat Berman 1988, "Teorema Jacobi dan generalisasi". Jadi, data tidak harus terlihat linier untuk menggunakannya; tren monotonik (secara luas) dapat diringkas dengan cara ini.

Anda juga bisa menggunakan korelasi peringkat Spearman ... dan mungkin banyak lagi selain itu.


Terima kasih, tapi saya sadar akan hal itu, dan itu bukan yang saya minta (karena garis lurus kurang lebih merupakan model paling sederhana yang mungkin, itu tersirat dalam pertanyaan saya). Saya sudah mengklarifikasi pertanyaan itu.
naught101

2

"Jumlah hubungan" antara dua variabel diskrit , secara resmi diukur dengan informasi timbal balik : . Sementara kovarians / korelasi entah bagaimana merupakan jumlah hubungan linier, informasi timbal balik entah bagaimana adalah jumlah (apapun jenis) hubungan. Saya menempelkan gambar dari halaman Wikipedia:XYI(X,Y)

masukkan deskripsi gambar di sini

Untuk variabel kontinu, konsep informasi-teoretis sering didefinisikan juga tetapi kurang dapat dikelola, mungkin kurang bermakna. Saya tidak ingin repot untuk saat ini. Mari kita berpegang pada variabel diskrit. Lagi pula masuk akal mendekati variabel kontinu dengan yang diskrit (menggunakan irisan) terutama dalam pendekatan teori informasi.

Masalah dengan konsep teori informasi seringkali tidak praktis. Mampu memperkirakan informasi timbal balik antara dan sama dengan kemampuan menemukan hubungan non-linear yang sewenang-wenang di antara mereka: Anda memerlukan kekuatan statistik (jumlah data) yang paling sering jauh melampaui apa yang masuk akal: untuk setiap nilai yang mungkin untuk , Anda perlu banyak (katakan 1000) sampel untuk menghitung estimasi setiap . Ini tidak mungkin di sebagian besar masalah pembelajaran mesin atau analisis statistik. Ini agak masuk akal: jika Anda membiarkan suatu model dapat mengekspresikan "segala kemungkinan", maka itu hanya dapat dilatih oleh sejumlah data yang mencakup kemungkinan apa pun beberapa kali.XYxP(Y=y|X=x)

Tetapi mungkin pendekatan semacam itu mungkin dilakukan, untuk variabel dimensi rendah, jika Anda menerapkan presisi rendah: dekomposisi domain dan menjadi sejumlah irisan yang cukup kecil sehingga tidak masalah untuk data Anda. Bagaimanapun saya pikir ini memerlukan beberapa penelitian.XY


1

Akhirnya bentuk paling umum dari fungsi injeksi adalah

f(x)=y

dan Anda dapat menggunakan versi diskretisasi dari fungsi itu sebagai model untuk data Anda.

Kemudian masalah berkurang untuk menentukan diharapkan untuk daerah yang terpisah .ya<x<b

Metode ini tidak kuat karena tingginya tingkat kebebasan dalam model. Meskipun, itu juga melekat pada masalah yang menginginkan tingkat kebebasan tinggi (dan generalitas) dalam jenis fungsi yang dapat menggambarkan model untuk data.

Untuk kasus yang lebih spesifik, perbaikan dapat dilakukan.


Model yang saya usulkan sangat umum. Anda juga dapat menggunakan splines, fungsi linear piecewise, atau salah satu dari jenis fungsi fitting umum tersebut.
Sextus Empiricus

1

Perlu menjadi metode yang cepat untuk menghitung, mirip dengan korelasi, tetapi dapat mendeteksi hubungan kuadrat misalnya.

Korelasi Spearman, yang disebutkan dalam jawaban lain, sesuai dengan RUU tersebut. Itu dihitung dengan hanya mengkonversi data ke peringkat dan kemudian menemukan korelasi Pearson untuk peringkat. Itu dapat mendeteksi hubungan monotonik apa pun.

Ada juga korelasi Kendall. Korelasi Kendall memiliki interpretasi yang bagus sebagai (versi yang diskala ulang) probabilitas bahwa peringkat kasus pada satu variabel akan setuju dengan peringkat mereka pada variabel lain. Sebaliknya, korelasi Spearman agak kabur — siapa yang berpikir tentang data dalam hal hubungan linier di antara barisan? Korelasi Kendall tidak "cepat untuk menghitung" dalam hal kompleksitas komputasi (itu sedangkan Spearman adalah ), tetapi itu tidak memerlukan penilaian manusia untuk menghitung dan itu sudah diterapkan dalam banyak statistik perangkat lunak, dan dengan mesin modern, kompleksitas asimptomatik tidak menjadi masalah kecuali dengan dataset yang sangat besar.O(nlogn)O(n)


Jika semacam perbandingan digunakan untuk menghitung peringkat, maka Spearman juga akan menjadi . nlog(n)
GeoMatt22

@ GeoMatt22 Ah, sepertinya jawaban cs.stackexchange yang saya tautkan tidak memperhitungkan langkah peringkat. Jadi korelasi Spearman mungkin tidak lebih cepat dari korelasi Kendall.
Kodiologist

1

Tidak sepenuhnya jelas untuk menjadi apa yang Anda coba ukur, tetapi saya akan mencoba memberi Anda info yang mungkin bisa membantu. Ada langkah-langkah korelasi seperti Cronback's Alpha yang dapat digunakan untuk menilai konsistensi internal / hubungan antara satu set variabel. Anda juga dapat menggunakan hal-hal seperti model aditif umum (GAM) untuk menguji apakah taksiran fungsional konstan. Ini berarti tidak ada hubungan antara variabel Anda. Lihat jawabannya di sini untuk diskusi tentang ini: Bagaimana cara menguji asosiasi nonlinear?


1

Anda dapat mencoba koefisien informasi maksimal . Ini mengungguli metode yang dipilih dalam makalah dan bekerja dengan baik dalam mendeteksi hubungan nonlinear antara dua variabel acak.


0

Saya tidak dapat berkomentar sehingga saya harus memposting jawabannya. Lihat Dynamic Time Warping, algoritme sederhana yang dapat mendeteksi / membandingkan pola antara dua seri waktu, yang bahkan dapat memiliki granularitas yang berbeda. https://en.wikipedia.org/wiki/Dynamic_time_warping


Saya tidak mencari persis hanya untuk deret waktu, bisa antara dua set variabel.
Allen Wang

2
Begitu ya, jadi DTW bukan yang Anda butuhkan. Tidak bisakah beberapa pendekatan informasi timbal balik diterapkan?
reicja
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.