Informasi timbal balik versus korelasi

51

Mengapa dan kapan kita harus menggunakan Informasi Reksa atas pengukuran korelasi statistik seperti "Pearson", "spearman", atau "Kendall's tau"?

correlation mathematical-statistics mutual-information

— SaZa
sumber

77

Mari kita pertimbangkan satu konsep dasar korelasi (linier), kovarian (yang merupakan koefisien korelasi Pearson "tidak terstandarisasi"). Untuk dua variabel acak diskrit dan dengan probabilitas fungsi massa , dan PMF bersama kita memiliki $X$ $Y$ $p(x)$ $p(y)$ $p(x,y)$

Cov (X, Y) = E (X Y) - E (X) E (Y) = \sum_{x, y} p (x, y) x y - (\sum_{x} p (x) x) \cdot (\sum_{y} p (y) y)

$\operatorname{Cov}(X,Y) = E(XY) - E(X)E(Y) = \sum_{x,y}p(x,y)xy - \left(\sum_xp(x)x\right)\cdot \left(\sum_yp(y)y\right)$

\Rightarrow Cov (X, Y) = \sum_{x, y} [p (x, y) - p (x) p (y)] x y

$\Rightarrow \operatorname{Cov}(X,Y) = \sum_{x,y}\left[p(x,y)-p(x)p(y)\right]xy$

Informasi Mutual antara keduanya didefinisikan sebagai

I (X, Y) = E (\ln \frac{p (x, y)}{p (x) p (y)}) = \sum_{x, y} p (x, y) [\ln p (x, y) - \ln p (x) p (y)]

$I(X,Y) = E\left (\ln \frac{p(x,y)}{p(x)p(y)}\right)=\sum_{x,y}p(x,y)\left[\ln p(x,y)-\ln p(x)p(y)\right]$

$\operatorname{Cov}(X,Y)$ $I(X,Y)$

$I(X,Y)$ $\operatorname{Cov}(X,Y)$

Jadi keduanya tidak antagonis - mereka saling melengkapi, menggambarkan berbagai aspek hubungan antara dua variabel acak. Orang dapat berkomentar bahwa Informasi Reksa "tidak peduli" apakah asosiasi itu linier atau tidak, sementara Kovarian mungkin nol dan variabel mungkin masih bergantung secara stokastik. Di sisi lain, Kovarian dapat dihitung secara langsung dari sampel data tanpa harus benar-benar mengetahui distribusi probabilitas yang terlibat (karena itu adalah ekspresi yang melibatkan momen-momen distribusi), sedangkan Informasi Reksa membutuhkan pengetahuan tentang distribusi, yang estimasi, jika tidak diketahui, adalah pekerjaan yang jauh lebih rumit dan tidak pasti dibandingkan dengan estimasi Kovarian.

— Alecos Papadopoulos
sumber

@ Alecos Papadopoulos; Terima kasih atas jawaban komprehensif Anda.

— SaZa

1

Saya bertanya pada diri sendiri pertanyaan yang sama tetapi saya belum sepenuhnya mengerti jawabannya. @ Alecos Papadopoulos: Saya mengerti bahwa dependensi yang diukur tidak sama, oke. Jadi untuk hubungan seperti apa antara X dan Y kita harus lebih suka informasi mutual I (X, Y) daripada Cov (X, Y)? Saya punya contoh aneh baru-baru ini di mana Y hampir secara linear bergantung pada X (itu hampir garis lurus dalam plot pencar) dan Corr (X, Y) sama dengan 0,87 sedangkan I (X, Y) sama dengan 0,45 . Jadi, adakah yang jelas beberapa kasus di mana satu indikator harus dipilih daripada yang lain? Terima kasih telah membantu!

— Gandhi91

X

$X$

H (X)

$H(X)$

Ini adalah jawaban yang bagus dan sangat jelas. Saya bertanya-tanya apakah Anda memiliki contoh yang tersedia di mana cov adalah 0, tetapi pmi tidak.

— thang

@thang. Tidak juga. Kita harus dapat menemukan contoh di mana kovarians adalah nol dan pada saat yang sama memiliki distribusi bersama yang tersedia, untuk menghitung informasi bersama (dan distribusi bersama tidak akan menjadi produk dari marjinal, karena kita ingin variabel tidak menjadi independen).

— Alecos Papadopoulos

7

Informasi timbal balik adalah jarak antara dua distribusi probabilitas. Korelasi adalah jarak linear antara dua variabel acak.

Anda dapat memiliki informasi timbal balik antara dua probabilitas yang ditentukan untuk serangkaian simbol, sementara Anda tidak dapat memiliki korelasi antara simbol yang tidak dapat dipetakan secara alami ke dalam ruang R ^ N.

Di sisi lain, informasi timbal balik tidak membuat asumsi tentang beberapa properti variabel ... Jika Anda bekerja dengan variabel yang lancar, korelasi dapat memberi tahu Anda lebih banyak tentang mereka; misalnya jika hubungan mereka monoton.

Jika Anda memiliki beberapa informasi sebelumnya, maka Anda mungkin dapat beralih dari satu ke yang lain; dalam catatan medis Anda dapat memetakan simbol "memiliki genotipe A" sebagai 1 dan "tidak memiliki genotipe A" menjadi nilai 0 dan 1 dan melihat apakah ini memiliki beberapa bentuk korelasi dengan satu penyakit atau lainnya. Demikian pula, Anda dapat mengambil variabel yang kontinu (mis: gaji), mengubahnya menjadi kategori diskrit dan menghitung informasi timbal balik antara kategori-kategori tersebut dan seperangkat simbol lainnya.

— Pau Vilimelis Aceituno
sumber

Korelasi bukan fungsi linier. Haruskah dikatakan bahwa korelasi adalah ukuran hubungan linier antara variabel acak?

— Matius Gunn

1

Saya pikir ini: "Anda dapat memiliki informasi timbal balik antara dua probabilitas yang ditentukan untuk satu set simbol, sementara Anda tidak dapat memiliki korelasi antara simbol yang tidak dapat secara alami dipetakan ke dalam ruang R ^ N" mungkin kuncinya. Corr tidak masuk akal jika Anda tidak memiliki variabel acak lengkap; Namun, pmi masuk akal bahkan hanya dengan pdf dan sigma (spasi). Inilah sebabnya mengapa dalam banyak aplikasi di mana RV tidak masuk akal (misalnya NLP), pmi digunakan.

— thang

6

Ini sebuah contoh.

Dalam dua plot ini koefisien korelasinya adalah nol. Tetapi kita bisa mendapatkan informasi timbal balik yang dibagikan tinggi walaupun korelasinya nol.

Pada bagian pertama, saya melihat bahwa jika saya memiliki nilai X tinggi atau rendah maka saya cenderung mendapatkan nilai Y yang tinggi. Tetapi jika nilai X sedang, maka saya memiliki nilai Y yang rendah. Plot pertama menyimpan informasi tentang informasi timbal balik yang dibagikan oleh X dan Y. Dalam plot kedua, X tidak memberitahuku apa-apa tentang Y.

— dennislendrem
sumber

4

Meskipun keduanya merupakan ukuran hubungan antara fitur, MI lebih umum daripada koefisien korelasi (CE) karena CE hanya mampu memperhitungkan hubungan linier tetapi MI juga dapat menangani hubungan non-linear.

— Hossein9
sumber

Itu tidak benar. Koefisien korelasi Pearson mengasumsikan normalitas dan linearitas dari dua variabel acak, alternatif seperti Spearman non-parametrik tidak. Di sana hanya monotonitas antara kedua rv yang diasumsikan.

— meow