Konsep himpunan tipikal

14

Saya berpikir bahwa konsep himpunan tipikal cukup intuitif: urutan panjang akan menjadi milik himpunan jika probabilitas urutan yang keluar tinggi. Jadi, urutan apa pun yang mungkin ada di . (Saya menghindari definisi formal terkait dengan entropi karena saya mencoba memahaminya secara kualitatif.) $n$ $A_\epsilon ^{(n)}$ $A_\epsilon ^{(n)}$

Namun, saya sudah membaca bahwa, secara umum, urutan yang paling mungkin bukan milik set yang khas. Ini membingungkan saya waktu besar.

Apakah ada definisi intuitif dari set tip? Atau hanya alat matematika yang tidak ada hubungannya dengan akal sehat?

entropy intuition information-theory

— Tendero
sumber

11

Saya tahu Anda secara eksplisit telah meminta penjelasan intuitif dan untuk meninggalkan definisi formal, tapi saya pikir mereka agak terkait, jadi izinkan saya mengingat kembali definisi dari set yang khas:

$X_1, X_2 ,...$ adalah variabel acak iid maka himpunan berkenaan dengan adalah himpunan urutan dengan properti ini berarti bahwa untuk tetap , set khas terdiri dari semua urutan yang probabilitas yang dekat dengan . Jadi, agar suatu urutan menjadi milik set tertentu, ia hanya harus memiliki probabilitas mendekati $\sim$ $p(x)$ $A_\epsilon^{(n)}$ $p(x)$ $(x_1,x_2,...,x_n) \in \chi^n$

\begin{matrix} (1) & 2^{- n (H (X) + ϵ)} \leq p (x_{1}, x_{2}, . . ., x_{n}) \leq 2^{- n (H (X) - ϵ)} \end{matrix}

$2^{-n(H(X)+\epsilon)}\le p(x_1,x_2,...,x_n) \le 2^{-n(H(X)-\epsilon)} \tag{1}$

ϵ

$\epsilon$

2^{- n H (X)}

$2^{-nH(X)}$

2^{- n H (X)}

$2^{-nH(X)}$ , biasanya tidak sekalipun. Untuk memahami alasannya, izinkan saya menulis ulang persamaan 1 dengan menerapkan di atasnya.

l o g_{2}

$log_2$

\begin{matrix} (2) & H (X) - ϵ \leq \frac{1}{n} \log_{2} (\frac{1}{p (x_{1}, x_{2}, . . ., x_{n})}) \leq H (X) + ϵ \end{matrix}

$H(X)-\epsilon\le \frac{1}{n}\log_2\left(\frac{1}{p(x_1,x_2,...,x_n)}\right) \le H(X)+\epsilon \tag{2}$

Sekarang definisi himpunan tipikal lebih langsung terkait dengan konsep entropi, atau dinyatakan dengan cara lain, informasi rata-rata dari variabel acak. Jangka menengah dapat dianggap sebagai entropi sampel dari urutan, sehingga set khas dibuat oleh semua urutan yang memberikan kita jumlah informasi dekat dengan informasi rata-rata dari variabel acak . Urutan yang paling mungkin biasanya memberi kita informasi lebih sedikit daripada rata-rata. Ingat bahwa, semakin rendah probabilitas suatu hasil, semakin tinggi informasi yang diberikannya kepada kita. Untuk memahami mengapa saya beri contoh: $X$

Misalkan Anda tinggal di kota yang cuacanya sangat cerah dan hangat, antara 24 ° C dan 26 ° C. Anda mungkin menonton laporan cuaca setiap pagi tetapi Anda tidak akan terlalu peduli tentang itu, maksud saya, selalu cerah dan hangat. Tapi bagaimana jika suatu hari pria / wanita cuaca memberitahu Anda bahwa hari ini akan hujan dan dingin, itu adalah pengubah permainan. Anda harus menggunakan beberapa pakaian yang berbeda dan mengambil payung dan melakukan hal-hal lain yang biasanya tidak Anda lakukan, sehingga petugas cuaca memberi Anda informasi yang sangat penting.

Singkatnya, definisi intuitif dari himpunan tipikal adalah bahwa ia terdiri dari urutan yang memberi kita sejumlah informasi yang dekat dengan yang diharapkan dari salah satu sumber (variabel acak).

— diegobatt
sumber

1

... atau lebih tepatnya $$H(X)-\epsilon\le \frac{1}{n}log_2(\frac{1}{p(x_1,x_2,...,x_n)}) \le H(X)+\epsilon \tag{2}$$...

— Cbhihe

OK, tapi apa tujuan dari himpunan tipikal didefinisikan dengan cara ini, lalu? Sebelumnya saya pikir kami membuat gagasan tentang himpunan tipikal untuk memiliki intuisi yang perlu kami ambil untuk memastikan bahwa kami "menutup" (1 - \ eps)% kasus. Dengan cara ini, mengambil urutan yang paling mungkin adalah pilihan yang jelas. Apa yang saya lewatkan?

— tomwesolowski

10

Jawaban Diegobatt melakukan pekerjaan yang baik untuk menjelaskan secara intuitif apa yang menjadi ciri khasnya. Jawaban ini akan menjawab pertanyaan OP lainnya, digaungkan oleh @tomwesolowski: mengapa Anda mendefinisikan set tipikal dengan cara yang dapat mengecualikan elemen yang paling mungkin?

Jawaban singkatnya adalah bahwa set tip utamanya adalah alat matematika. Itu didefinisikan untuk membantu membuktikan sesuatu, dan definisi ini adalah yang paling nyaman untuk pembuktian. Ini adalah contoh yang baik tentang bagaimana kebutuhan teoritis terkadang dapat mengalahkan preferensi intuitif dalam matematika.

Set khas didefinisikan oleh bapak teori informasi , Claude Shannon . Dia ingin menentukan seberapa efisien seseorang dapat menyandikan aliran simbol dari alfabet tetap, dengan asumsi masing-masing simbol adalah sampel acak iid dari beberapa distribusi. Wawasan utamanya adalah:

Ada serangkaian sekuens "tipikal" yang mudah diidentifikasi dan relatif kecil yang sering muncul secara tidak proporsional dalam arus.
Menetapkan "rangkaian tipikal" ini dari urutan pengkodean terpendek menghasilkan pengkodean yang efisien secara optimal (asimtotik, karena output stream tumbuh panjang secara sewenang-wenang).

Himpunan khas yang ditemukan Shannon terdiri dari sekuens-sekuens yang informasi-diri-nya , atau "kejutan-ness", kira-kira sama dengan informasi-mandiri yang diharapkan , rata-rata, untuk distribusi sumber arus. Urutan seperti itu adalah "tipikal" dalam arti bahwa informasi mereka adalah tentang rata-rata, tetapi definisi ini secara implisit mengecualikan urutan yang memiliki informasi secara signifikan lebih sedikit daripada rata-rata. Urutan yang kurang informatif ini juga merupakan yang paling memungkinkan.

Seperti yang dicatat OP, ini tidak menarik secara intuitif! Pada wajahnya, himpunan khas terdengar seperti itu harus berisi semua urutan yang paling mungkin hingga batas tertentu. Itu akan lebih mewakili apa yang biasanya terlihat di sungai.

Tetapi Shannon tidak menginginkan set tipikal yang paling "tipikal" mungkin; dia menginginkan satu yang membuatnya mudah untuk membuktikan hasil yang ingin dia buktikan. Set tipikal yang didefinisikan oleh Shannon dijamin ada, dijamin kecil, dan dijamin sekecil set lainnya yang mungkin Anda usulkan, seperti yang ditunjukkan oleh jawaban ini . Menambahkan elemen yang paling mungkin membuat set lebih mungkin, yang baik, tetapi juga membuat set lebih besar, yang buruk. Jika semua yang Anda pedulikan adalah menyelesaikan bukti Anda, mengapa memperbaiki apa yang tidak rusak?

Jika Anda memiliki tujuan yang berbeda dari Shannon, konsep kesukaan Anda yang disukai mungkin juga berbeda. Misalnya, dalam pengkodean Huffman , simbol yang paling mungkin (atau urutan simbol) mendapatkan kode terpendek. Dalam pengertian teknis tertentu, pengkodean Huffman adalah solusi optimal untuk masalah asli Shannon, dan lebih baik menangkap intuisi kita tentang tipikal. Di sisi lain, definisi tipikal Shannon lebih cocok untuk membuktikan sesuatu.

— Paul
sumber

1

Penalaran yang sangat baik, dan pujian atas pekerjaan yang dilakukan dengan baik mengatasi kesenjangan antara intuisi dan definisi. Saya akan mengatakan perbedaan ini terjadi karena kekurangan bahasa dari kehidupan sehari-hari di mana tipikal dan rata - rata biasanya berarti hal yang sama, tetapi dalam hal statistik, tipikal (dalam arti probabilitas, yaitu mode) tidak harus sama dengan rata-rata , yaitu nilai yang diharapkan.

— Emil

Namun satu pertanyaan, ketika Anda mengatakan definisi tidak termasuk urutan yang memiliki "informasi secara signifikan lebih sedikit daripada rata-rata", seharusnya tidak menjadi "secara signifikan kurang atau lebih" karena batas bawah dan atas masing-masing adalah dan ?

H (x) - ε

$H(x)-\varepsilon$

H (x) + ε

$H(x)+\varepsilon$

— Emil

@ Emil, saya berasumsi bahwa penulis mengatakannya seperti ini, karena kita semua sepakat bahwa urutan memiliki lebih banyak informasi (kurang mungkin) tidak boleh dimuat dalam set khas.

— tomwesolowski

1

Gagasan tentang seperangkat tipikal secara implisit memperlakukan urutan hasil sebagai multiset, artinya ia menganggap Anda hanya peduli dengan histogram dari setiap urutan, misalnya Anda menganggap semua 10 urutan lemparan koin dengan 7 kepala dan 3 ekor sebagai setara.

$p(H) = .9$

Hasil penting adalah bahwa untuk sekuens yang cukup lama hampir semua sekuens sampel akan sewenang-wenang mendekati frekuensi yang diharapkan, yaitu distribusi menjadi sangat memuncak ketika panjang sekuens dianggap meningkat.

$10^5$ $P(H)=.9$ $10^4{+/-}300$

Kumpulan tipikal adalah versi yang lebih umum, informasi yang secara teori didefinisikan dari ide ini.

— Daniel Mahler
sumber

0

$2^{-nH(X)}$ $2^{nH}$

— tomwesolowski
sumber

1

Bisakah Anda menjelaskan bagaimana ini menjawab permintaan untuk "definisi intuitif dari set khas"?

— whuber

Saya tidak yakin, tetapi itu dimaksudkan untuk menjawab, "Namun, saya telah membaca bahwa, secara umum, urutan yang paling mungkin bukan milik perangkat biasa. Ini membingungkan saya waktu besar." bagian dari pertanyaan :)

— tomwesolowski