Kode Huffman untuk distribusi probabilitas adalah kode awalan dengan panjang codeword rata-rata tertimbang minimum , di mana adalah panjang dari kata sandi ke- . Ini adalah teorema yang terkenal bahwa panjang rata-rata per simbol kode Huffman adalah antara dan , di mana adalah entropi Shannon dari distribusi probabilitas.
Contoh buruk kanonik, di mana panjang rata-rata melebihi entropi Shannon hampir 1, adalah distribusi probabilitas seperti , di mana entropi hampir 0, dan panjang rata-rata kode kata adalah 1. Ini memberikan celah antara entropi dan panjang kode sandi hampir .
Tetapi apa yang terjadi ketika ada batasan pada probabilitas terbesar dalam distribusi probabilitas? Misalkan, misalnya, bahwa semua probabilitas kurang dari . Kesenjangan terbesar yang dapat saya temukan dalam kasus ini adalah untuk distribusi probabilitas seperti , di mana entropi sedikit lebih dari 1 dan panjang rata-rata codeword sedikit kurang dari 1,5, memberikan gap mendekati . Apakah ini yang terbaik yang dapat Anda lakukan? Bisakah Anda memberi batas atas pada celah yang benar-benar kurang dari 1 untuk kasus ini?
Sekarang, mari kita perhatikan kasus di mana semua probabilitas sangat kecil. Misalkan Anda memilih distribusi probabilitas atas huruf, masing-masing memiliki probabilitas . Dalam hal ini, kesenjangan terbesar terjadi jika Anda memilih . Di sini, Anda mendapatkan celah sekitar Apakah ini yang terbaik yang dapat Anda lakukan dalam situasi di mana semua probabilitas kecil?
Pertanyaan ini terinspirasi oleh pertanyaan TCS Stackexchange ini .