Saya membaca di beberapa tempat bahwa musik sebagian besar sampel pada 44.1 kHz sedangkan kita hanya dapat mendengar hingga 20 kHz. Kenapa sih?
Saya membaca di beberapa tempat bahwa musik sebagian besar sampel pada 44.1 kHz sedangkan kita hanya dapat mendengar hingga 20 kHz. Kenapa sih?
Jawaban:
Perhatikan bahwa alasannya dipublikasikan di banyak tempat: Wikipedia: Mengapa 44,1 kHz?
44.100 dipilih oleh Sony karena merupakan produk kuadrat dari empat bilangan prima pertama. Ini membuatnya dapat dibagi oleh banyak bilangan bulat lainnya , yang merupakan properti yang berguna dalam pengambilan sampel digital.
44100 = 2^2 * 3^2 * 5^2 * 7^2
Seperti yang Anda perhatikan, 44100 juga tepat di atas batas pendengaran manusia dua kali lipat. Bagian di atas memberikan filter beberapa kelonggaran, sehingga membuatnya lebih murah (lebih sedikit chip yang ditolak).
Seperti yang ditunjukkan Russell dalam komentar, aspek yang dapat dibagi oleh banyak bilangan bulat lainnya memiliki manfaat langsung pada saat laju sampel dipilih. Audio digital awal direkam pada media perekaman video analog yang ada yang mendukung, tergantung pada wilayah, baik spesifikasi video NTSC atau PAL . NTSC dan PAL memiliki Lines berbeda per Field dan Fields per Second rate, LCM yang (bersama-sama dengan Sampel per Line) adalah 44100 .
Tingkat Nyquist di atas dua kali bandlimit dari sinyal baseband yang ingin Anda tangkap tanpa ambiguitas (misalnya aliasing).
Sampel pada tingkat yang lebih rendah dari dua kali 20kHz, dan Anda tidak akan dapat membedakan antara frekuensi sangat tinggi dan sangat rendah hanya dari melihat sampel, karena aliasing.
Ditambahkan: Perhatikan bahwa setiap sinyal panjang terbatas memiliki dukungan tak terbatas dalam domain frekuensi, sehingga tidak sepenuhnya terbatas. Ini adalah alasan lain mengapa pengambilan sampel sumber audio tidak terbatas sedikit di atas dua kali spektrum frekuensi tertinggi (dalam sinyal baseband) diperlukan untuk menghindari aliasing yang signifikan (di luar alasan roll-off transisi filter terbatas).
Pada dasarnya, dua kali bandwidth adalah persyaratan umum untuk pengambilan sampel sinyal, sehingga kHz adalah minimum. Kemudian, sedikit lebih berguna untuk mengatasi penyaringan dan kuantisasi yang tidak sempurna . Detail mengikuti.
Apa yang Anda butuhkan dalam teori bukanlah apa yang diperlukan dalam praktik. Ini sesuai dengan kutipan (dikaitkan dengan banyak):
Secara teori tidak ada perbedaan antara teori dan praktik. Dalam praktiknya ada.
Saya bukan ahli audio, tetapi saya telah dilatih oleh orang-orang pengambilan sampel / kompresi audio berkualitas tinggi. Pengetahuan saya mungkin berkarat, bawa dengan hati-hati.
Pertama, teori pengambilan sampel standar bekerja di bawah beberapa asumsi: sistem linear, dan invarian waktu. Kemudian, sebuah fenomena terbatas pita kontinu diketahui, secara teori, kemungkinan sampel sekitar dua kali bandwidth (atau dua kali frekuensi maksimum untuk sinyal pita dasar) tanpa kehilangan. "Tingkat Nyquist" sering didefinisikan sebagai:
tingkat minimum di mana sinyal dapat diambil sampelnya tanpa menimbulkan kesalahan
Ini adalah bagian analisis dari "teorema pengambilan sampel". "Bisa" itu penting. Ada bagian sintesis: sinyal kontinu " dapat direkonstruksi" secara analog menggunakan kardinal. Ini bukan satu-satunya teknik, dan tidak memperhitungkan low-pass prefiltering, non-linear (seperti kuantisasi, saturasi) dan faktor varian waktu lainnya.
Pendengaran manusia bukanlah topik yang sederhana. Diterima bahwa manusia mendengar frekuensi dari 20 Hz hingga 20.000 Hz. Tetapi batas-batas yang tepat seperti itu di Hertz bukanlah sifat alami untuk semua manusia. Hilangnya sensitivitas secara bertahap terhadap frekuensi yang lebih tinggi sering terjadi seiring bertambahnya usia. Di sisi lain:
Di bawah kondisi laboratorium yang ideal, manusia dapat mendengar suara serendah 12 Hz dan setinggi 28 kHz, meskipun ambang meningkat tajam pada 15 kHz pada orang dewasa
Pendengaran tidak linear: ada ambang batas audisi dan penderitaan . Itu bukan invarian waktu. Ada efek masking di kedua waktu dan frekuensi.
Jika band 20 Hz hingga 20.000 Hz adalah rentang umum, dan 40.000 Hz secara teoritis sudah cukup, sedikit tambahan diperlukan untuk mengatasi distorsi ekstra. Aturan praktis mengatakan bahwa 10% lebih banyak ok ( bandwidth sinyal ) dan 44.100 Hz hanya melakukannya. Kembali ke akhir 1970-an. Mengapa tidak digunakan 44.000 Hz? Terutama karena standar, yang ditentukan oleh popularitas CD, yang teknologinya selalu didasarkan pada pertukaran. Selain itu, 44.100 adalah produk kuadrat dari empat bilangan prima pertama ( ), karenanya memiliki faktor kecil, menguntungkan untuk perhitungan (seperti FFT).
Jadi dari hingga (dan berlipat ganda), kami memiliki keseimbangan dalam keamanan, kuantisasi, kegunaan, perhitungan dan standar.
Pilihan lain ada: format DAT misalnya dirilis dengan pengambilan sampel 48 kHz, dengan konversi yang awalnya sulit. 96 kHz dibahas sehubungan dengan kuantisasi (atau kedalaman bit) pada laju sampel dan kedalaman bit apa yang harus saya gunakan? Ini adalah subjek yang kontroversial, lihat 24 bit 48kHz ayat 24 bit 96kHz . Anda dapat memeriksa tingkat sampel Audacity misalnya.
Mengapa tepatnya 44,1 kHz telah dijawab - tetapi untuk fokus pada aspek pertanyaan Anda terkait dengan batas persepsi manusia, alasannya cukup sederhana.
Resolusi dalam waktu harus cukup baik untuk dapat menghasilkan semua bentuk gelombang yang mungkin hingga batas yang dapat dilihat. Menurut teorema sampling , resolusi harus sedemikian rupa sehingga frekuensi sampling setidaknya dua kali frekuensi ini. Secara intuitif, pada frekuensi tertinggi, Anda memerlukan setidaknya 2 titik untuk mewakili maksimum dan minimum sinyal Anda - memberikan gelombang persegi Ascii-art ini:
_ _
|_| |_
Untuk mereproduksi sinyal dengan setia, semakin cepat tingkat sampel semakin baik. ~ 40 kHz dipilih, karena itu adalah tingkat sampel rendah yang kebanyakan orang tidak bisa membedakan (ketika direkonstruksi). Ketika pengambilan sampel audio diperkenalkan, memori dan penyimpanan menjadi mahal dan tingkat sampel yang lebih tinggi tidak semurah mungkin.
Pada dua kali lipat batas atas pendengaran manusia, dua sampel per siklus adalah rekonstruksi yang sangat buruk, bahkan jika memenuhi kriteria Nyquist untuk sinyal sampel, bagan sederhana yang menggambarkan gelombang sinus dengan dua sampel per siklus akan menunjukkan seberapa buruk dua sampel per siklus adalah dalam mereproduksi bentuk gelombang. Anda benar-benar dapat mengubah gelombang sinus menjadi gelombang persegi; itu adalah hal yang baik pada 20 kHz tidak ada yang tahu. Aku yakin seekor anjing bisa melakukannya.