Jawaban sederhananya adalah bahwa sistem respons frekuensi datar yang dibangun dengan op-amp untuk mengoreksi respons driver tentu akan memiliki respons fase yang sangat tidak rata dalam pass band. Ketidaklembutan ini berarti frekuensi komponen suara transien menjadi tertunda secara tidak merata, menghasilkan distorsi sementara halus yang mencegah pengenalan komponen suara yang tepat, yang berarti lebih sedikit suara yang berbeda dapat dilihat.
Akibatnya, kedengarannya mengerikan. Seolah-olah semua suara berasal dari bola fuzzy yang terpusat tepat di antara telinga seseorang.
Masalah HRTF dalam jawaban di atas hanya sebagian saja - yang lain adalah bahwa rangkaian domain analog yang dapat direalisasi hanya dapat memiliki respons waktu sebab akibat, dan untuk mengoreksi pengemudi dengan benar, diperlukan filter asma.
Ini dapat didekati secara digital dengan filter Finite Impulse Response yang cocok dengan driver, tetapi ini memerlukan sedikit penundaan waktu yang cukup untuk membuat film sangat tidak sinkron.
Dan masih terdengar seperti itu berasal dari dalam kepala Anda, kecuali HRTF juga ditambahkan kembali.
Jadi, tidak sesederhana itu.
Untuk membuat sistem "transparan", Anda tidak hanya membutuhkan pita lintasan rata pada rentang pendengaran manusia, Anda juga memerlukan fase linier - plot keterlambatan grup datar - dan ada beberapa bukti yang menunjukkan bahwa fase linear ini memerlukan untuk melanjutkan hingga frekuensi yang sangat tinggi sehingga isyarat arah tidak hilang.
Ini mudah diverifikasi dengan eksperimen: Buka .wav dari beberapa musik yang Anda kenal dalam editor file suara seperti Audacity atau snd, dan hapus satu sampel tunggal 44100 Hz dari hanya satu saluran, dan luruskan kembali saluran lain sehingga yang pertama sampel sekarang terjadi dengan yang kedua dari saluran yang diedit, dan memutarnya kembali.
Anda akan mendengar perbedaan yang sangat mencolok, meskipun perbedaannya adalah waktu tunda hanya 1/44100 detik.
Pertimbangkan ini: suara berjalan sekitar 340 mm / ms, jadi pada 20 kHz ini adalah kesalahan waktu plus minus satu keterlambatan sampel, atau 50 mikrodetik. Itu 17 mm perjalanan suara, namun Anda dapat mendengar perbedaannya dengan 22,67 mikrodetik yang hilang, yang hanya 7,7 mm perjalanan suara.
Cut-off mutlak pendengaran manusia umumnya dianggap sekitar 20 kHz, jadi apa yang terjadi?
Jawabannya adalah bahwa tes pendengaran dilakukan dengan nada uji yang sebagian besar terdiri dari hanya satu frekuensi pada suatu waktu, untuk waktu yang cukup lama di setiap bagian dari tes. Tetapi telinga bagian dalam kita terdiri dari struktur fisik yang melakukan FFT pada jenis suara sambil mengekspos neuron untuk itu, sehingga neuron pada posisi yang berbeda berkorelasi dengan frekuensi yang berbeda.
Neuron individu hanya dapat menembak ulang dengan sangat cepat, sehingga dalam beberapa kasus beberapa digunakan satu demi satu untuk mengikuti ... tetapi ini hanya bekerja hingga sekitar 4 kHz atau lebih ... Yang mana persis di mana kami persepsi nada berakhir. Namun tidak ada di otak untuk menghentikan neuron yang menembak kapan saja ia merasa sangat condong, jadi apa frekuensi tertinggi yang penting?
Intinya adalah bahwa perbedaan fasa kecil antara telinga terlihat, tetapi alih-alih mengubah cara kita mengidentifikasi suara (dengan struktur spektografiknya) itu memengaruhi cara kita memahami arahnya. (yang HRTF juga berubah!) Meskipun sepertinya harus "digulirkan" dari jangkauan pendengaran kami.
Jawabannya adalah titik -3dB atau bahkan -10dB masih terlalu rendah - Anda harus pergi ke titik -80 dB untuk mendapatkan semuanya. Dan jika Anda ingin menangani suara keras dan juga tenang, maka Anda harus lebih baik hingga lebih baik dari -100 dB. Yang tidak mungkin pernah dilihat oleh tes mendengarkan nada tunggal, terutama karena frekuensi seperti itu hanya "menghitung" ketika mereka tiba secara harmonis sebagai bagian dari suara transien yang tajam - energi mereka dalam kasus ini ditambah bersama-sama, mencapai konsentrasi yang cukup untuk memicu respons saraf, meskipun sebagai komponen frekuensi individu dalam isolasi mereka mungkin terlalu kecil untuk dihitung.
Masalah lain adalah bahwa kita terus dibombardir oleh banyak sumber kebisingan ultrasonik, mungkin banyak dari itu dari neuron yang rusak di telinga bagian dalam kita sendiri, rusak oleh tingkat suara yang berlebihan pada beberapa titik sebelumnya dalam hidup kita. Akan sulit untuk membedakan nada keluaran terisolasi dari tes mendengarkan atas suara "lokal" yang begitu keras!
Oleh karena itu ini memerlukan desain sistem "transparan" untuk menggunakan frekuensi low-pass yang jauh lebih tinggi sehingga ada ruang bagi low-pass manusia untuk memudar (dengan modulasi fase itu sendiri yang otaknya sudah "dikalibrasi" untuk) sebelum sistem modulasi fase mulai mengubah bentuk transien, dan menggeser mereka dalam waktu sedemikian rupa sehingga otak tidak dapat mengenali suara yang mereka miliki.
Dengan headphone, jauh lebih mudah untuk membuat mereka memiliki driver broadband tunggal dengan bandwidth yang cukup, dan mengandalkan respons frekuensi alami yang sangat tinggi dari driver 'tidak dikoreksi' untuk mencegah distorsi temporal. Ini bekerja jauh lebih baik dengan earphone, karena massa kecil pengemudi cocok untuk kondisi ini.
Alasan untuk memerlukan linearitas fase berakar dalam pada dualitas waktu-domain frekuensi-domain, karena alasan Anda tidak dapat membuat filter penundaan nol yang dapat "memperbaiki dengan sempurna" sistem fisik nyata apa pun.
Alasannya adalah "linearitas fase" yang penting dan bukan "flatness fase" adalah karena keseluruhan kemiringan kurva fase tidak penting - secara dualisme, setiap kemiringan fasa sama dengan penundaan waktu yang konstan.
Telinga luar setiap orang memiliki bentuk yang berbeda, dan dengan demikian fungsi transfer yang berbeda terjadi pada frekuensi yang sedikit berbeda. Otak Anda terbiasa dengan apa yang dimilikinya, dengan resonansi berbeda. Jika Anda menggunakan yang salah, itu sebenarnya hanya akan terdengar lebih buruk, karena koreksi yang digunakan otak Anda tidak akan lagi sesuai dengan yang ada di fungsi transfer earphone, dan Anda akan memiliki sesuatu yang lebih buruk daripada kurangnya pembatalan resonansi - Anda akan memiliki dua kali lebih banyak kutub tidak seimbang / nol mengacaukan penundaan fase Anda, dan benar-benar mengacaukan keterlambatan grup Anda dan komponen tiba hubungan waktu.
Ini akan terdengar sangat tidak jelas, dan Anda tidak akan dapat melihat pencitraan spasial yang dikodekan oleh rekaman.
Jika Anda melakukan tes pendengaran A / B yang buta, semua orang akan memilih headphone yang tidak dikoreksi yang setidaknya tidak terlalu membuat kelompok tertunda, sehingga otak mereka dapat menyesuaikan diri dengan mereka.
Dan inilah mengapa headphone aktif tidak mencoba menyamakan kedudukan. Terlalu sulit untuk menjadi benar.
Itu juga mengapa koreksi ruang digital adalah ceruk itu: Karena menggunakannya dengan benar membutuhkan pengukuran sering, yang sulit / tidak mungkin untuk dilakukan secara langsung, dan yang konsumen umumnya tidak ingin mengetahuinya.
Sebagian besar karena resonansi akustik di ruangan dalam koreksi, yang sebagian besar merupakan bagian dari respon bass, terus bergeser sedikit ketika tekanan udara, suhu dan kelembaban semua berubah, sehingga mengubah kecepatan suara sedikit, sehingga mengubah resonansi menjauh dari apa yang mereka adalah saat pengukuran dilakukan.