Diberikan beberapa peristiwa dalam sebuah game, berapa lama keterlambatan untuk menghasilkan audio yang pemain akan mengasosiasikan audio dengan benar dengan peristiwa itu (dan tidak merasakan kelambatan)?
Diberikan beberapa peristiwa dalam sebuah game, berapa lama keterlambatan untuk menghasilkan audio yang pemain akan mengasosiasikan audio dengan benar dengan peristiwa itu (dan tidak merasakan kelambatan)?
Jawaban:
Hasil berikut dihitung untuk sinkronisasi bibir yang dianggap sebagai "kesalahan sinkronisasi a / v yang paling mencolok" .
Wikipedia mengatakan
Untuk aplikasi televisi, audio harus menghasilkan video tidak lebih dari 15 milidetik dan audio seharusnya video tidak lebih dari 45 milidetik. Untuk film, sinkronisasi bibir yang dapat diterima dianggap tidak lebih dari 22 milidetik di kedua arah.
Laboratorium Persepsi Media dan Akustik mengatakan
Hasil percobaan menentukan bahwa rata-rata ambang depan audio untuk deteksi sinkronisasi a / v adalah 185,19 ms, dengan standar deviasi 42,32 ms
ATSC mengatakan
Sepintas sepertinya longgar: +90 ms hingga -185 ms sebagai "Window of Acceptability"
dan
- Tidak dapat terdeteksi dari -100 ms hingga +25 ms
- Terdeteksi pada -125 ms & +45 ms
- Menjadi tidak dapat diterima di -185 ms & +90 ms
(- Suara tertunda, + Suara canggih)
Untuk menyimpulkan
Hasilnya tidak jauh dari satu sama lain. Tampaknya penundaan maksimum yang dapat diterima adalah sekitar 150ms, yaitu 9 frame pada 60 frame per detik.
Merasa bahwa, katakanlah, ledakan yang Anda lihat dan dengar adalah peristiwa tunggal akan memiliki toleransi yang dijelaskan dalam jawaban lain - tidak lebih dari ~ 50ms; beberapa orang mungkin lebih sensitif (misalnya musisi), jadi saya sarankan untuk membidik 30ms atau tidak lebih dari 2 frame pada 60fps.
Saya percaya bahwa jarak yang dirasakan harus memengaruhi toleransi tersebut. Orang berharap suara jauh menjadi sedikit tertunda, karena dalam kehidupan nyata suara tertinggal pandangan sekitar 1 ms per setiap kaki jarak. Jadi ledakan pada 'peta' permainan RTS yang diperbesar mungkin memiliki toleransi yang lebih besar untuk lag suara daripada pemain yang menembakkan senjatanya sendiri dalam FPS.
Kasus-kasus khusus, seperti memiliki rasa yang tepat untuk permainan musik / ritme mungkin memerlukan toleransi yang lebih ketat, 15-20 ms atau bahkan lebih rendah - misalnya, jika pemain mendengar kedua "aksi input" seperti bernyanyi ke dalam mikrofon atau memukul-mukul instrumen plastik, dan juga suara yang dihasilkan oleh sistem Anda untuk acara yang sama, maka jeda 50 ms akan menyebabkan suara "asli" dan "dimainkan" bercampur dengan aneh.
Selain itu, ingatlah jeda waktu antara mulai file audio dan "event" di dalam file audio itu - dalam banyak klip audio, "event" tidak akan berada di tepi, Anda mungkin memiliki suara petir menyerang di mana 'mogok' terjadi 200ms setelah awal, yang akan nyata bagi semua orang, dan hampir semua file suara, bahkan drum-hit, akan memiliki beberapa penundaan di sana.
Penglihatan & pendengaran sangat terhubung dalam persepsi manusia, dan jika salah satu dari mereka tergagap relatif terhadap yang lain, maka itu akan dapat dipahami. Tidak apa-apa jika sebagian besar waktu sangat cepat tetapi kadang-kadang ada penundaan 0,2 detik saat sesuatu sedang dimuat - orang akan melihat situasi seperti itu. Inilah sebabnya mengapa audio sering tetap berjalan pada utas terpisah, terisolasi dari aktivitas lain dan hanya mendapatkan pemberitahuan cepat tentang klip apa yang dimuat sebelumnya harus diputar.
Setiap situasi di mana seorang pemain menyebabkan suara (permainan musik, senjata di FPS) akan membutuhkan penundaan yang sangat rendah karena pemain telah mengirim impuls untuk mewujudkannya pada saat itu, sehingga ketika seorang musisi mendengar instrumen mereka tertunda, akan sangat sadar keterlambatan yang sangat kecil. Insinyur suara khawatir tentang penundaan rekaman di bawah 5 mSec yang merusak "alur"
The Journal of American Academy of Audiology menyatakan bahwa orang (bukan hanya musisi), ketika mendengarkan suara mereka sendiri ditunda, menyadari penundaan sesingkat 3mSec, dan penundaan lebih dari 10 mSec tidak dapat diterima 90% dari waktu.
Manusia menggunakan waktu tunda di antara telinga mereka untuk informasi arah, dan karenanya harus dapat memproses dan mengekstrak informasi dari keterlambatan di bawah 1mSec
The 185.19 ms dikutip di atas tidak relevan karena mengacu pada kesalahan suara terkemuka, dan bagaimanapun, dengan apa yang orang dapat diterima ketika secara pasif menonton film, tidak aktif terlibat dalam permainan.
Jawaban yang diterima di sini terutama membahas persepsi sinkronisasi audio dalam menonton video secara pasif. Dalam kasus ini, penonton tidak dapat dengan mudah menentukan kapan tepatnya audio diputar kecuali dengan memperhatikan tanda-tanda dalam video. Ini berarti mereka memiliki antisipasi suara yang terbatas.
Ada dua kasus penting dalam game di mana asumsi dengan antisipasi rendah ini tidak berlaku:
Ketika pemain sendiri menyebabkan suara (seperti yang ditunjukkan SamB), maka sejak saat mereka membentuk niat untuk menekan tombol, mereka tahu persis kapan mereka berharap untuk mendengar suara.
Ketika suara seharusnya mendarat pada ketukan periodik , seperti dalam permainan musik atau apapun dengan timer / counter yang berdetak, ritme ini memungkinkan pemain untuk mengantisipasi suara berikutnya dan memperhatikan jika waktu habis.
Dalam pembicaraan dari GDC 2013 ini, Mathieu Pavageau berpendapat bahwa para pemain dapat merasakan perbedaan dalam ketepatan sinkronisasi di atas sekitar 5 ms , apalagi memaafkan daripada contoh yang disarankan oleh sinkronisasi bibir. Lihatlah bagian "Contoh Persepsi Waktu" dan "Contoh Permainan Ubisoft" untuk mendengarnya sendiri. Anda dapat mendengar menu Origins Rayman tidak terdengar "lamban" per se ketika disinkronkan dalam 16 ms (bingkai video), tetapi ketika disinkronkan dalam 5 ms terdengar lebih baik & lebih ketat.
Pavageau mengadvokasi menggunakan panggilan balik audio tingkat rendah untuk mendapatkan ketepatan sub-bingkai seperti ini jika Anda ingin gameplay ritme yang terasa kencang dari varietas ini.
Untuk permainan yang mengharuskan seseorang bereaksi terhadap isyarat audio, setiap milidetik ketika suara tertunda akan menyebabkan respons orang tersebut juga tertunda. Seseorang yang hanya menonton film atau cut-scene mungkin tidak terlalu memperhatikan jika audio dan video tidak benar-benar sinkron, tetapi seringkali penting dan kadang-kadang kritis bahwa audio sinkron dengan apa yang diharapkan pemain lakukan .
Secara teori, segala sesuatu di atas 50 ms dapat terlihat ketika dikaitkan dengan hubungannya dengan gambar, pada 25 ms Anda dapat mulai mendengar suara dan penundaan sebagai dua suara terpisah, jadi saya akan mengatakan saya akan sangat menyarankan Anda tetap di bawah 50 ms dan jika Anda bahkan dapat tetap pada sesuatu dari 5 ms hingga 15 ms itu akan sangat bagus.
Saya harap ini akan membantu Anda!