Saya mencoba untuk memahami bagaimana iPhone saya dapat terus mendengarkan saya mengatakan Hey Siri
, Alexa
, Hey Cortana
atau Okay Google
tanpa cepat menguras baterai saya turun.
Saya membayangkan dua jenis algoritma. Satu yang merekam irisan waktu seperti irisan lebar 10 ms setiap 200 ms dan melakukan deteksi sinkron pada frekuensi tertentu. Namun parameter ini sangat tergantung pada karakteristik suara saya. Selain itu, masih akan mengkonsumsi banyak daya CPU untuk terus mencoba mencocokkan Hey Siri
di antah berantah.
Seperti apa algoritma / implementasi berdaya rendah yang efisien (perangkat keras atau perangkat lunak) dapat melakukan tugas seperti itu?
Ini entah bagaimana terkait dengan paten ini, saya pikir: https://www.google.com/patents/US20160253997
Saya membaca beberapa artikel yang berbicara tentang model Markov tersembunyi, tapi saya ragu itu adalah pendekatan yang sangat rendah.