Bagaimana Siri mengenali saya dengan mengatakan "Hai Siri"?

8

Saya mencoba untuk memahami bagaimana iPhone saya dapat terus mendengarkan saya mengatakan Hey Siri, Alexa, Hey Cortanaatau Okay Googletanpa cepat menguras baterai saya turun.

Saya membayangkan dua jenis algoritma. Satu yang merekam irisan waktu seperti irisan lebar 10 ms setiap 200 ms dan melakukan deteksi sinkron pada frekuensi tertentu. Namun parameter ini sangat tergantung pada karakteristik suara saya. Selain itu, masih akan mengkonsumsi banyak daya CPU untuk terus mencoba mencocokkan Hey Siridi antah berantah.

Seperti apa algoritma / implementasi berdaya rendah yang efisien (perangkat keras atau perangkat lunak) dapat melakukan tugas seperti itu?

Ini entah bagaimana terkait dengan paten ini, saya pikir: https://www.google.com/patents/US20160253997

Saya membaca beberapa artikel yang berbicara tentang model Markov tersembunyi, tapi saya ragu itu adalah pendekatan yang sangat rendah.

sound speech-recognition voice

— sekarang
sumber

6

"Oke Google" dijelaskan dalam banyak publikasi oleh Google

Kontrol Penguatan Otomatis dan Pelatihan Multi-gaya untuk Penentuan Kata Kunci Footprint Kecil yang Kuat dengan Jaringan Neural Dalam

Jaringan Syaraf Konvolusional untuk Penentuan Kata Kunci Small-Footprint

Ini didasarkan pada DNN yang dilatih khusus untuk frasa unik dan berjalan sangat cepat. Itu tidak mengkonsumsi banyak daya bahkan pada ponsel.

Tempat Alexa diimplementasikan oleh orang yang sama dan tersedia sebagai Snowboy

PEMBARUAN: Apple menjelaskan implementasinya di sini .

— Nikolay Shmyrev
sumber

1

Untuk menguraikan jawaban @ hotpaw2, "Hey Siri" berjalan pada chip Coprocessor M9 berdaya rendah , yang juga melakukan hal-hal seperti memantau jejak, dll untuk aplikasi Kesehatan. Oleh karena itu, pada perangkat yang lebih lama tanpa chip M9, Anda perlu iDevice Anda terhubung agar "Hey Siri" berfungsi.

Saya pikir implementasi perangkat keras berdaya rendah adalah kuncinya (bukan hanya kejeniusan algoritmik agnostik perangkat keras)

Referensi:

— ruoho ruotsi
sumber

0

Hanya beberapa tebakan liar:

Perangkat keras khusus (chip "M" tambahan atau blok logika SOC dengan domain daya terisolasinya sendiri), berjalan pada laju jam pemrosesan audio atau siklus tugas, pada buffer data yang kecil, mengonsumsi daya yang jauh lebih sedikit daripada CPU yang mampu GHz dengan hierarki memori yang luas. CPU utama hanya harus bangun jika ID kemungkinan awal cukup tinggi, sehingga algoritma deteksi awal tidak perlu baik, cukup baik. Juga, pertimbangkan seberapa kecil baterai pada headset Bluetooth in-ear dibandingkan dengan smartphone dengan daya tahan baterai yang sama. Pemrosesan audio yang sederhana tidak cepat menguras baterai ponsel yang relatif besar.

— hotpaw2
sumber