Pengenalan pola untuk data sementara

9

Saya mencoba mendeteksi dan mengklasifikasikan suara non-suara. Saat ini, saya menggunakan serangkaian spektrum daya bergerak yang tumpang tindih dari suara pelatihan sebagai fitur yang saya cari.

Ketika saya melakukan analisis, saya hanya menghitung jumlah spektrum yang tumpang tindih yang sama sehingga jumlah fitur yang sama. Saat ini kinerjanya tidak terlalu baik, itu hanya dapat mendeteksi keheningan vs non-diam.

Teknik apa yang ada untuk jenis deteksi sinyal ini? Salah satu kekhawatiran saya adalah bahwa untuk suara dengan panjang yang berbeda dalam domain waktu akan menghasilkan panjang yang berbeda dari vektor fitur yang jadi saya tidak dapat menggunakan classifier yang sama, saya terjebak dalam hal ini.

audio

— cufmo
sumber

3

Apakah Anda mencoba mendeteksi wicara vs non-wicara, atau adakah kelas-kelas bunyi non-wicara yang Anda coba bedakan? Saya tidak jelas dari pertanyaan Anda.

Saya pikir pendekatan pertama yang layak adalah dengan memblokir sinyal Anda menjadi frame dan menghitung Mel-Frequency Cepstral Coefficients (MFCCs), serta delta-MFCCs (perbedaan antara MFCC frame yang berdekatan) dan MFCC delta-delta (perbedaan antara MFCC dalam bingkai yang terpisah dua frame). Ini bukan satu-satunya cara untuk melakukannya, tetapi tanpa pengetahuan yang lebih spesifik tentang domain masalah, ini mungkin tempat yang baik untuk memulai.

Hanya googling akan memberi Anda beberapa referensi bagus tentang cara menghitung MFCC jika Anda belum terbiasa dengannya. Pada dasarnya Anda mengambil DFT, mengambil besaran, menghitung energi di dalam jendela segitiga sesuai dengan pendengaran manusia, mengambil DCT dari koefisien ini, pada dasarnya sebagai langkah kompresi, dan kemudian membuang koefisien urutan tinggi, biasanya hanya mengambil sekitar dua belas koefisien pertama, biasanya . Saya memiliki penjelasan tentang arti langkah DCT dalam posting ini: Bagaimana cara menafsirkan langkah DCT dalam proses ekstraksi MFCC?

Kemudian, Anda dapat, menggunakan koefisien ini sebagai fitur untuk SVM.

— schnarf
sumber

2

Saya pikir Anda secara umum melihat masalah deteksi ucapan , yang telah ada selamanya, dan ada berjuta metode untuk melakukan ini dikembangkan sekarang. Sepertinya makalah ini , misalnya, juga menggunakan teknik spektral, jadi Anda mungkin ingin memulai dari sana. Pencarian Google yang baik dan lama akan menghasilkan banyak hasil dengan tautan ke makalah dan artikel.

Secara umum ada dua pendekatan yang agak berbeda untuk deteksi wicara. Satu memungkinkan untuk asumsi rasio suara-ke-suara yang baik (suara lebih keras dari kebisingan sekitar, musik, konten yang tidak relevan lainnya), dan yang lainnya tidak membuat asumsi seperti itu dan mencoba untuk mengidentifikasi kehadiran bicara dalam sinyal yang sangat bising (pidato yang terkubur dalam kebisingan). Bergantung pada yang Anda coba lakukan, Anda akan akhirnya melihat kertas yang sangat berbeda. Mungkin jika Anda sedikit memperjelas pertanyaan Anda dan menguraikan jenis-jenis sinyal ucapan yang Anda kerjakan, situs ini bisa lebih membantu.

— Phonon
sumber