Teknik pemrosesan sinyal, Mel frekuensi Cepstrum , sering digunakan untuk mengekstraksi informasi dari karya musik untuk digunakan dalam tugas pembelajaran mesin. Metode ini memberikan spektrum daya jangka pendek, dan koefisien digunakan sebagai input.
Dalam mendesain sistem pengambilan musik, koefisien seperti itu dianggap sebagai karakteristik dari sebuah karya (jelas tidak harus unik, tetapi membedakan). Adakah karakteristik yang lebih cocok untuk pembelajaran dengan jaringan? Akankah karakteristik yang bervariasi waktu seperti perkembangan bass dari lagu yang digunakan dalam sesuatu seperti jaringan Elman bekerja lebih efektif?
Karakteristik apa yang akan membentuk set yang cukup luas di mana klasifikasi dapat terjadi?