Saya pikir perbedaan yang Anda cari lebih seperti empiris vs teoretis (berlawanan dengan yang diawasi vs yang tidak diawasi), tetapi saya bisa salah tentang itu. Dengan kata lain, hal yang ideal adalah memiliki definisi teoretis dari berbagai genre, bukan hanya sekumpulan data buram yang dapat digunakan untuk mengklasifikasikan lagu [tanpa pemahaman nyata].
Namun, untuk klasifikasi genre umum, Anda mungkin paling tidak terjebak dengan pelatihan dari contoh-contoh, bahkan jika hanya untuk membuat definisi genre di tempat pertama. Sehubungan dengan contoh Anda, pertimbangkan seberapa sering orang akan berdebat [di YouTube] tentang apakah trek yang diberikan benar-benar dubstep (mis. Trek apa pun yang lebih dubby dan kurang goyah , meskipun genre dimulai tanpa goyangan nyata). Orang mendefinisikan genre dari waktu ke waktu melalui contoh, jadi masuk akal untuk mengharapkan bahwa algoritma yang mereplikasi perilaku itu juga akan memerlukan beberapa contoh. Cara orang menggambarkan genre hampir seperti vektor fitur Lagi pula - mereka mengajukan daftar pertanyaan tentang lagu (misalnya Apakah itu lebih breaky atau goyah? Apakah memiliki banyak sub bass? Berapa lama? Berapa tempo? Apakah ada vokal? dll.).
Tentu saja, Anda mungkin dapat memilih daftar fitur yang juga memberikan pemahaman intuitif tentang genre. Fitur seperti "Rentang Dinamis" adalah sesuatu yang dapat dideteksi seseorang dengan telinga, tetapi sesuatu seperti "Sisa Nol Domain" tidak akan sangat intuitif - bahkan jika itu berfungsi dengan baik untuk klasifikasi. Makalah berikut memiliki beberapa fitur yang mungkin menarik bagi Anda:
George Tzanetakis, Perry R. Cook: Klasifikasi genre musik dari sinyal audio. Transaksi IEEE pada Pidato dan Audio Pengolahan 10 (5): 293-302 (2002) Link .
Untuk mengukur kekasaran, kekasaran psikoakustik akan menjadi tempat yang baik untuk memulai, tetapi mungkin tidak cukup untuk membedakan antara sadapan dubstep dan sadapan elektro, misalnya. Untuk perbedaan yang lebih halus, satu hal yang perlu diperhatikan adalah pengenalan timbre . Tesis berikut memiliki survei teknik yang layak:
TH Park, “Menuju pengakuan timbre alat musik otomatis,” Ph.D. disertasi, Universitas Princeton, NJ, 2004. tautan .
Ada juga model yang terkait dengan kekasaran perseptual di Timbre, Tuning, Spectrum, dan Scale yang digunakan untuk membangun skala khusus untuk nada warna acak. Idenya adalah bahwa harmonik yang sangat berdekatan menghasilkan frekuensi beat yang dianggap sebagai disonansi. Mengutip dari Apendiks F dan E ,
Ketika adalah spektrum dengan parsial pada frekuensi , disonansi intrinsik [dengan asumsi satuan amplitudo] adalahf 1 , f 2 , . . . , f nFf1,f2,...,fn
DF=1/2 ∑i=1n ∑j=1n d(|fi−fj|min(fi,fj))
di mana
d(x)=e−3.5x−e−5.75x
adalah model Kurva Plomp-Levelt .
Ini digunakan untuk mengukur seberapa menyenangkan chord yang diberikan sehubungan dengan timbre (dengan meminimalkan disonansi). Saya tidak tahu apakah kekasaran varietas psychoacoustic, atau disonansi intrinsik akan sangat bermanfaat untuk keperluan Anda sendiri, tetapi mereka mungkin berguna dalam kombinasi dengan metrik lainnya.
Anda mungkin akan lebih beruntung mengklasifikasikan warna nada secara matematis daripada genre. Sebagai contoh, string memiliki harmonik genap dan ganjil, tetapi klarinet hanya memiliki harmonik ganjil (lih. Gelombang gigi gergaji , Gelombang persegi ). Goyangan dubstep cenderung dilakukan dengan filter yang digerakkan LFO (low pass dan / atau formant filter), jadi sesuatu seperti Spectral Flux (lihat [Tzanetakis], di atas) mungkin menjadi titik awal yang baik sebagai fitur. Namun, saya ragu ada yang mempelajari klasifikasi matematika goyangan;)