Mendeteksi bagian dari lagu


9

Semoga ini tidak terlalu subyektif ...

Saya mencari beberapa arah dalam upaya untuk mendeteksi "bagian" yang berbeda dari sebuah lagu, terlepas dari gaya musiknya. Saya tidak tahu ke mana harus mencari, tetapi percaya pada kekuatan situs StackOverflow lainnya, saya pikir seseorang di sini dapat membantu menunjukkan arah.

Dalam sebagian besar istilah dasar, seseorang dapat mendeteksi bagian-bagian yang berbeda dari sebuah lagu hanya dengan mengelompokkan pola-pola berulang yang berurutan dan menyebutnya sebagai "bagian". Itu mungkin tidak terlalu sulit - komputer cukup bagus dalam mendeteksi pengulangan dalam sinyal, bahkan ketika ada beberapa variasi kecil.

Tetapi sulit ketika "bagian" tumpang tindih, seperti yang mereka lakukan di sebagian besar musik.

Sulit mengatakan jenis musik apa yang paling cocok untuk sistem semacam ini. Saya kira kebanyakan musik simfoni gaya klasik akan lebih mudah untuk diproses.

Adakah ide tempat untuk mencari penelitian di bidang ini?


Saya pikir ada aplikasi iPhone untuk mengenali lagu dari rekaman potongannya. Dan saya pikir ada artikel yang menggambarkan aplikasi ini. Maaf saya tidak memiliki tautan, tetapi saya akan mulai dengan itu.
mpiktas

1
@mpiktas: Anda mungkin merujuk ke aplikasi seperti SoundHound atau Shazam . Ada whitepaper tentang cara kerja Shazam, meskipun tidak terlalu detail. Meskipun saya tidak yakin itulah yang dibutuhkan OP, itu mungkin merupakan titik awal yang baik.
nico

Untuk posting blog pendek yang bagus tentang Shazam (berdasarkan, saya percaya, di kertas putih), Anda juga dapat mencoba laplacian.wordpress.com/2009/01/10/how-shazam-works
raegtin

Jawaban:


6

Saya bukan ahli dalam pemrosesan sinyal, tetapi saya tahu sedikit tentang teori musik. Saya akan mengatakan bahwa, sebaliknya, musik klasik mungkin akan menjadi musik yang paling sulit untuk dianalisis dengan metode matematika sederhana. Anda sebaiknya memulai dengan sesuatu yang lebih sederhana dan lebih berulang, seperti musik pop atau techno. Pop sering memiliki format sajak-sajak-sajak ... dll yang mungkin kondusif untuk versi sederhana dari sasaran Anda.

Coba gunakan Transformasi Fourier pada data Anda untuk memecahnya menjadi frekuensi konstituen yang paling menonjol, mungkin secara hierarkis di antara subbagian yang berbeda. Khususnya Anda dapat mencari hal-hal yang berbeda berdasarkan pada bagaimana Anda ingin mengelompokkan "bagian" dari data Anda.

  1. Osilasi paling lambat dalam musik pop Anda mungkin akan menjadi pergeseran antara ayat dan paduan suara dan kembali ke ayat (mungkin 0,75 osilasi per menit?).

  2. Selanjutnya Anda mungkin menemukan osilasi frekuensi yang lebih tinggi di antara progresi akor Anda, yaitu, di antara setiap ukuran penuh lagu Anda (mungkin sekitar 6 osilasi per menit?).

  3. Frekuensi tertinggi berikutnya yang saya pikir akan menjadi bar dalam ukuran (mungkin sekitar 24 osilasi per menit?) Di mana pola memetik dan sinkopasi lirik sering diulang dalam musik pop / rakyat.

  4. Masuk ke detail berdarah, selanjutnya Anda akan menemukan irama dan irama yang berulang dalam setiap bar musik Anda. Memilih dan mengisolasi salah satu dari ini (mungkin 148 osilasi / ketukan per menit?) Kemungkinan akan menghasilkan tendangan drum bass, atau hit cowbell, atau sesuatu di sepanjang urutan yang sama.

  5. Di suatu tempat di antara ketukan dan nada Anda mungkin menemukan elemen gaya cepat musik Anda seperti memetik kecepatan / menyapu gitar listrik, atau ritme rap rap cepat. (Saya tidak tahu seberapa cepat ini, tapi saya kira di suatu tempat di urutan 1000 denyut per menit atau lebih).

  6. Terakhir, cepat, dan mungkin yang paling rumit, adalah elemen nada dan warna nada. Saya tahu bahwa not "tengah A" distandarkan menjadi 440 Hz, yaitu, 440 osilasi per DETIK. Saya yakin ada teknik untuk membedakan berdasarkan kualitas tonal dan warna apa jenis instrumen yang digunakan; bahkan ada algoritma yang cukup bagus untuk mendeteksi vokal manusia. Namun seperti yang saya katakan, saya bukan ahli pemrosesan sinyal.


6

Musik biasanya dideskripsikan menggunakan deskriptor MPEG7 dengan beberapa hal tambahan seperti MFCC yang dihitung pada potongan karya yang dibuat oleh beberapa pendekatan jendela bergerak (yaitu Anda memiliki ukuran jendela dan lompatan, mulai dengan jendela yang diletakkan di awal suara, hitung deskriptor pada jendela, lalu pindahkan dengan hop dan ulangi sampai akhir tercapai).
Dengan cara ini sepotong diubah menjadi sebuah meja; dalam kasus Anda ini dapat digunakan untuk menerapkan beberapa pengelompokan pada potongan dan mendeteksi "bagian-bagian" tersebut.


Sekarang ini lebih seperti itu! Jawaban teknis yang bagus.
Kerinduan mesin

5

Ada banyak metode yang berbeda dan sejumlah literatur tentang topik ini dari berbagai perspektif. Berikut adalah beberapa highlight yang mungkin merupakan titik awal yang baik untuk pencarian Anda.

Jika latar belakang Anda lebih musikal daripada matematika atau komputasi, Anda mungkin tertarik pada karya-karya David Cope, sebagian besar karya-karyanya yang diterbitkan berfokus pada analisis karya musik klasik, tetapi ia memiliki usaha pribadi yang disebut rekombinan yang tampaknya lebih umum. Banyak dari karyanya menggunakan musik sebagai model tipe bahasa, tetapi saya percaya setidaknya beberapa karyanya yang terbaru telah bergeser lebih ke arah seluruh genom musik seperti pendekatan. Dia memiliki banyak perangkat lunak yang tersedia secara online , tetapi umumnya ditulis dalam Lisp dan beberapa hanya dapat berjalan di berbagai versi OS Apple meskipun beberapa harus bekerja di Linux atau di mana saja Anda dapat menjalankan mesin yang umum .

Analisis sinyal dan musik secara umum telah menjadi masalah yang sangat populer dalam pembelajaran mesin. Ada cakupan awal yang baik dalam Christopher Uskup sms Neural Networks untuk Pengenalan Pola dan Pola Pengakuan dan Machine Learning . Berikut ini adalah contoh makalah MSc yang memiliki bagian klasifikasi musik, tetapi memiliki cakupan yang baik pada ekstraksi fitur, yang penulis kutip setidaknya satu dari teks Uskup dan beberapa sumber lainnya. Dia juga merekomendasikan beberapa sumber untuk makalah terkini tentang topik tersebut.

Buku yang lebih matematis atau statistik (setidaknya berdasarkan kepengarangannya jika bukan karena isinya):

Karena saya menyebutkan Bishop dan perspektif komputasi pembelajaran mesin, saya hanya akan menceritakan setengah dari cerita jika saya tidak menyarankan Anda untuk melihat Elemen Pembelajaran Statistik yang lebih baru (yang tersedia untuk unduhan legal gratis) oleh Hastie , Tibshirani, dan Friedman. Saya tidak ingat ada contoh khusus pemrosesan audio dalam teks ini, tetapi sejumlah metode yang dibahas dapat disesuaikan dengan masalah ini.

Satu lagi teks yang layak dipertimbangkan adalah Statistik Jan Beran dalam bidang Musikologi . Ini menyediakan sejumlah alat statistik khusus untuk analisis karya musik dan juga memiliki banyak referensi.

Sekali lagi ada banyak sumber lain di luar sana. Banyak dari ini tergantung pada apa latar belakang Anda dan pendekatan mana yang paling nyaman bagi Anda. Semoga setidaknya beberapa dari ini memandu Anda sedikit dalam mencari jawaban. Jika Anda memberi tahu kami lebih banyak tentang latar belakang Anda, detail tambahan tentang masalah ini, atau ajukan pertanyaan sebagai tanggapan atas posting ini, saya yakin saya atau banyak orang lain di sini akan dengan senang hati mengarahkan Anda ke informasi yang lebih spesifik. Semoga berhasil!


4

Bukan jawaban yang bagus tetapi dua tempat untuk mencari penelitian adalah:

International Society for Music Information Retrieval memiliki banyak makalah yang diterbitkan tentang topik ini, menakjubkan betapa banyak info yang ada di www.ismir.net

& Echo Nest (Startup dengan API untuk melakukan hal serupa) echonest.com

UPDATE: mereka juga merilis beberapa kode sidik jari open source. http://echoprint.me/


0

Saya tertarik pada masalah yang sama. Ini solusinya. Bukan proposal ilmiah yang begitu tua yang disebut scape plot . Lihat artikel ini untuk detailnya (terlihat bagus).

Selain itu, saya akan merekomendasikan Anda untuk juga mengunjungi situs web penulis karena ada banyak aplikasi statistik serupa dalam musik. Saat mencari sumber lain yang serupa, saya sarankan untuk menggunakan Pengambilan Informasi Musik yang mencakup area yang serupa.

Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.