Bagaimana membuktikan bahwa asumsi berlipat ganda itu benar?


9

Dalam pembelajaran mesin, sering diasumsikan bahwa set data terletak pada manifold dimensi rendah yang halus (asumsi berlipat ganda), tetapi adakah cara untuk membuktikan bahwa dengan asumsi kondisi tertentu terpenuhi, maka set data memang (kurang-lebih) dihasilkan dari manifold halus dimensi rendah?

Misalnya, diberi urutan data mana (katakanlah urutan gambar wajah dengan sudut yang berbeda) dan urutan label yang sesuai mana (ucapkan sudut urutan wajah). Misalkan ketika dan sangat dekat, label mereka dan juga sangat dekat, kita dapat membayangkan bahwa ada kemungkinan bahwaX iR d { y 1 ... y n } y 1y 2 ... y n X i X i + 1 y i y i + 1 { X 1 ... X n }{X1Xn}XiRd{y1yn}y1y2ynXiXi+1yiyi+1{X1Xn}berbaring di bermacam-macam dimensi rendah. Apakah ini benar? Jika demikian, bagaimana kita dapat membuktikannya? Atau kondisi apa yang perlu dipenuhi oleh urutan tersebut sehingga asumsi berlipat ganda dapat dibuktikan benar?

Jawaban:


10

Dengan cepat menjadi jelas, dengan melihat banyak akun dari "asumsi berlipat ganda," bahwa banyak penulis terutama ceroboh tentang artinya. Yang lebih hati-hati mendefinisikannya dengan peringatan halus tetapi sangat penting : bahwa data terletak pada atau dekat dengan manifold dimensi rendah.

Bahkan mereka yang tidak memasukkan klausul "atau dekat" dengan jelas mengadopsi asumsi berjenis sebagai fiksi perkiraan, nyaman untuk melakukan analisis matematika, karena aplikasi mereka harus merenungkan penyimpangan antara data dan perkiraan berjenis. Memang, banyak penulis kemudian memperkenalkan mekanisme eksplisit untuk penyimpangan, seperti merenungkan regresi terhadap mana dibatasi untuk berbohong pada manifold tetapi dapat mencakup penyimpangan acak. Ini sama dengan anggapan bahwa tupel terletak dekatx x M kR d y ( x i , y i ) kyxxMkRd y(xi,yi)untuk, tetapi tidak harus pada, manifold dimensi terbenam bentukk

(x,f(x))Mk×RRd×RRd+1

untuk beberapa fungsi (regresi) yang lancar . Karena kita dapat melihat semua titik yang terganggu , yang hanya dekat dengan grafik (a dimensional manifold), sebagai bohong di dalam berdimensi berjenis , ini membantu menjelaskan mengapa kecerobohan seperti tentang membedakan "pada" dari "dekat dengan" mungkin tidak penting dalam teori. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf:RdR(x,y)=(x,f(x)+ε)fkk+1Mk×R

Perbedaan antara "aktif" dan "dekat" sangat penting untuk aplikasi. "Close to" memungkinkan data dapat menyimpang dari manifold. Dengan demikian, jika Anda memilih untuk memperkirakan manifold itu, maka jumlah tipikal penyimpangan antara data dan manifold dapat dikuantifikasi. Satu manifold yang dipasang akan lebih baik daripada yang lain ketika jumlah tipikal simpangannya kurang, ceteris paribus.

Angka

Gambar ini menunjukkan dua versi dari asumsi manifold untuk data (titik biru besar): manifold hitam relatif sederhana (hanya membutuhkan empat parameter untuk menggambarkan) tetapi hanya datang "dekat dengan" data, sedangkan manifold bertitik merah cocok dengan data sempurna tetapi rumit (17 parameter diperlukan).

Seperti dalam semua masalah seperti itu, ada tradeoff antara kompleksitas menggambarkan manifold dan goodness of fit (masalah overfitting). Itu selalu menjadi kasus manifold satu dimensi dapat ditemukan agar sesuai dengan jumlah data berhingga apa pun di sempurna (seperti halnya manifold titik-titik merah pada gambar, jalankan kurva yang mulus di semua titik , dalam urutan apa pun: hampir pasti ia tidak akan memotong sendiri, tetapi jika ya, ganggu kurva di lingkungan persimpangan tersebut untuk menghilangkannya). Pada ekstrem yang lain, jika hanya kelas manifold terbatas diizinkan (seperti hyperplanes Euclidean lurus saja), maka kecocokan yang baik mungkin tidak mungkin, terlepas dari dimensi, dan penyimpangan khas antara data dan kecocokan mungkin besar.Rd

Ini mengarah pada cara praktis dan langsung untuk menilai asumsi berlipat ganda: jika model / prediktor / pengklasifikasi yang dikembangkan dari asumsi berlipat ganda dapat diterima dengan baik, maka asumsi tersebut dibenarkan. Dengan demikian, kondisi yang sesuai yang dicari dalam pertanyaan adalah bahwa beberapa ukuran yang relevan dari goodness of fit dapat diterima kecil. (Apa ukurannya? Itu tergantung pada masalahnya dan sama dengan memilih fungsi kerugian.)

Ada kemungkinan manifold dari dimensi yang berbeda (dengan berbagai jenis kendala pada kelengkungannya) dapat sesuai dengan data - dan memprediksi data yang tersedia - sama baiknya. Tidak ada yang bisa "dibuktikan" tentang manifold "yang mendasarinya" secara umum, terutama ketika bekerja dengan kumpulan data manusia yang besar dan berantakan. Yang biasanya kita harapkan adalah bahwa manifold yang terpasang adalah model yang bagus.

Jika Anda tidak menghasilkan model / prediktor / pengklasifikasi yang baik, maka asumsi manifold tidak valid, Anda mengasumsikan manifold dengan dimensi terlalu kecil, atau Anda belum terlihat cukup keras atau cukup baik.


1
+1 Sangat bagus. Izinkan saya menambahkan (tanpa menyiratkan Anda berbagi pandangan saya) bahwa ini sekali lagi menunjukkan mengapa cara berpikir yang berprinsip tetapi skeptis dan sering bersifat sementara yang telah dikembangkan dalam statistik selama bertahun-tahun sangat penting bagi yang sering kabur, cepat, berkilau-baru- dunia mainan pembelajaran mesin dan ilmu data.
Momo

5

Setiap himpunan poin yang terbatas dapat muat pada manifold mana saja (referensi teorema diperlukan, saya tidak dapat mengingat apa teorema itu, saya hanya mengingat fakta ini dari uni).

Jika seseorang tidak ingin semua poin diidentifikasi, maka dimensi serendah mungkin adalah 1.

Ambil sebagai contoh sederhana, diberi N 2d poin, ada beberapa polinomial orde N-1 di mana semua N poin terletak pada polinomial itu. Karena itu kami memiliki bermacam-macam 1d untuk setiap dataset 2d. Saya pikir logika untuk dimensi arbitrer serupa.

Jadi, bukan itu masalahnya, asumsi sebenarnya ada pada struktur / kesederhanaan manifold, terutama ketika memperlakukan manifold Riemannian yang terhubung sebagai ruang metrik. Saya sudah membaca makalah tentang bermacam-macam fokus ini, dan menemukan jika Anda membaca dengan cermat beberapa asumsi yang sangat besar muncul!

Asumsi yang dibuat adalah ketika definisi yang diinduksi "kedekatan" diasumsikan "menjaga informasi dalam set data kami", tetapi karena ini tidak secara resmi didefinisikan dalam istilah Teori Informasi, definisi yang dihasilkan cukup ad hoc dan asumsi yang cukup besar memang. Dalam partikelnya, masalahnya adalah "kedekatan" dipertahankan, yaitu dua titik dekat, tetap dekat, tetapi "jauh" itu tidak, dan dua titik "jauh" tidak tinggal jauh.

Sebagai kesimpulan, saya akan sangat waspada terhadap tipu daya seperti itu dalam pembelajaran mesin kecuali jika diketahui bahwa dataset memang secara alami euclidean, misalnya pengenalan pola visual. Saya tidak akan menganggap pendekatan ini cocok untuk masalah yang lebih umum.


Terima kasih! Jawaban Anda membantu saya untuk memahami masalah dengan lebih baik. Bisakah Anda merekomendasikan beberapa makalah mengenai asumsi berlipat ganda yang Anda sebutkan di sini?
thinkbear

Maaf tidak ingat, Google harus dapat membantu :)
samthebest
Dengan menggunakan situs kami, Anda mengakui telah membaca dan memahami Kebijakan Cookie dan Kebijakan Privasi kami.
Licensed under cc by-sa 3.0 with attribution required.