Dengan cepat menjadi jelas, dengan melihat banyak akun dari "asumsi berlipat ganda," bahwa banyak penulis terutama ceroboh tentang artinya. Yang lebih hati-hati mendefinisikannya dengan peringatan halus tetapi sangat penting : bahwa data terletak pada atau dekat dengan manifold dimensi rendah.
Bahkan mereka yang tidak memasukkan klausul "atau dekat" dengan jelas mengadopsi asumsi berjenis sebagai fiksi perkiraan, nyaman untuk melakukan analisis matematika, karena aplikasi mereka harus merenungkan penyimpangan antara data dan perkiraan berjenis. Memang, banyak penulis kemudian memperkenalkan mekanisme eksplisit untuk penyimpangan, seperti merenungkan regresi terhadap mana dibatasi untuk berbohong pada manifold tetapi dapat mencakup penyimpangan acak. Ini sama dengan anggapan bahwa tupel terletak dekatx x M k ⊂ R d y ( x i , y i ) kyxxMk⊂Rd y(xi,yi)untuk, tetapi tidak harus pada, manifold dimensi terbenam bentukk
(x,f(x))∈Mk×R⊂Rd×R≈Rd+1
untuk beberapa fungsi (regresi) yang lancar . Karena kita dapat melihat semua titik yang terganggu , yang hanya dekat dengan grafik (a dimensional manifold), sebagai bohong di dalam berdimensi berjenis , ini membantu menjelaskan mengapa kecerobohan seperti tentang membedakan "pada" dari "dekat dengan" mungkin tidak penting dalam teori. ( x , y ) = ( x , f ( x ) + ε ) f k k + 1 M k × Rf:Rd→R(x,y)=(x,f(x)+ε)fkk+1Mk×R
Perbedaan antara "aktif" dan "dekat" sangat penting untuk aplikasi. "Close to" memungkinkan data dapat menyimpang dari manifold. Dengan demikian, jika Anda memilih untuk memperkirakan manifold itu, maka jumlah tipikal penyimpangan antara data dan manifold dapat dikuantifikasi. Satu manifold yang dipasang akan lebih baik daripada yang lain ketika jumlah tipikal simpangannya kurang, ceteris paribus.
Gambar ini menunjukkan dua versi dari asumsi manifold untuk data (titik biru besar): manifold hitam relatif sederhana (hanya membutuhkan empat parameter untuk menggambarkan) tetapi hanya datang "dekat dengan" data, sedangkan manifold bertitik merah cocok dengan data sempurna tetapi rumit (17 parameter diperlukan).
Seperti dalam semua masalah seperti itu, ada tradeoff antara kompleksitas menggambarkan manifold dan goodness of fit (masalah overfitting). Itu selalu menjadi kasus manifold satu dimensi dapat ditemukan agar sesuai dengan jumlah data berhingga apa pun di sempurna (seperti halnya manifold titik-titik merah pada gambar, jalankan kurva yang mulus di semua titik , dalam urutan apa pun: hampir pasti ia tidak akan memotong sendiri, tetapi jika ya, ganggu kurva di lingkungan persimpangan tersebut untuk menghilangkannya). Pada ekstrem yang lain, jika hanya kelas manifold terbatas diizinkan (seperti hyperplanes Euclidean lurus saja), maka kecocokan yang baik mungkin tidak mungkin, terlepas dari dimensi, dan penyimpangan khas antara data dan kecocokan mungkin besar.Rd
Ini mengarah pada cara praktis dan langsung untuk menilai asumsi berlipat ganda: jika model / prediktor / pengklasifikasi yang dikembangkan dari asumsi berlipat ganda dapat diterima dengan baik, maka asumsi tersebut dibenarkan. Dengan demikian, kondisi yang sesuai yang dicari dalam pertanyaan adalah bahwa beberapa ukuran yang relevan dari goodness of fit dapat diterima kecil. (Apa ukurannya? Itu tergantung pada masalahnya dan sama dengan memilih fungsi kerugian.)
Ada kemungkinan manifold dari dimensi yang berbeda (dengan berbagai jenis kendala pada kelengkungannya) dapat sesuai dengan data - dan memprediksi data yang tersedia - sama baiknya. Tidak ada yang bisa "dibuktikan" tentang manifold "yang mendasarinya" secara umum, terutama ketika bekerja dengan kumpulan data manusia yang besar dan berantakan. Yang biasanya kita harapkan adalah bahwa manifold yang terpasang adalah model yang bagus.
Jika Anda tidak menghasilkan model / prediktor / pengklasifikasi yang baik, maka asumsi manifold tidak valid, Anda mengasumsikan manifold dengan dimensi terlalu kecil, atau Anda belum terlihat cukup keras atau cukup baik.